搜索
Table_bottom

标签云
Table_bottom

分类
Table_bottom

声明
文章若未特別註明,皆採用 知识共享许可协议 請自覺遵守
Table_bottom

鏈。。。
Table_bottom

存档
Table_bottom

匆匆过客
37021
Table_bottom

功能
Table_bottom

AI在做什麼?我們應該在乎什麼、擔心什麼?

人云E云 posted @ 2018年2月19日 13:30 in 信息技術 with tags ML AI 所思 己見 , 73 阅读

過年自己給自己稍微放鬆幾天,於是有點閒暇時間;加上前兩天聽了兩場報告,分別是《Steps Toward Robust Artificial Intelligence》和《Machine Learning and AI for the Sciences - Towards Understanding》,對AI發展有一點新認識。故而覺得有必要給自己之前的知識做個總結,順便供對AI有興趣但並無太多瞭解的人對現今的AI技術有個概念,並且希望可以讓更多人擔心該擔心的,不在無意義的爭吵浪費時間。

 

雖說人工智能(Artificial Intelligence,下文簡寫爲AI)是個大話題,但現今AI技術發展主要是機器學習(Machine Learning,下文簡寫爲ML)理論及應用的發展。而說到ML,又以其中神經網絡(Neural Network或稱Artificial Neural Network,下文簡寫爲NN)近年的發展最廣爲人知(比如Google的AlphaGo)。

媒體從業人員多爲非計算機專業人士,其對計算機乃至ML的理解往往有偏差,於是報導中對原理乃至未來的說法並不一定可靠;過去(主要是上世紀)人們對AI發展估計不足,於是以前的一些理念並不一定有效(比如阿西莫夫的機器人三定律,本文第四部分會討論)。

 

本文主要分爲四個部分,其中2-4爲遞進關係:

  1. 什麼地方用到了AI(主要是ML)技術
  2. 當今ML技術(側重於NN)基礎理念及其(非常淺顯的)原理
  3. 當今ML技術的基礎理念“強大”之處,及其存在的不確定/不完美之處
  4. 如果未來AI發展仍然脫不開這個理念,我們應該展望什麼,以及擔心什麼

 

AI用在哪?

我們所接觸到的小說、影視作品中,AI往往以強人工智能的形象出現,而且主要分爲兩類:

  1. (助理)機器人,尤其是人形的爲多(例如《I, Robot》中的各種機器人)
  2. 主控系統,往往是一臺極其強大的計算機(例如《I, Robot》中的反派、《鷹眼》中的反派)

於是我們(在一定程度上)形成了思維定勢,認爲人工智能就一定是一個“完全”的智能體,擁有“思想”或是“意識”(尤其是自我意識)。然而這實際上是人工智能的特點,而要達到強人工智能,必須先研究弱人工智能。而我們現在就是處於弱人工智能的研究階段。

弱人工智能由於不具有“整體”性,於是其研究往往也是分爲幾個領域進行的,因而應用也是分爲多個領域的。除去其“核心”這種“通用”部分(例如不太在乎應用場景的“通用”ML理論),現今的研究主要是按人類的需要而劃分領域的,例如自然語言處理(Natural Language Processing,下文簡寫爲NLP)、機器視覺等。

我們現在所使用的許多聯網的(或者說是遠程的或雲端的)信息系統經常都使用了AI技術。簡單一些的例如:許多網站或軟件中的“推薦”功能,其方法就是服務器通過某種方法“學習”到你的“喜好”,從而從數據庫中“挑選”更“符合”你的喜好的記錄,再展示給你。該過程中,你的過往瀏覽歷史(如果良心一些的網站則是你所有“保留下來的”歷史)作爲數據,通過某種算法將其轉化爲一些“特徵”;在網站的信息系統的“推薦”部分中,有關於該網站上所有數據(例如視頻)的“特徵”的整理;於是在使用中,系統通過某種方法將兩種特徵進行匹配,選取其中一部分返回給用戶。該方法並不一定(很可能並沒有)使用ML技術,但的確算是在AI領域中的;其對大數據處理能力的依賴更強,所以也完全可以算是大數據應用。

人們很可能接觸到的一個ML應用是圖片的“鑑定”——無論是鑑別圖片中的內容是什麼(是貓還是狗,哪個是杯子哪個是桌子等),還是鑑定“是否爲色情圖片”,亦或是識別圖像中的文字(即OCR)。這些均是機器視覺的應用——也就是說,機器視覺其實是對“圖像”的“識別”。最近/近年較爲興旺的無人駕駛汽車中關於路面識別的部分,也是機器視覺的應用。語音輸入(或者說語音轉文字)也是基於ML的,是NLP的一個分支。

ML理念

由於種種原因(比如AI這個話題太大、人們不想再使用AI這個詞),現今的AI技術往往就只是ML技術;ML中,現在最爲火熱的就是NN,於是在談及ML時大家所說的也往往都是各種NN。但無論是否是NN,ML的原理/理念都是一致的:將過往的東西(如知識、樣本)表示爲數據,設計模型並嘗試調整模型參數來擬合數據(即從數據中學習到某種共性),之後將模型用於新數據(用戶輸入)中。

ML主要就是在研究這種過程中的幾個部分:

  1. 如何將知識、樣本等東西表示爲數據
  2. 可以設計什麼模型
  3. 如何選擇模型
  4. 如何(更好地)調整參數
  5. 如何讓計算更快

廣義上來說,中學所學的線性規劃(Linear Regression)其實就是一種ML:模型爲線性函數(一次函數),參數爲k和b值。當然,現在所用的ML方法幾乎不可能是線性規劃或其變體(如增加basis function),因爲該方法對模型的設計要求太高,而且針對每種數據都要從頭設計模型,因而重用性太差。而NN(只要層數夠多)由於被證明可以表示任意函數,因而被廣爲使用。

NN的基本理念脫胎於生物的神經細胞:一個“神經元”接受一個或多個輸入,產生一個輸出;多個神經元組合成一個“層”(不同層的神經元個數不一定一樣),接受前一層神經元的輸出(一般情況下每個神經元接受多個乃至全部前一層神經元的輸出)作爲輸入,同時本層的輸出作爲下一層的輸入。在最原始的NN(即Perceptron)中,每個神經元的“輸出”是0或者1,其理念脫胎於生物神經細胞在軸突上傳遞的電位,即“正”或是“負”;現在所用的NN往往不使用這種“硬”分割,而是使用0-1的浮點數(小數)。由於數學特性,每層神經元的輸出要是輸入的非線性變換,否則這層就沒有意義,該函數被稱爲激活函數(activation function)。普遍來說,NN中每個神經元均有一個(一系列)權值參數(個數和其輸入一樣多),它們會分別和其對應的輸入相乘,之後將這些積加起來,再經過激活函數的計算,就作爲神經元的輸出。該權值參數就是訓練時所要“學習”的參數,它會在“學習”過程中不斷變化,使得NN的整體表現越來越符合訓練數據,最終當訓練結束後它們就不再改變。

直到目前爲止,本文中所有NN均指前饋神經網絡(Feed-Forward Neural Network),這也是一般情況下提及NN的含義。但事實上,NN還有其他模式,例如經常用於機器視覺的卷積神經網絡(Convolutional Neural Network)、常用於NLP多個領域的Recurrent Neural Network(有翻譯爲“循環神經網絡”)及Recursive Neural Network(直譯爲“遞歸神經網絡”)。它們和Feed-Forward NN的相同之處在於它們都有“神經元”和“層”的概念,但和Feed-Forward NN在“神經元”或層與層的連接方式上有所不同。

我們可以看到,NN本身就是純數學運算,而ML的其他方面也均是各種數學方法。所以說,認定ML是AI的一個分支,秉持了這麼一個假設:人類的“智能”就只是“計算”。

ML的美好與問題

ML的研究很成功,甚至僅僅是NN就很成功。許多我們以前認爲難以解決的問題,都在一個個通過更好的模型或更好的訓練方法而得到解決或邁向解決——這裏所謂“解決”,是指在該問題/課題上,計算機的正確率不比人類的平均水平差(部分問題中甚至更好)。比如在圖像識別上,現有系統可以輕易分辨一幅複雜圖片(照片)上的各個物品(電腦、鍵盤、鼠標、桌子、水杯、書本等);比如自動駕駛汽車的發展;比如各種智能助理(包括但不限於Google Home、Amazon Echo,或是Siri、Cortana之類)。

一切看似很美好,但在此表象之下,則是研究人員衆所周知,但又難以解決的問題:我們不知道我們的系統究竟學了什麼。換句話說,當我們有了一個效果很好的系統之後,我們只知道它“效果很好”,但不知道它“爲什麼”效果很好。該問題的核心在於我們只是設計了系統的結構(例如神經網絡有幾層、每層幾個神經元、數據集是什麼以及是什麼樣等),但系統的參數是由訓練得來的,而我們並不知道這些參數代表了什麼,因而也無法解釋擁有某個參數的某神經網絡“學到”了什麼。對於工程來說,這不是什麼問題;但對於科學來說,這問題很大。科學研究的目的是尋找現象的解釋,之後運用解釋理論來指導日後的生產生活;但由於ML系統所學到的東西我們普遍無法解釋,因而我們也無法從中學到有益的東西來完善理論,於是我們所不知道的東西還是不知道。

此外,上一部分的最後提到了ML的假設:“智能”就只是“計算”。從ML的原理上,該結論可以說是顯而易見。但我們真的可以確認智能就只是計算麼?我們的生物學研究足以支持我們做此結論麼?

展望於擔心

經過前面的鋪墊,ML的幾個側面已經全部展開(展現),因而在此之上我們可以嘗試對未來做出推測。以下討論全部基於現在的ML理論(要點已被討論),如果未來理論有所改進,則這些推論未必成立。

首先有一點毋庸置疑:AI的發展至少在近期內可以爲我們(人類)提供更爲方便、優秀的服務。自動駕駛汽車幾乎必然會成功(如果失敗,一定是政策方面的事情,而絕非技術做不到),自然語言交互系統也幾乎必然會出現(因而現在意義上的“搜索引擎”將會被淘汰),醫療方面的許多過程也將可以自動化。

但我們除了着眼不久遠的將來,更要着眼於更長遠的地方。而思考長遠,其核心問題就是:“智能”是否只是“計算”?(甚至還有更本質的問題:“智能”究竟是什麼。當然這個就是哲學問題了。)

從而,我們可以將AI(最終)的可能性分爲如下幾種:

  1. AI不具有自我學習能力
  2. AI具有自我學習能力,不具有辯證能力
  3. AI具有自我學習能力,且具有自我意識

這裏,“辯證”能力是指能夠對任何指令/語句/說法(尤其是“自己”最初的“目的”)有取捨地“遵循”。並且,此處認爲(長期的)辯證能力等於自我意識。(下面討論時按照1、3、2的順序進行。)

1. AI不具有自我學習能力

這種狀況幾乎就是我們現有的AI研究狀況。當然,未來的研究人員可能提出什麼新方法,使得AI的效果更好,但此處認爲始終跨不出需要人的“指導”這一步。

這種狀況下,我們不需要對AI本身帶有什麼恐懼,因爲我們清楚AI的行爲極限就是其設計者的結構預期;但我們需要擔心的是AI設計者究竟會怎麼製作AI。

另外,現有的AI研究(尤其是NN)仍舊存在一個問題:我們無法解釋AI究竟做了什麼,而只能設計其結構,並“大體上”知道其大致上在做什麼。這樣,AI本身對我們理解世界並不會起到作用,我們依然需要依靠自己的智能來提出新理論與解釋。

3. AI具有自我意識

這是各科幻小說、科幻影片中最常討論的問題,而且其實討論比較深刻。這裏僅簡單做一歸納。

矛盾的焦點主要集中於AI具有自我意識後(長期)會怎麼對待人類,其中幾個主要可能性爲:

  1. 服務人類(理想狀況1)
  2. 和人類平等共存(理想狀況2)
  3. 超越人類,之後對人類不感興趣(不太理想,良好結果)
  4. 大量干涉人類社會,重塑社會(不太理想,良好與否不定)
  5. 統治人類,使人類爲自己服務(不理想,不良結果)
  6. 清除多數人類,出於自己需求(如展覽)而圈養(部分)人類(不理想,不良結果)
  7. 清除所有人類(最壞結果)

注意這裏的好壞是從人類(文明)的角度考慮的,且我不太贊同“AI出自人類之手,所以就算(AI導致)人類滅絕+文明資料全毀,只要AI存在那麼人類文明就得到了繼承”這種說法;另外,這裏是將AI作爲一個整體(文明)來考慮,不考慮其中“個別”個體(假如存在個別個體)對人類的態度問題。

科幻作品多在討論可能性1(《星球大戰》)、2(《星際迷航》)、4(《鷹眼》)、5(《黑客帝國》)、7()之下的狀況,而對於3和6罕有涉及。其中6的結果顯而易見,而3其實除了讓人類的自信/ 自尊受到影響以外則沒有什麼大影響(除非AI同時奪走了電子科技或更高級的計算科學)。

阿西莫夫著名的《機器人三定律》是在討論一種“AI具有自我意識”的前提下試圖約束AI只會發展到可能性1和2的方案。然而,其實該“三定律”並不能起作用——AI並非傳統的指令式程序編製方法,我們(開發者/研究者)無法將某種“指令”(“三定律”)嵌入到AI中去。

2. AI具有自我學習能力,不具有辯證能力

AI的自我學習能力是當前AI研究的一個目標(換句話說現在其實還遠遠沒做到)。GAN爲此提供了一種可能性,但似乎通用型的算法仍然遙遙無期。

在這種假設之下,我們不需要擔心假設3之下AI可能會統治人類的問題(當然,也無法暢想AI和人類共同發展的美好將來)。從而,我們所需要聚焦的地方在於人類對AI的設定(目標)會不會導致什麼嚴重後果。

“壞人”使用了AI技術

假如有“壞人”使用了這種AI技術,由於AI的自我學習能力,它最終會忠實執行其命令。以現在的形勢來看,我們這些“好人”是沒有什麼良好應對方案的——除了在該AI實施任何行動前拔掉該AI所在的全部主機的電源。(注意在AI實施行動後,我們可能已經無法挽救。)

一線生路在於:如果我們可以有方案制約(或是督察)AI“學習”的過程,那麼就可以在“壞人”的AI學習的過程中及時發現,從而提前消除隱患。以我們現在的技術方案(而非技術水平),我們並沒有這種方案。故而,我們需要考慮未來需要什麼樣的方案。

“學習”的過程分爲兩個方面:1. 學習的數據;2. 學習方法。如果我們可以建立一個系統,統一對數據的調取進行授權/統計,這樣可以最大限度地減小不可信(或未知)人士對敏感數據的使用。類似地,如果我們可以建立一個系統和體系,要求所有的“學習”過程都需要經過該系統授權,且1. 所有代碼需要公開(開源),執行軌跡需要記錄且公開 2. 所有對數據的使用都需要經過系統授權,這樣又可以大幅降低風險。

當然,必須承認的是這樣依然無法做出保證。但考慮到AI訓練所需要的大量時間+數據+計算力,或許從這個角度入手也是一個可行方案。

只有“好人”在使用AI技術

到目前爲止,這是最理想的方案,看似沒有任何問題。但其實在該方案之下,也有隱患潛伏。該隱患就是:一個“好”的目標也可能造成“壞”的結果。

因爲AI不具有自我意識及辯證能力,所以其唯一目標就是“更好地完成我的任務”。而這裏有一個我們作爲人很容易忽略的事情:“更好地完成任務”的“度”在哪?

這個“度”的問題對於我們人來說太過理所當然,以至於我們往往意識不到它的存在;而對於現在的AI研究,現有的結果遠遠不夠,故而也不用操心“度”的問題。但這不代表“度”不是問題,更不代表這個問題不重要。

這篇文章(接近最後的部分)中有一個“隔壁老王機器人”的小科幻故事,該故事比較明(kuā)確(zhāng)地勾繪了一個擁有自我學習能力、忠實執行自己目標的AI程序由於沒有“度”的概念導致的悲劇。簡單來說,這個隔壁老王機器人是一個寫字機器人,具有自我學習能力,其被編程的目標是“速度更快地寫出更好的字”;而爲了完成這個目標,它需要不斷地寫,之後不斷地(自主)完善自己的書寫;再之後,由於公司員工無意間發現如果將隔壁老王機器人接到互聯網上可以讓它寫得更好,於是就將它接上了;爲了寫更好的字,爲了獲取更多的資源來做更多的訓練,隔壁老王機器人最終控制了全球(同時消滅了人類),乃至衝出地球。

(我個人並不完全認同上面所鏈接的那篇文章中的觀點。但它山之石可以攻玉,有興趣的話還是可以一看的。)

洋洋灑灑寫了這麼多,其實也沒有什麼真正有效的“指引”,畢竟就算是我、我們自己也都不知道AI研究會走向何處。

至少我們可以列舉一些不正確的地方,日後行止不要再相信(乃至迷信)這些東西。

至少我們可以知道當下的AI技術運用太過隨意,個人信息安全難以得到保證,我們需要修正這一狀況。

至少我們可以確定無論AI是何種層級,均有好壞兩種結果,而究竟產生好還是壞在某種程度上取決於我們自己。

至少我們知道“我們什麼都不知道”,脫離unknown unknow,依然有改進希望。

 

就我個人而言,我當前對“如果強人工智能可以實現”基礎下人類究竟如何自處的唯一解法是:使得AI可以理解並接受感情,並和AI培養感情。(但“感情”是什麼?)


登录 *


loading captcha image...
(输入验证码)
or Ctrl+Enter