人工智能的發(fā)展還有一段較長的路要走,現(xiàn)有人工智能研究主要側(cè)重于性能方面的突破,但可靠性是一個不可忽視的問題,下面列舉幾個典型問題:
(1)第三方刻意攻擊對語音識別準(zhǔn)確率的影響
據(jù)《新科學(xué)家》報道,來自以色列巴伊蘭大學(xué)的研究人員和 Facebook 的人工智能團隊已經(jīng)表明,可以對音頻剪輯進行細微地調(diào)整,使語音識別系統(tǒng)理解出與音頻完全不同的內(nèi)容,但是這些細微的調(diào)整并不會影響人類對音頻的正確理解。
實際上,這樣的情況并不僅限于語音識別,在圖像識別等領(lǐng)域同樣存在。在訓(xùn)練人工智能系統(tǒng)的過程中,在正常的輸入樣本中故意添加細微的干擾以誤導(dǎo)機器學(xué)習(xí)算法,使人工智能系統(tǒng)產(chǎn)生錯誤的結(jié)果,這種添加了細微的干擾以誤導(dǎo)機器學(xué)習(xí)模型的樣本,就是“對抗樣本”。
(2)第三方刻意攻擊對無人駕駛可靠性安全性的影響
無人駕駛安全性應(yīng)該是無人駕駛研發(fā)的突出問題。如果有人惡意使用對抗樣本,它可以用來欺騙自動駕駛汽車,使其不能識別道路上的停車標(biāo)志,進而引發(fā)事故;可以欺騙語音識別系統(tǒng),讓系統(tǒng)聽到虛假的命令;可以將一只貓識別成一條狗;可以將惡意軟件誤分類為良性軟件,也可以阻止閉路電視監(jiān)控系統(tǒng)在人群中找出嫌犯。而由對抗樣本引發(fā)的欺騙策略也就是常說的“對抗性攻擊”。
Cissé 發(fā)現(xiàn),自動駕駛汽車中的圖片分類算法可能會忽略行人和停放的車輛。他說:“我認為我們應(yīng)該擔(dān)心我們?nèi)绾未_保汽車中使用的神經(jīng)網(wǎng)絡(luò)是安全的”。 Cissé 的團隊將少量的數(shù)字噪音引入到一個人的錄音片段,并將該錄音播放給谷歌語音(Google Voice)這款語音識別應(yīng)用程序。在這個對抗性的示例中,該應(yīng)用程序聽到了一個與事實完全不同的句子。
但是,并不是所有人都認為對抗性攻擊將會在現(xiàn)實世界中發(fā)揮作用。伊利諾伊大學(xué)香檳分校的大衛(wèi)?福塞斯(David Forsyth)建立了一個經(jīng)數(shù)字化改變的虛假的停車標(biāo)志試圖欺騙這種算法。
雖然沒有證據(jù)表明對抗性攻擊已經(jīng)被用于現(xiàn)實世界中,但是牛津大學(xué)的 Marta Kwiatkowska 說,這只是時間問題;機器學(xué)習(xí)可能會被用于攻擊系統(tǒng)。需要做出更多的研究去發(fā)明新的機器學(xué)習(xí)技術(shù)抵御對抗性攻擊。
或許最有趣的是,找到一種避免人工智能系統(tǒng)被對抗樣本欺騙的方法是相當(dāng)困難的。正如我們過去解釋的那樣,我們并不理解深度神經(jīng)網(wǎng)絡(luò)的內(nèi)在工作方式,這也意味著,我們并不知道為什么神經(jīng)網(wǎng)絡(luò)能夠接受聲音片段和圖像中的細微特征,而人類卻不能覺察到。
(3)信息內(nèi)容的可靠性
基于大數(shù)據(jù)的智慧城市,離不開網(wǎng)絡(luò)信息的提取與支撐?,F(xiàn)代社會網(wǎng)絡(luò)信息極度豐富,作為當(dāng)前網(wǎng)絡(luò)信息檢索的主要工具,搜索引擎已成為人們訪問互聯(lián)網(wǎng)資源的有效途徑。其中,用戶反饋是算法優(yōu)化、系統(tǒng)維護和性能評估的重要手段,也是網(wǎng)絡(luò)搜索和知識挖掘的重要研究領(lǐng)域之一,已越來越受到研究人員和系統(tǒng)開發(fā)者的關(guān)注。作為用戶反饋的傳統(tǒng)模式,手工評價需要耗費大量的人力和時間資源,難以大規(guī)模地實時開展。因此,如何有效挖掘和利用網(wǎng)絡(luò)用戶檢索反饋的群體智慧信息已受到研究界的廣泛關(guān)注。
真實網(wǎng)絡(luò)檢索環(huán)境下的用戶點擊行為信息往往含有大量噪音,其中摻雜了包括網(wǎng)絡(luò)爬蟲等非正常的網(wǎng)絡(luò)用戶。Joachims展開了一項稱為眼睛跟蹤研究,結(jié)果表明個體用戶的點擊信息由于搜索引擎結(jié)果排序、內(nèi)容展示等多方面原因而具有偏向性,搜索查詢和點擊文檔之間沒有明顯的絕對相關(guān)性。上述相關(guān)研究表明,有必要對網(wǎng)絡(luò)用戶的行為日志進行分析,進而提煉網(wǎng)絡(luò)用戶點擊的有效信息,過濾噪音。當(dāng)前用戶行為信息的研究方法主要基于大規(guī)模用戶點擊行為的宏觀統(tǒng)計分析,此類分析方法適用于處理用戶訪問頻度高的熱門詞查詢,不適合處理用戶訪問量較小但數(shù)量眾多的長尾詞查詢,也不適合應(yīng)用于用戶的個性化搜索,針對不同興趣的用戶有區(qū)別地返回搜索結(jié)果。
上面列舉的三個問題是僅僅近期網(wǎng)絡(luò)上關(guān)注的,在此僅作拋磚引玉之用。任何產(chǎn)品的研發(fā),質(zhì)量與可靠性方面是產(chǎn)品的核心競爭力之一。若要提高人臉識別、語音識別、無人駕駛汽車等人工智能產(chǎn)品的可靠性水平,不僅僅要關(guān)注硬件,更為關(guān)鍵的將是軟件。
參考了以下文章:
https://www.technologyreview.com/s/608381/ai-shouldnt-believe-everything-it-hears/
http://www.sohu.com/a/168112664_505819