百家乐必知技巧
數據庫

八年之癢!除了NLP和CV,人工智能就不能干點別的啥了?

廣告
廣告

大數據文摘出品

來源:medium

作者:Sergii Shelpuk

編譯:王轉轉、junefish、武帥、錢天培

從2012年AlexNet驚艷亮相開始算起,AI已經經歷了將近8年的蓬勃發展期。

這一迅猛發展尤其反映在了AI頂會的參會數據上。2013年,ICML的參會人數僅有數百名,但到了2018年,這一數量上升到了5000多。2019年12月,機器學習領域的最大型的會議NeurIPS更是聚集了13000名AI研究人員和工程師。

大型會議參會人數變動圖

AI研究人員的迅速涌入也直接導致了論文數量的爆炸增加。如今,arXiv已有六萬多篇AI論文。

2013年,一位AI專家可能會熟悉其子領域中的所有出版物。在2019年,這是不可能的。如今,行業中的絕大多數AI工程師都依賴“最佳論文”和其他簡要名單來了解最新成果。

從最開始星辰大海般的探索,到如今研究領域的細分再細分,AI研究似乎也進入了“小修小補”階段。

那么,AI研究中我們能夠解決的重大問題是否已經完全被解決了呢? 下一次的AI大突破是否就要等待新的里程碑式的研究呢?

AI基因研究公司Deeptrait的創始人Sergii Shelpuk認為,我們在這一輪AI發展期中依舊大有可為。

除去自然語言處理和計算機視覺兩大領域,我們還有太多領域可以開拓。

下面,我們對Sergii Shelpuk的觀點進行了編譯整理。

arXiv上AI子類論文數量變動圖

首先,讓我們來梳理一下如今AI從業者面對一個新問題時的常見心路歷程。

以計算機視覺為例,只需看一看圖像識別的最新技術,然后選擇適合要求的體系結構即可。在比如自然語言處理,如果需要進行情感分析等任務,同樣只需瀏覽有關此問題的出版物,然后選擇適用于您的數據,硬件和所需性能的解決方案。

即使現有出版物不存在針對特定問題的解決方案,它也涉及“關于子問題的子問題”。例如,傳統的數據增強技術無法給你的數據集帶來理想的結果,或者,神經網絡在收集到的數據集中表現不佳,亦或是最佳的詞語嵌入技術在特定任務情境下表現不佳,等等。

這些年來,人們不斷遇到這些關于子問題的子問題,似乎關于AI的所有重大問題都已得到解決,越來越多的針對不斷縮小的研究領域的論文的發表更加強化了人們的這種印象。

當我們開始使用DeepTrait開發用于基因組分析的AI系統時,我們查閱了現有文獻。我們以為,深度學習的研究者已經詳細探討過所有相關的問題,例如異構數據分析。如今,基因組分析已成為人類研究中最有前途和最重要的領域之一,并且該領域中總共已有6萬多篇AI論文發表。研究者們肯定已經完成了相對廣泛而深入的工作,不是嗎?

但事實證明并不是。在2019年12月12日訪問arXiv并搜索“深度學習”,共有22,140篇論文。然而將搜索內容更改為“深度學習基因組”后,發現只有76篇相關的論文,其中許多論文并未解決基因組數據的問題,只是提到基因組是未來潛在的相關應用方向。

在其他論文來源(包括bioRxiv)中搜索有關基因組學的深度學習論文,也就僅有200多篇。其中絕大多數運用的還是過時的神經網絡架構和訓練技術,另外很大一部分錯誤地使用了這些工具,例如,將卷積神經網絡應用于異構數據(例如SNP),這導致了模型表現不佳。我們發現這樣的論文并不在少數。

那些正確使用AI工具的人主要將其應用在分析基因組的較小子序列,例如啟動子或蛋白質結合位點。他們的輸入數據最長為一到兩萬個核苷酸。相比之下,擬南芥基因中的核苷酸數量接近1.35億,而這僅僅是我們在第一次測試中所使用的基因之一。因此,我們沒有現成的范例或已有的神經網絡架構可供參考,也沒有針對這種大小序列的訓練技術,完全沒有!我們必須從頭開始。

大家都在研究什么?

我感到奇怪,因為研究基因組數據具有巨大的潛力。高通量測序可產生大量數據,而AI似乎是理所當然的研究工具。然而,按論文的比例衡量,基因組學只占AI研究關注的1%。

那么剩下的99%在哪里?基因組數據的AI應用顯然是一個機遇,如果這樣一個寶貴的研究課題都被忽視了,那么也許還有更多研究課題有待探索。

我回到arXiv尋找其他潛在的AI應用方向。例如,現代天文學會生成大量數據:影像數據、射頻、帶注釋的天體(包括天空的最小部分)等。還有可能改變我們對宇宙認知的重大問題,例如“什么是暗物質?”,例如恩里科·費米(Enrico Fermi)所提出的著名問題的“他們都在哪呢?”

利用AI的力量通過分析宇宙中探測到的天文數據來解決這些重要的謎題,應該是一個顯而易見的方向,不是嗎?

然而現在在arXiv搜索“深度學習暗物質”,卻只有20個結果。

接下來是什么?材料科學?現代強化學習模型可以擊敗圍棋和星際爭霸2中最好的人類玩家。這些模型的表現如此出色,以至于AlphaGo的勝利被刊登在《自然》雜志上,最近,世界上排名最高的圍棋選手李世石選擇退役,留下一句話,“AI難以被擊敗”。(注:李世石的原話是“即使我成為棋手中的第一,我也無法站到頂點了,因為還有一個個體是我無法打敗的。”聽起來好悲壯o(╥﹏╥)o )

這個消息令人鼓舞,將相同的方法應用于材料科學怎么樣?人類已經對物理和化學了解很多。我們可以構建一個模擬器,在其中可以通過強化學習來學習如何自行創建新材料(例如石墨烯)。這些新材料可以創造出新的飛機和艦船,空間升降機,水下站,甚至幫助人類移民到外太空。這應該是一個有趣的研究方向。

然而,arXiv上只有16篇有關“深度學習晶體結構”的論文。

這世界真小

事實證明,幾乎所有現代AI研究和工業應用都聚焦于兩個子領域中的十幾個技術問題:計算機視覺和自然語言處理。

AI創新的反向金字塔

我們可以使用倒金字塔為AI世界建模。每個較低的層級都啟發較高的級別模式,對其進行具象化并在某種意義上對其進行定義。

最底層是非常深入的基礎科學和技術。它涉及對神經網絡,算法優化,統計屬性以及這些工具的概率性質的理論理解。

中間存在一個技術層面的問題。這就是我前面提到的十幾個技術子問題。對于計算機視覺而言,它們是用于NLP的圖像識別,圖像分割和圖像生成,包括解析,文本分類,機器翻譯和問題解答等方面,其中通用語言理解評估(GLUE, General Language Understanding Evaluation)基準很好地代表了后者。

大多數研究人員和行業專家都處于這一級別。當然不是所有的人都專注于涉及GLUE或視覺任務的研究,你可能就是一個例外而不同意我的說法。但是,作為局內人,你可以清楚地明白我們中有多少人處于這個級別之中,又有多少人從事與這份任務清單本身、變形或組合之外的工作。

中間層的界限取決于理論科學底層的發展狀況。在底層出現的任何新想法,例如梯度下降,存儲單元或卷積濾波器,都可以在技術問題級別實現一系列新動作。

正如理論科學的進步可以實現整個技術領域的擴展一樣,解決單個技術問題也可以實現金字塔頂端的一系列工業應用成為可能。

該模型說明了行業的一個基本限制:雖然將產品從技術問題的層次轉換到工業應用相對簡單,但是反過來則難以實現。將應用程序流程視作一系列單向箭頭,如果我們在技術水平上只有一群特定的計算機視覺和自然語言處理工具,那么許多工業應用將無法實現。如果事實是這樣,絕大多數人都會這樣做。一位需要設計工業應用程序的AI專家最初希望在技術層的某個地方找到答案,但實際上可能會走向更廣泛且令人興奮的技術問題。

走進AI

技術問題和工業化實踐的當前狀態使得從應用程序到現有技術工具的反向路徑幾乎難以實現。現有的AI工具箱是為計算機視覺和自然語言處理(NLP)中特定的應用量身定制的,而這些工具越先進,其關注范圍就越窄。

以數據的大小為例,在植物基因組學中,我們從擬南芥的1.35億個字母基因組開始。如果將其按比例成卷打印,一個擬南芥基因組的每個數據點將占用150卷,這還僅僅只是開始。番茄基因組將生成9.5億個字母文本或1,055卷印刷量,大麥將生成53億個字母或5,888卷,小麥將生成170億個字母或18,888卷。當前的NLP無法處理這么大數據量的任何東西,我們目前所有的用于NLP的現代深度學習工具,例如類似變壓器的網絡,只能處理長達數千個元素的序列。

另一個例子是數據的性質。基因組由四個離散的核苷酸組成,這些核苷酸由四個字母分別表示:A,C,T和G。一個核苷酸的T字母數量不容許出現多一個或者少一個的任何偏差,此外,將單個T更改為其他字母,則可能導致完全不同的表型,致命疾病或致死性疾病。

上述潛在問題都限制了為連續數據開發的計算機視覺技術的使用。將這些數據規模加總,以方形四通道圖像表示的人類基因組將具有54,772 x 54,772像素的分辨率,這遠遠超過了現代計算機視覺神經網絡可以處理的分辨率水平。

基因組數據的性質和大小對我們目前所有最先進的深度學習技術提出了挑戰,在計算機視覺或NLP領域中迄今還沒有可借鑒的神經網絡體系或訓練實踐能夠解決上述問題。

天文學,化學,材料科學等數據豐富的學科,都存在著類似的問題:它們無法使用局限于狹窄的計算機視覺和NLP解決方案的現有AI工具集。目前有幾種流行的解決方法,例如將十六進制數據轉換為圖像,調整其大小之后再使用計算機視覺工具等,但它們并沒有太大幫助。

在這一點上,那些堅持不懈地尋求解決方案的人別無選擇,只能進入人工智能的最深層次,即理論層次。 AI生態系統的這一根源促使了很多發現,包括關于深度神經網絡如何工作,不同體系結構如何影響其行為,不同激活功能如何與特定數據分布相互關聯等。換句話說,你可以使用這些工具創建自己的工具箱,并應用于你關心的工業程序。

這是一場艱難的旅程,它需要時間,深厚的專業知識,奉獻精神和些許運氣,但最終,你將在AI生態系統中開發出全新的技術問題層。盡管是為特定的工業應用而構建的,但該新工具集可以很多解決其他問題,例如解決圖像識別的技術可以為各種產品和產品原型提供新的思路,從放射學分析到自動駕駛系統例如Tesla Autopilot等都將受益于此。

新技術問題層使一系列新的工業應用成為可能

藍海

解決計算機視覺和NLP的技術問題是一條非常可靠,可預測和安全的途徑。在這些領域有很多研究小組,初創公司和知名公司。專門研究計算機視覺或NLP還可以確保你接觸到前沿的工具,包括數據集,GPU技術,框架,以及大量的開源存儲庫等,這些儲存庫囊括了示例,庫,基準測試和其他有用的資源。好的工具可以減輕我們的工作負擔并提高生產力,這也許可以解釋為什么AI人才在這兩個特定領域中聚集。

另一方面,創造自己的用于天文學,遺傳學,化學,材料科學,地球科學或經濟學的AI工具箱是一項充滿挑戰,甚至偶爾令人沮喪的孤獨旅程,你只能依靠自己和你的團隊。但是,它可以使整個領域收益,足以建立另一個十億美元級別的公司或一個研究機構。

目前,人類面臨著許多至關重要但尚未解決的問題。對于其中的許多問題來說,那些勇敢的先驅們已經收集了多到無法分析的大量數據。他們的目的很簡單,收集數據并繼續前進。這些數據就在那里,等著人們去發現它的價值,但是有時這需要花費數年的時間。這些問題中還有許多仍未得到解答,因為它們被證明是無法明確解決的。但是,人工智能技術也因此而聞名,因為它能夠學習如何破解無法解決的問題。

遠離擁擠的人潮,靜坐冥思,你會發現整個世界都被AI社區所忽視了。這個世界等待了數十年,翹首以盼那些AI先驅的到來。沒有地圖,沒有線索,它們只把自身的價值送給那些勇于探索并一往無前的人。

相關報道:https://medium.com/towards-artificial-intelligence/the-too-small-world-of-artificial-intelligence-553c0ee05856

我還沒有學會寫個人說明!

一份關于機器學習“模型再訓練”的終極指南

上一篇

誰創建誰銷毀,誰分配誰釋放——JNI調用時的內存管理

下一篇

你也可能喜歡

八年之癢!除了NLP和CV,人工智能就不能干點別的啥了?

長按儲存圖像,分享給朋友

ITPUB 每周精要將以郵件的形式發放至您的郵箱


微信掃一掃

微信掃一掃
百家乐必知技巧 快乐十分三胆全拖金额 让分胜负 伯乐彩票平台是真的吗 乒乓球吧吧 梦幻西手游赚钱方法 股票配资风险 双色球复式费用计算方法 网球比分直播雪缘 博雅彩苹果 新疆18选7开奖结