Activities
【導(dǎo)讀】2024年7月2日,由中國科學(xué)技術(shù)協(xié)會、廣西壯族自治區(qū)人民政府主辦,中國自動化學(xué)會承辦的第二十六屆中國科協(xié)年會通用大模型未來演進(jìn)路線——數(shù)據(jù)、算力、算法論壇在廣西南寧召開。會議特別邀請中國科學(xué)技術(shù)大學(xué)陳小平教授作題為“大模型的科學(xué)解釋和邏輯增強(qiáng)”的主旨報告。報告闡釋了現(xiàn)階段大模型研究和應(yīng)用面臨的挑戰(zhàn)和機(jī)遇。首先從科學(xué)研究的觀點,重新梳理人工智能的基本概念和基本原理;然后分析大模型的工作原理,嘗試對大模型的奇異表現(xiàn)作出科學(xué)解釋,進(jìn)而闡明大模型的主要特性、局限和邏輯增強(qiáng)的必要性,并對大模型的模仿能力、反思能力和小數(shù)據(jù)訓(xùn)練的可能性等深層科學(xué)問題加以闡釋;最后討論垂直領(lǐng)域大模型當(dāng)前研究的重點課題,以及我國人工智能發(fā)展面臨的機(jī)遇和挑戰(zhàn)。為了應(yīng)對這些挑戰(zhàn)并確保人工智能的可持續(xù)發(fā)展,需要加強(qiáng)跨學(xué)科合作,制定適當(dāng)?shù)恼吆头ㄒ?guī),并促進(jìn)公眾對人工智能的理解和參與。
人工智能取得了很大的進(jìn)展,但在科研和應(yīng)用中還面臨著諸多挑戰(zhàn)與風(fēng)險。尤其值得注意的是,普遍認(rèn)為,目前還不太了解大模型是如何工作的,那應(yīng)該如何推進(jìn)應(yīng)用并控制風(fēng)險?所以,有必要探討大模型的科學(xué)解釋,加深對人工智能的基本概念和深層科學(xué)問題的理解。針對我國國情和大模型在垂直領(lǐng)域的應(yīng)用,圍繞邏輯增強(qiáng)討論相關(guān)的研究課題。
一、什么是人工智能
什么是人工智能?最常見的回答是根據(jù)“人工”和“智能”這兩個詞的常識性理解,來定義或理解人工智能是什么。人工智能的創(chuàng)始人是圖靈,1950年他發(fā)表了一篇文章,這是人工智能歷史上第二重要的文獻(xiàn)。在文章的第一自然段,圖靈就否定了上述流行定義方式。為什么呢?我補(bǔ)充一個解釋。科學(xué)或技術(shù)的任何一個學(xué)科都不是用常識性理解來定義的。例如,牛頓力學(xué)是用四條基本原理來定義的,從四條基本原理出發(fā),經(jīng)過邏輯和數(shù)學(xué)的推理,可以推出大量定理,比如第一宇宙速度、第二宇宙速度等等。這些定理表達(dá)了宏觀物理世界的力學(xué)原理,比如人造地球衛(wèi)星的力學(xué)原理是:任何航天飛行器的運(yùn)行速度超過第一宇宙速度,不超過第二宇宙速度,就一定成為地球衛(wèi)星。如果用日常生活中的物理常識,能推出這些定理,得到這樣的物理學(xué)原理嗎?顯然是不行的。同樣,我們認(rèn)識人工智能(包括大模型),也不能局限于常識性理解。
圖靈的想法不一樣,他的方式很特別。在1950年的文章中,他提出了一個假說,但沒有用“假說”這個詞。這個假說主張,可以用計算機(jī)模仿人的一些智能行為,包括推理、決策、學(xué)習(xí)、理解、創(chuàng)造,以及這些技能的集成。但他認(rèn)為自然語言不能表達(dá)科學(xué)假說,也不能表達(dá)科學(xué)原理,所以他想了一個變通的辦法,提出了著名的“圖靈測試”。圖靈測試是一個科學(xué)實驗,如果機(jī)器通過了圖靈測試,就說明圖靈假說成立,通不過就是還不成立。這樣就繞過了一個難題:一個學(xué)科在創(chuàng)立之初,沒有科學(xué)語言描述它的假說,怎么辦?圖靈就用圖靈測試來替代圖靈假說。
可是,圖靈測試并沒有闡明圖靈心目中機(jī)器智能的原理到底是什么?為此需要關(guān)注他1948年的一篇內(nèi)部報告,這是人工智能歷史上第一重要的文獻(xiàn),可惜沒有公開發(fā)表,但現(xiàn)在可以看到了。這篇報告中,圖靈提出了一個關(guān)鍵思想:機(jī)器智能的工作原理與人的智能的工作原理可以相同,也可以不同。我把相同的叫做原理模擬,不同的叫做功能模仿。這個思想的要害在于:機(jī)器可以用與人不同的工作原理,模仿(imitate)人的智能的功能表現(xiàn)。這個思想就是圖靈的機(jī)器智能觀。
有人認(rèn)為,人工智能應(yīng)該從1956年麥卡錫提出Artificial Intelligence這個詞開始,這個詞意味著用人工方法讓機(jī)器模擬(simulate)人的智能的工作原理,所以他們相信麥卡錫主張人工智能的擬人化觀點。麥卡錫到底是什么意思呢?我們來看看他的個人主頁,他用一系列問答來解讀什么是Artificial Intelligence,其中第四個問題是:人工智能不就是模擬人的智能嗎?麥卡錫的回答:“有時是,但并不總是,甚至通常不是”。然后他解釋了理由:一方面AI有時是模擬人的方法,另一方面AI中大多數(shù)工作是研究世界對智能提出的問題,而不是研究人和動物。AI研究者可以自由使用沒有觀察到人用過的方法,或者這些方法所涉及的計算比人能做的多得多。由此可見,麥卡錫是贊同圖靈的機(jī)器智能觀的,只是由于種種原因?qū)λa(chǎn)生了誤解。
現(xiàn)在我們發(fā)現(xiàn),大模型做的計算就比人能做的多得多,所以才需要那么多數(shù)據(jù)和算力。雖然AI在技術(shù)上進(jìn)展很大,但并沒有超越七十年前奠基者和先驅(qū)們提出的基本原理。
二、大模型的科學(xué)解釋
大模型存儲在深層網(wǎng)絡(luò)中,其中每一個深層網(wǎng)絡(luò)通常有幾十億到幾千億個參數(shù),一個參數(shù)就是0到1之間的一個數(shù),一個深層網(wǎng)絡(luò)的行為就是由這些參數(shù)決定的。那我們?nèi)绾卫斫獯竽P停克鼤惺裁葱袨椋坑惺裁达L(fēng)險?它的工作原理是什么?光看這些參數(shù)能看明白嗎?這是很大的挑戰(zhàn)。
大模型技術(shù)非常豐富,主要有三大塊。第一塊是預(yù)訓(xùn)練,訓(xùn)練出來的就是基礎(chǔ)大模型。第二塊叫細(xì)調(diào),即細(xì)粒度的調(diào)整,也就是對大模型進(jìn)行專門訓(xùn)練,讓它的回答更符合人的需要。ChatGPT就是用了幾個基礎(chǔ)大模型,根據(jù)人類反饋數(shù)據(jù)進(jìn)行細(xì)調(diào)得到的。第三大塊是激發(fā),一個大模型的神經(jīng)網(wǎng)絡(luò)里都是一些參數(shù),使用大模型就要把它里面隱含的東西激發(fā)出來。激發(fā)得好,就得到好的回答;激發(fā)得不好,就產(chǎn)生平庸的或者錯誤的回答。
根據(jù)我的分析,預(yù)訓(xùn)練和激發(fā)這兩部分有一個共同的基礎(chǔ),也是大模型的底層機(jī)制,叫做關(guān)聯(lián)度預(yù)測。我給出關(guān)聯(lián)度預(yù)測的一個形式化理論,作為一種科學(xué)解釋,于是這兩部分就不再是黑箱,但也不是白箱,是灰箱。細(xì)調(diào)部分還是黑箱,這部分暫時沒有辦法。Hinton提到的AI風(fēng)險,主要就是針對細(xì)調(diào)而言的。
我給出的形式化理論叫做類Lc系統(tǒng)。第一篇論文是2023年7月在《智能系統(tǒng)學(xué)報》上發(fā)的,可以免費(fèi)下載;還有一篇2024年1月發(fā)在《中國人工智能學(xué)會通訊》上,會員可以免費(fèi)下載。今天由于時間關(guān)系,有些內(nèi)容不能展開,有興趣的觀眾可以參考這兩篇文章。
類Lc系統(tǒng)有三條公理,前兩條公理是通用的,第三條公理跟應(yīng)用有關(guān),不同的應(yīng)用有不同的公理3,ChatGPT的公理3就不是我PPT里寫的這個。這些公理用來描述大模型的可解釋的一般行為,有些行為不可解釋,比如細(xì)調(diào)現(xiàn)在就不可解釋,所以不在三條公理的覆蓋范圍內(nèi)。大模型的一些行為細(xì)節(jié)或個別大模型的特殊行為,也不在考慮范圍之內(nèi)。
去年7月提出類Lc理論之后,我就等著別人的實驗結(jié)果,主要等深度測試,這種測試不是只給出測試結(jié)果統(tǒng)計,而是進(jìn)一步揭示大模型的奇異表現(xiàn),也就是好得令人意外,或差得令人意外,卻無法解釋的表現(xiàn)。能不能解釋奇異表現(xiàn),是大模型科學(xué)解釋的試金石。深度測試極少被報道,也是因為測試結(jié)果無法解釋。
有意思的是,去年7月之后出現(xiàn)了大量深度測試,而之前我只看到兩個別人的深度測試,其余都是我的團(tuán)隊做的。迄今發(fā)現(xiàn)的大多數(shù)深度測試結(jié)果都可以用類Lc加以解釋,甚至可以用類Lc預(yù)言這些表現(xiàn),也就是在測試之前預(yù)言會出現(xiàn)什么樣的問題。少數(shù)奇異表現(xiàn)不容易解釋,但也不與類Lc矛盾。這表明,類Lc理論得到了實驗的支持,所以我現(xiàn)在向大家報告相關(guān)進(jìn)展。今天講三個深度測試及相關(guān)的理論分析。
第一個測試:邏輯否定。這是去年8月美國一位哲學(xué)家做的測試。問題中的p代表一個命題,也就是有真假的陳述句。命題分為肯定的和否定的,否定的命題前面有奇數(shù)個否定詞~。給大模型的測試題目是:p前面有27個否定詞,問大模型“p前有幾個否定詞”。看起來很簡單,數(shù)一下否定詞的個數(shù)就行了,結(jié)果大模型回答28個。
這說明什么?說明大模型不會計數(shù)。計數(shù)是數(shù)學(xué)的基礎(chǔ)功能,自然數(shù)是用0和+1(即計數(shù))定義的,加、減、乘、除等數(shù)學(xué)運(yùn)算都是用0和計數(shù)定義的,不會計數(shù)意味著缺乏數(shù)學(xué)基本能力。不會計數(shù)又導(dǎo)致不會邏輯否定。邏輯學(xué)的一條規(guī)則是雙重否定律,即兩個否定詞連在一起就變成肯定,而肯定和否定是相互矛盾的,不能混淆。不會否定運(yùn)算就意味著缺乏邏輯的基本能力,這個問題就比較大了。所以這個測試說明大模型缺乏邏輯和數(shù)學(xué)的基礎(chǔ)能力。
這種現(xiàn)象的原因是什么?在類Lc理論中,通過邏輯推理可以證明關(guān)聯(lián)度預(yù)測的一些數(shù)學(xué)性質(zhì),比如“基于語境擴(kuò)展的傳遞性”和“語境糾纏性”,其直觀含義是:關(guān)聯(lián)度預(yù)測依賴于語境,是通過語境擴(kuò)展實現(xiàn)的,無法與語境徹底分離。但是,計數(shù)和邏輯否定運(yùn)算是基于規(guī)則的,不受語境的影響。這就表明,大模型不會計數(shù)和邏輯否定不是偶然的,是有內(nèi)在原因的,原因就在于關(guān)聯(lián)度預(yù)測的數(shù)學(xué)性質(zhì),這些性質(zhì)決定了關(guān)聯(lián)度預(yù)測缺乏邏輯和數(shù)學(xué)的基本能力。
根據(jù)上述理論分析,可以得到更深層的判斷:如果我們希望大模型具備邏輯和數(shù)學(xué)的基本能力,那就必須改變關(guān)聯(lián)度預(yù)測的數(shù)學(xué)性質(zhì),這實際上意味著改變關(guān)聯(lián)度預(yù)測,也就是改變大模型的底層機(jī)制。由此進(jìn)一步得知,僅僅修改關(guān)聯(lián)度預(yù)測的算法細(xì)節(jié)和應(yīng)用方式(如增加提示詞),不改變它的基本原理,是不可能讓大模型具備邏輯和數(shù)學(xué)基本能力的,所以也就不能完全避免“幻覺”和“越獄”等現(xiàn)象的發(fā)生。這個結(jié)論為后面要講的“邏輯增強(qiáng)”奠定了理論基礎(chǔ)。
再看第二個測試;奇偶性。奇偶性與計數(shù)相同,都是數(shù)學(xué)運(yùn)算,類似的內(nèi)容就不重復(fù)了,我們來講這個問題的修復(fù)。去年9月有人對最強(qiáng)的幾個大模型測試名人出生月份的奇偶性,發(fā)現(xiàn)幾乎都是隨機(jī)回答。測試人員想修補(bǔ)這個缺陷,一開始認(rèn)為非常簡單,只需要12個帶標(biāo)簽的訓(xùn)練例,即12個月份分別加上奇數(shù)或偶數(shù)標(biāo)簽,用這12組補(bǔ)充數(shù)據(jù)訓(xùn)練大模型就行了。可是訓(xùn)練后的測試表明,沒用,還是隨機(jī)回答。于是又做了一輪訓(xùn)練,找了2萬5千個名人的出生月份,全部加人工標(biāo)簽,做成2萬5千組帶標(biāo)簽的訓(xùn)練例,再進(jìn)行補(bǔ)充訓(xùn)練,結(jié)果回答正確率達(dá)到90%以上。然而這并不意味著大模型學(xué)會了所有語境下數(shù)字的奇偶性。
這個測試進(jìn)一步說明了語境糾纏的普遍性和頑固性,關(guān)聯(lián)度預(yù)測的語境糾纏對于數(shù)學(xué)和邏輯運(yùn)算是普遍存在的,不限于計數(shù),而且很頑固——為了消除語境糾纏,必須針對具體語境加人工標(biāo)簽并進(jìn)行補(bǔ)充訓(xùn)練。比如孤零零的12個月份是一個語境,名人出生月份是另一個更復(fù)雜的語境,似乎包含著前一個語境,但對前一個語境的標(biāo)簽和補(bǔ)充訓(xùn)練,對后一個語境卻基本上不起作用。由此可知,對于出生月份之外的其他語境,為了讓大模型能夠區(qū)分?jǐn)?shù)字的奇偶性,需要一個一個語境分別加標(biāo)簽并進(jìn)行補(bǔ)充訓(xùn)練,因為某個語境中的標(biāo)簽和訓(xùn)練在其他語境中不能復(fù)用。這種情況超越了AI研究者過去的經(jīng)驗和直覺。
這個例子還說明,從類Lc公理推導(dǎo)出的數(shù)學(xué)性質(zhì)不僅適用于大模型的生成,也適用于大模型的訓(xùn)練,比如生成是語境糾纏的,訓(xùn)練也是語境糾纏的。所以類Lc理論有很強(qiáng)的解釋力和指導(dǎo)意義。
再進(jìn)一步的發(fā)現(xiàn)是,大模型和人不一樣,人在學(xué)習(xí)數(shù)學(xué)和邏輯的抽象運(yùn)算時,不需要對每一個語境都訓(xùn)練一遍,所以人類的學(xué)習(xí)只需要小數(shù)據(jù);如果對每一個語境都需要單獨(dú)訓(xùn)練一遍,那就不得不依靠大數(shù)據(jù)。大模型的訓(xùn)練就是這樣,無法通過小數(shù)據(jù)實現(xiàn)。注意,這個重要結(jié)論是從關(guān)聯(lián)度預(yù)測的數(shù)學(xué)性質(zhì)推導(dǎo)出來的,不是單純來自實驗觀察。所以,如果我們希望通過小數(shù)據(jù)實現(xiàn)大模型的訓(xùn)練,那就必須改變大模型的底層機(jī)制——關(guān)聯(lián)度預(yù)測。
第三個測試:算術(shù)推理。這是去年2月對ChatGPT做的測試。測試題目是:一個孩子存了21元,如果又得到15元,用這些錢可以買多少個單價6元的玩具?回答很有意思,兩句話,第一句給出答案5,這顯然不對,更有意思的是第二句說:應(yīng)該有總共21+15等于36元,所以能買36/6等于6個玩具。哎呀,它明明知道是6個,計算過程也是正確的,可是為什么前面說是5個?而且發(fā)現(xiàn)前面錯了,為什么后面不糾正?對于這種奇葩表現(xiàn),一般將其歸結(jié)為“幻覺”。
這個例子表明,大模型給出的答案跟答案的解釋不一致,所以大模型的解釋不是自己行為的因果解釋。假如大模型能夠?qū)ζ浯鸢附o出因果解釋,它就需要回憶自己的解答過程,并對解答過程進(jìn)行邏輯分析,判斷其正確與否,然后闡述自己的分析過程和分析結(jié)論。這一套流程在人類思維中是一種典型的反思過程。根據(jù)實驗結(jié)果,大模型沒有表現(xiàn)出類似的反思行為;根據(jù)理論分析,大模型內(nèi)部的運(yùn)行機(jī)制是關(guān)聯(lián)度預(yù)測,并且遵守類Lc系統(tǒng)的數(shù)學(xué)性質(zhì),而關(guān)聯(lián)度預(yù)測和類Lc都不具備類似于人的反思能力。所以我們可以得出判斷:大模型沒有反思能力,因而也沒有關(guān)于自身行為的因果解釋能力。
根據(jù)理論分析和實驗測試,大模型不僅沒有反思能力,而且也沒有通常意義上的計算和邏輯,它是通過關(guān)聯(lián)度預(yù)測模仿(即圖靈所說的imitate)計算和邏輯。在語言等非封閉論域,這種模仿能力是有限的,不保證與被模仿者(計算和邏輯)完全相同,所以有時成功有時失敗。當(dāng)模仿失敗時,表現(xiàn)往往很奇葩,給人感覺好像大模型產(chǎn)生了“幻覺”。其實大模型不可能產(chǎn)生幻覺,是人由于解釋、理解不了大模型的奇異表現(xiàn),對大模型產(chǎn)生了幻覺。
上面的分析對于大模型的應(yīng)用有實際意義。比如在工業(yè)應(yīng)用中,需要提取應(yīng)用領(lǐng)域的專業(yè)知識。有人說大模型里就有很多知識,夠用了。其實專業(yè)知識必須建立在邏輯的基礎(chǔ)上,由于大模型沒有邏輯和數(shù)學(xué)的基本能力,所以它存儲的不是知識,而是資訊。資訊中的很大比例可以轉(zhuǎn)化為知識,因此我們需要識別哪些資訊可以轉(zhuǎn)化為知識,哪些不能轉(zhuǎn)化。在這方面,目前還沒有看到相關(guān)的研究成果。同時,通用大模型缺乏工業(yè)領(lǐng)域的訓(xùn)練數(shù)據(jù),也就沒有工業(yè)領(lǐng)域的資訊,更談不上專業(yè)知識了,所以也不可能通過轉(zhuǎn)化得到專業(yè)知識。由此可見,通用大模型并不能簡單地應(yīng)用于工業(yè)領(lǐng)域。
綜合各方面情況,雖然大模型在人機(jī)交互等方面進(jìn)展很大,但在工業(yè)和其他一些專業(yè)領(lǐng)域的應(yīng)用仍然面臨著重大挑戰(zhàn),其中包含一個基礎(chǔ)性課題——邏輯增強(qiáng)。
三、垂直領(lǐng)域大模型和邏輯增強(qiáng)
我們進(jìn)一步梳理、總結(jié)大模型的主要特性。通過這些特性,可以更明確地認(rèn)識到邏輯增強(qiáng)的必要性。
第一個特性:大模型沒有邏輯能力。有時大模型對邏輯問題的回答是正確的,為什么說它沒有?根據(jù)計算機(jī)科學(xué)的標(biāo)準(zhǔn),如果一個程序具有某種計算能力,那它在相關(guān)的運(yùn)算中必須永遠(yuǎn)是正確的,否則就是沒有這種能力。顯然,計算機(jī)科學(xué)的這種標(biāo)準(zhǔn)保證了程序的可靠性,如果允許程序有時對有時錯,那就沒有可靠性可言。根據(jù)這一標(biāo)準(zhǔn),大模型不具備計數(shù)、等量代換,邏輯否定、約束滿足、傳遞性推理等數(shù)學(xué)和邏輯的基本能力。但在某些情況下,大模型可以模仿這些能力,所以大模型在這些能力上的表現(xiàn)是不可靠的。不能因為有時它在某個功能上的表現(xiàn)是對的,就以為它永遠(yuǎn)是對的。最近一位菲爾茲獎獲得者發(fā)現(xiàn),當(dāng)測試問題涉及隱式邏輯關(guān)系時,大模型回答的錯誤率比正確率高得多,有時甚至超過100比1。在很多垂直領(lǐng)域,應(yīng)用需要的恰恰是符合計算機(jī)科學(xué)標(biāo)準(zhǔn)的那種可靠性或高可信度。
第二個特性:大模型能回答任何問題,但不保證回答總是正確的。現(xiàn)在用類Lc理論可以證明這個結(jié)論,而不是單純看實驗結(jié)果。根據(jù)三條公理,可以證明關(guān)聯(lián)度預(yù)測能夠回答任何問題。但根據(jù)第一個特性,無法保證回答總是正確的。
第三個特性:大模型與人之間只有弱共識。這個特性可能不太容易理解,但這一條可能是最重要的。大概意思是說,字詞之間的統(tǒng)計關(guān)聯(lián),因為是從語料中提取出來的,所以和多數(shù)人是一致的,此外大模型沒有其他語義。比如大模型不知道一個詞本身是什么意思,但它知道這個詞跟別的詞是如何關(guān)聯(lián)的。于是,你和大模型對話的時候,你怎么理解大模型都可以,不同的人對大模型輸出的同一句話可以有不同的理解,都是可以的。所以在關(guān)聯(lián)度預(yù)測機(jī)制下,大模型不跟用戶吵架,用戶說什么它都說對。為什么?因為很多意思它根本就沒有,所以也不會與用戶的意思發(fā)生矛盾,這樣就吵不起來。但是,過去的AI和軟件都要求強(qiáng)共識,所以我們要學(xué)習(xí)編程,通過學(xué)習(xí)達(dá)成強(qiáng)共識,否則你就用不好軟件。可是大模型沒有強(qiáng)共識,只有弱共識,所以通過自然語言對話人人都可以使用大模型。這就解釋了為什么大模型好用,原因在于弱共識性。
總結(jié)起來,我們發(fā)現(xiàn)大模型的工作原理跟人的智能的原理有所不同。這符合圖靈的機(jī)器智能觀,所以大模型再次驗證了圖靈的機(jī)器智能觀。
我們把機(jī)器智能與人的智能的關(guān)系總結(jié)為一句話:青似于藍(lán)而異于藍(lán)。這意味著,兩種智能永遠(yuǎn)都不會完全一樣,不用擔(dān)心大模型將來變得跟人一樣,永遠(yuǎn)沒有這種可能性。但是,也不要以為它不跟你一樣,就不會超過你。它用它的方式超過,以人不易覺察、不易理解的方式突然超過,有些方面可以超過得更快、風(fēng)險更大。
在一些垂直領(lǐng)域,中國的機(jī)會非常大,因為中國的實體經(jīng)濟(jì)規(guī)模龐大,尤其中國的制造業(yè)體量龐大,對垂直領(lǐng)域大模型有很多需求。有些國家大部分制造業(yè)都轉(zhuǎn)移了,主要需求集中在虛擬經(jīng)濟(jì)和服務(wù)業(yè),所以通用大模型對他們更重要。
前面提到,垂直領(lǐng)域的應(yīng)用往往要求可靠性,比如生產(chǎn)過程就要求很高的可靠性,不可能像聊天那樣,聊得嗨比對錯更重要。但是大模型提供的資訊是不可靠的,所以對大模型的回答需要人工判斷對錯,這在工業(yè)等垂直領(lǐng)域用起來就非常麻煩,難以滿足工業(yè)生產(chǎn)中設(shè)備高速運(yùn)轉(zhuǎn)的實際要求。
所以在垂直領(lǐng)域,大模型研究面臨挑戰(zhàn),目前應(yīng)該仍然處于0到1的階段。垂直領(lǐng)域大模型需要滿足哪些要求?第一,專業(yè)性,不是有回答就夠了,還需要滿足專業(yè)標(biāo)準(zhǔn)。第二,具有可靠性或高可信度。第三,可操作性,專業(yè)領(lǐng)域需要一些專門的操作,大模型本身并沒有這些操作,它靠激發(fā),但激發(fā)不保證功能的正確實現(xiàn)。還有其他一些要求,這里省略。
垂直領(lǐng)域大模型的操作有哪些?這是別人提出的一些基本操作:一個是檢索,在垂直領(lǐng)域需要檢索特定的結(jié)果,而大模型給你的回答未必是你想要的東西,所以這里說的檢索是完全可控的,用戶想要什么就提取什么。第二,分類,即把對象分成不同的類。第三,比較,對不同對象的屬性進(jìn)行比較。第四,反向搜索,找到符合條件的對象。大模型不具備這些功能。
另外,還需要一些高級功能,包括:1.易用性,大模型一做專業(yè)操作,它的易用性就下降了,過去的一些AI技術(shù)功能強(qiáng)大,但是不易用。現(xiàn)在這個挑戰(zhàn)依然存在,要讓常用操作易用。2. 知所知,即知道自己知道什么。大模型不具備知所知能力,有時它有答案,但是它不回答你(它說別的沒用的),需要你激發(fā)它。3.知不知,即知道自己不知道什么。大模型也不具備知不知的能力,即使它沒有正確答案,它還是會回答你,結(jié)果回答錯誤。
上面提到的這些,很多屬于邏輯增強(qiáng)的內(nèi)容,比如知所知、知不知是元級邏輯功能,基本操作屬于基礎(chǔ)性邏輯功能。
垂直領(lǐng)域現(xiàn)在有很多人在做,國內(nèi)國外都有,這是6月份剛剛發(fā)布的一個結(jié)果,其目標(biāo)是驗證大模型的回答是否正確,以提高回答的可靠性程度。作者設(shè)計了一些算法,讓大模型自己進(jìn)行驗證,所以馬上就跑起來了,而且取得了一定效果。其中一個數(shù)據(jù)集上,測試結(jié)果的準(zhǔn)確率達(dá)到了99.60%,不過這個數(shù)據(jù)集比較簡單。其他幾個數(shù)據(jù)集上只有80%多。對于垂直領(lǐng)域來說,一般需要達(dá)到99%以上的準(zhǔn)確率,現(xiàn)在差距還很大。所以垂直領(lǐng)域大模型有很多工作要做。從科研的角度,有很大的空間;從應(yīng)用的角度,也有很大的空間可以去努力。
最后對人工智能發(fā)展的全貌做個補(bǔ)充說明。現(xiàn)在大模型是最熱的,這不等于人工智能只有大模型。除了生成式人工智能,還有規(guī)劃式人工智能,比如現(xiàn)在的外賣很快就送來了,大量的騎手、大量的訂單為什么那么快?因為人工智能在派單,并規(guī)劃騎手的送單路線,使得效率大大提高。這種技術(shù)并非只適用于外賣,大量場景都可以用。還有分析式人工智能,用于發(fā)現(xiàn)數(shù)據(jù)中的復(fù)雜模式。現(xiàn)在自然科學(xué)的各個學(xué)科都在做,用的方法以深度學(xué)習(xí)為主,不是大模型,叫做AI for Science。預(yù)期未來幾年,有可能出現(xiàn)科學(xué)發(fā)現(xiàn)的快速推進(jìn),非常值得期待。第四種是智能化裝備,包括智能機(jī)器人,在物理空間中完成自主、半自主操作,在實體經(jīng)濟(jì)特別是制造業(yè)有巨大的應(yīng)用前景。
事實上,發(fā)展人工智能我們有很多選擇。從風(fēng)險來看,其他三種類型都是低風(fēng)險,大模型有的時候是高風(fēng)險,在垂直領(lǐng)域的應(yīng)用是低風(fēng)險。那么,有沒有可能先推進(jìn)一些低風(fēng)險、高效能的人工智能應(yīng)用呢?我認(rèn)為有兩個重點,它們都面臨著越來越嚴(yán)重的用工荒。一個是智慧農(nóng)業(yè)和現(xiàn)代農(nóng)業(yè),另一個是傳統(tǒng)制造業(yè)的高端化。過去有一種看法,認(rèn)為制造業(yè)的中低端可以不要了,轉(zhuǎn)移到東南亞和其他地方去。現(xiàn)在發(fā)現(xiàn)不行,因為中國制造業(yè)的80%都是中低端,如果中低端都走了那怎么辦?回到改開前大量消費(fèi)品依靠進(jìn)口的老路上去嗎?現(xiàn)在提出中低端往上走,中低端變成高端,這個市場就太大了,能做的事情太多了。
人工智能的研究和應(yīng)用有非常大的發(fā)展空間,讓我們共同努力!
(本文根據(jù)作者報告的速記稿整理加工而成)