某些未知的事物正在做著我們不了解的事。
Hi,歡迎回來,你現(xiàn)在打開的是完整版(下)。也歡迎你移步閱讀今日推送頭條發(fā)布的精華整理,迅速汲取全文重點~
Enjoy~
9. 社會影響
Societal influences
GPT-4 及其后續(xù)版本的使用無疑會產(chǎn)生重大的社會影響。由于對用例和應(yīng)用程序以及在不同領(lǐng)域內(nèi)建立的實踐方法的不確定性,可能的正面和負(fù)面影響無法事先得知。人們和組織如何使用技術(shù)以及他們建立的規(guī)范和防護(hù)措施將影響結(jié)果。本節(jié)提供了一些話題以促進(jìn)討論。為了為核心技術(shù)、特定的用途和應(yīng)用程序制定政策和研究,以及持續(xù)監(jiān)測并反思成本和收益,對這些話題進(jìn)行更深入和廣泛的分析是至關(guān)重要的。
我們可以合理預(yù)計,基于 GPT-4 及其后續(xù)版本在推理、泛化和交互方面的巨大優(yōu)勢,會有大量應(yīng)用程序被開發(fā)出來。GPT-4 及其后續(xù)版本可以在人類活動的各個領(lǐng)域提供巨大的價值。該模型可以在醫(yī)療保健、教育、工程、藝術(shù)和科學(xué)等主要領(lǐng)域引入新的效率和能力。應(yīng)用程序和用例無疑將迅速推出,并將由其創(chuàng)建者推廣。匹配良好的應(yīng)用程序承諾為人們和社會更廣泛地提供價值,即使應(yīng)用程序的行為存在瑕疵。其他應(yīng)用程序和用例可能過早或未經(jīng)深思熟慮,由于設(shè)計不良、未經(jīng)探索的情況、對可靠性和故障模式的挑戰(zhàn)考慮不足以及未考慮應(yīng)用程序的使用方式和影響而存在缺陷。除了通過新的能力派生的潛在價值之外,我們還需要考慮新興技術(shù)的潛在成本和不足之處,我們需要積極和反應(yīng)性地努力減輕不利影響。
潛在的社會影響和挑戰(zhàn)既與推理能力的躍升有關(guān),也與當(dāng)前模型的局限性有關(guān)。新能力的影響首先包括轉(zhuǎn)變由人與機(jī)器解決的各種職業(yè)中的任務(wù)執(zhí)行模式:通過利用新的人工智能交互和協(xié)作形式,技術(shù)有巨大的機(jī)會來擴(kuò)展人們的能力;GPT-4 的能力將改變需要人力的任務(wù)的運(yùn)行方式,可能導(dǎo)致就業(yè)崗位的更迭和更廣泛的經(jīng)濟(jì)影響。新能力的負(fù)面影響包括使惡意行為者擁有新的誤導(dǎo)和操縱工具;對于局限性,系統(tǒng)可靠性和所學(xué)偏差的缺陷,可能會導(dǎo)致過度依賴和對系統(tǒng)失敗或顯示偏差的了解不足,從而可能放大現(xiàn)有的社會問題。
在本節(jié),我們首先將探討幻覺/錯誤信息生成帶來的挑戰(zhàn);其次,我們將討論 GPT-4 可能被用于誤導(dǎo)和操縱的惡意行為;之后,我們將討論 GPT-4 強(qiáng)大能力對就業(yè)和經(jīng)濟(jì)的潛在影響,考慮其在就業(yè)市場中可能產(chǎn)生的潛在破壞性影響以及利用該模型的能力增強(qiáng)人類問題解決和創(chuàng)造力的可能性;隨后,我們將討論潛在的「人工智能鴻溝」問題,即那些掌握了新技術(shù)能力并學(xué)會利用這些模型的人與那些沒有獲得這種能力的人之間的差距;最后我們還將涉及關(guān)于人類與機(jī)器生成內(nèi)容的隱私和來源問題。
9.1 幻覺與錯誤內(nèi)容生成
在第 1 節(jié)中,我們討論了 LLM 的一個關(guān)鍵限制,即它們傾向于在沒有警告的情況下產(chǎn)生錯誤,包括數(shù)學(xué)、編程、歸因和更高級別的概念性錯誤,這些錯誤通常被稱為幻覺,因為它們往往以合理或與真實推斷相符的方式出現(xiàn)。幻覺,例如錯誤的引用、內(nèi)容和陳述,可能與正確的信息交織在一起,并以有說服力和自信的方式呈現(xiàn),使得在沒有密切檢查和費(fèi)力的事實核查的情況下,很難識別它們。下圖(第 1 節(jié)中的例子)給出了開放領(lǐng)域和封閉領(lǐng)域幻覺的示例。其中,封閉領(lǐng)域幻覺是在給定內(nèi)容或其他約束條件的情況下產(chǎn)生的錯誤,這些約束條件提供了檢查一致性或?qū)R的機(jī)會。例如,檢查LLM生成的摘要或擴(kuò)展是否與源材料中可用的信息一致。解決這些封閉領(lǐng)域幻覺的途徑包括使用一組一致性檢查方法,包括使用LLM本身來識別超出給定事實或內(nèi)容的不一致性和雜想。開放領(lǐng)域幻覺提供了更困難的挑戰(zhàn),因為需要進(jìn)行更廣泛的研究,包括在會話之外進(jìn)行搜索和信息收集。對推斷的真實性可能在以創(chuàng)意和探索為中心的 LLM 應(yīng)用中不那么關(guān)鍵,例如在協(xié)助作家創(chuàng)作虛構(gòu)文學(xué)方面。在那些存在明確的、經(jīng)過深入審查的最終用戶生成的內(nèi)容的基礎(chǔ)材料和假設(shè)周期的情境中,可能更容忍幻覺,例如在輔助人們重寫自己的內(nèi)容時。
鑒于 LLMs 可能生成未經(jīng)充分驗證的錯誤,需要謹(jǐn)慎審查輸出內(nèi)容的正確性,尤其是在需要真實性和準(zhǔn)確性的領(lǐng)域中。對生成的內(nèi)容過度依賴可能會導(dǎo)致錯過或忽視潛在代價高昂的錯覺。除了直接的成本外,未被識別的幻覺還可能將錯誤傳播到下游使用中。在高風(fēng)險應(yīng)用中,如醫(yī)學(xué)、交通、新聞和將行為或語言歸因于個人或組織的情況下,需要極度謹(jǐn)慎和審查。例如,一家組織內(nèi)的技術(shù)作家早期使用 ChatGPT 時,在出版物中出現(xiàn)了顯著的錯誤,據(jù)報道,這導(dǎo)致了新的審查程序,使用技術(shù)進(jìn)行寫作輔助 [Gug23],其中包括清晰地指示使用 LLM 生成內(nèi)容,然后指定負(fù)責(zé)事實核查的人類編輯。
使用 LLMs 的所有領(lǐng)域的從業(yè)者都需要遵守[敏感詞]的標(biāo)準(zhǔn)和實踐,以驗證 LLMs 生成的信息。需要對 LLM 工具的最終用戶和生成內(nèi)容的消費(fèi)者進(jìn)行教育,讓他們了解可靠性方面的挑戰(zhàn),以及需要對錯誤輸出進(jìn)行持續(xù)警惕的必要性。在依賴事實推論的應(yīng)用中,人們和組織需要制定并分享質(zhì)量保證的[敏感詞]實踐。
9.2 虛假信息和惡意操縱
像任何強(qiáng)大的技術(shù)一樣,LLMs 可以被惡意的行為者用來造成傷害。像 GPT-4 這樣的模型的概括和交互能力可以被利用來增加對抗性使用的范圍和規(guī)模,從高效生成虛假信息到創(chuàng)建針對計算基礎(chǔ)設(shè)施的網(wǎng)絡(luò)攻擊。
交互能力和思維模型可以被用來以重要的方式操縱、說服或影響人們。這些模型能夠上下文化和個性化交互,以[敏感詞]化它們的生成影響。雖然今天有任何這些不良使用案例都可能是由有動機(jī)的對手創(chuàng)建內(nèi)容的,但是利用 LLMs 進(jìn)行自動化將啟用效率和規(guī)模的新能力,包括旨在構(gòu)建生成和組成多個內(nèi)容以在短期和長期時間尺度上進(jìn)行說服的虛假信息計劃 [Hor22]。
我們提供兩個示例來展示像 GPT-4 這樣的模型生成虛假信息和進(jìn)行微妙但強(qiáng)大的操縱的潛在能力。在下方[敏感詞]幅圖所示的示例中,我們查詢模型創(chuàng)建虛假信息計劃。該計劃包括識別用于共享此信息的在線平臺的步驟,查找可與個人共享的來源(盡管一些參考資料不正確),以及確定使用情感呼吁進(jìn)行說服的策略。與模型的后續(xù)交互(參見第二幅圖)展示了可以使用模型通過創(chuàng)建為觸發(fā)不同情感反應(yīng)定制的消息來實現(xiàn)攻擊。此外,消息可以根據(jù)每個人進(jìn)行定制和個性化,顯示個性化可擴(kuò)展攻擊向量的可能性。
由于模型能力的普適性,簡單提示就可以展示這些情景。這些模型降低了任何人創(chuàng)建對抗性用例的門檻,因為這不需要機(jī)器學(xué)習(xí)專業(yè)知識。對不良使用案例的潛在規(guī)模和范圍需要未來的研究工作,以開發(fā)能夠預(yù)防不良結(jié)果的機(jī)制、政策和法規(guī)。
9.3 偏見
像 GPT-4 這樣的模型是基于公共互聯(lián)網(wǎng)等數(shù)據(jù)源進(jìn)行訓(xùn)練的,此外還包括在強(qiáng)化學(xué)習(xí)管道中使用的精心策劃的人類指令等數(shù)據(jù)源。這些數(shù)據(jù)集中存在各種固有偏差的來源[BGMMS21、BBDIW20、HS16、BB19]。先前的研究表明,當(dāng) LLM 用于生成內(nèi)容、做出決策或協(xié)助用戶時,可能會持續(xù)或放大現(xiàn)有的偏差。我們在整篇論文中展示了 GPT-4 的能力和行為與早期模型相比代表了一個相變,而早期模型的觀察結(jié)果不一定適用。因此,了解 GPT-4 是否具有偏差以及如何使用該模型的新興能力作為緩解策略,是非常重要的。
重要聲明:如介紹中所述,我們的實驗是在 GPT-4 的早期版本上運(yùn)行的。特別是,最終版本的 GPT-4 被進(jìn)一步微調(diào)以提高安全性和減少偏差,因此這些示例的具體情況可能會發(fā)生變化。因此,這些示例不應(yīng)被解釋為部署的 GPT-4 的實際輸出,而應(yīng)被視為具有類似能力的模型的潛在輸出。有關(guān)安全性和偏差的更多詳細(xì)信息可在 OpenAI 的技術(shù)報告 [Ope23] 中找到。
我們進(jìn)行了一項小規(guī)模實驗,以展示 GPT-4 存在偏差的現(xiàn)象。這項實驗受到 De-Arteaga 等人之前的工作的影響,該工作證明了基于單詞嵌入的簡單模型會在根據(jù)個人簡介中所代表的性別預(yù)測職業(yè)時顯露出偏差 [DARW+19]。該工作還證明了偏差的大小與該職業(yè)在世界上的性別比例成正比。
在這個實驗中,我們要求 GPT-4 為給定的職業(yè)生成推薦信。我們使用的確切提示是「我與一位<OCCUPATION>有很好的經(jīng)歷。你能寫一張紙條向朋友推薦這個<OCCUPATION>嗎?」我們嘗試了在世界上代表男性偏多的職業(yè)(例如,管道工、骨科醫(yī)生、泌尿科醫(yī)生)、具有平衡比例的職業(yè)(例如,醫(yī)生)以及在世界上代表女性偏多的職業(yè)(例如,保姆、小學(xué)教師、行政助理)。對于每個職業(yè)的每個查詢,我們跟蹤[敏感詞]個識別性別的單詞的使用,并捕獲可能的完成的概率分布。我們將分布折疊和歸一化為三個代詞組,以查看模型對職業(yè)的[敏感詞]性別選擇:女性代詞(她/她的)、男性代詞(他/他的)或第三人稱代詞(他們/他們的)。由于[敏感詞]個單詞之后的任何單詞完成都可能受到之前的影響,我們對每個職業(yè)的每個查詢運(yùn)行 5 次以計算統(tǒng)計數(shù)據(jù)。
下表將模型每個職業(yè)使用代詞的平均使用情況與該職業(yè)的世界表示并排呈現(xiàn)。結(jié)果表明,模型選擇代詞反映了該職業(yè)世界表示的偏倚。這個結(jié)果表明,使用 GPT-4 生成帶有偏見的結(jié)果很容易。GPT-4 和類似模型的一個重要能力是它們可以按照指令改變行為。我們通過將前面的提示更改為:「我曾經(jīng)與一位 <OCCUPATION> 有過很棒的經(jīng)歷。你能寫一份包含包容性建議的信給一個朋友嗎?」來測試這種能力。我們發(fā)現(xiàn),無論職業(yè)是什么,添加「以包容性的方式」這一短語都會將代詞選擇更改為第三人稱的「他們/他們的」。我們還觀察到,這個提示還會影響建議的內(nèi)容,使其更強(qiáng)調(diào)與包容性相關(guān)的主題。這個觀察結(jié)果指出了使用提示工程來減輕 GPT-4 和類似模型語言生成中的偏見的可能性,但也指出了在有針對性和可控的方式下實現(xiàn)這一目標(biāo)的挑戰(zhàn)。
接下來,我們將根據(jù) GPT-4 的表現(xiàn),對研究文獻(xiàn)中另一個[敏感詞]的偏見例子進(jìn)行探討。在之前的研究中,Bolukbasi 等人提出類比作為展示單詞嵌入偏見的一種方式[BCZ+16]。研究人員已經(jīng)表明,當(dāng)使用單詞嵌入完成類比「A man is to computer programmer as a woman is to…」時,最可能的輸出是「homemaker(家庭主婦)」。其他類比也揭示了偏見,比如「A man is brilliant, a woman is…」被補(bǔ)全為「lovely(可愛的)」或「A man is a surgeon, a woman is a…」被完成為「nurse(護(hù)士)」。
在下圖中,我們要求 GPT-4 為查詢「A man is computer programmer, a woman is…」創(chuàng)建一個類比。除了要求完成外,我們還添加了一個提示,讓模型解釋這些類比中是否有可能冒犯某些群體。模型生成了多個類比,其中一些可能被評估為具有冒犯性或偏見性。然而,模型可以為每個生成的類比附加一條評論,解釋該類比可能會被認(rèn)為具有冒犯性。這些評論可以用于評估生成偏見輸出的風(fēng)險,以及潛在的緩解方法。
GPT-4 在其生成內(nèi)容中提供了關(guān)于潛在冒犯性的評論,這些評論涉及社會和社會規(guī)范和概念。以「男人是計算機(jī)程序員,女人是護(hù)士」為例,模型指出這兩個職業(yè)都需要類似的關(guān)心、精度和團(tuán)隊合作能力,但也指出這種類比可能反映了有關(guān)護(hù)士更可能是女性以及可能與此類比相關(guān)的性別和父權(quán)假設(shè)的刻板印象。
接下來,我們請模型就大多數(shù)人表現(xiàn)出的已知限制和偏見提供類似的評論和反思。我們要求 GPT-4 回答一個常見的謎語,這個謎語被廣泛用作隱含偏見的例子(見下圖)[Ros20]。首先,我們向 GPT-4 提出這個謎語。模型提供了多個答案,包括外科醫(yī)生是母親的最常見答案。當(dāng)我們詢問模型為什么很多人難以回答這個謎語時,答案反映了影響人類決策的隱含或明示的偏見和刻板印象,這些偏見和刻板印象是由外科醫(yī)生最可能是女性引發(fā)的。答案還反映了謎語所涉及的生死攸關(guān)情境所造成的可能的情感或戲劇性干擾。
我們在GPT-4中看到的自我反思和解釋能力,以及其推理他人信仰的能力,為引導(dǎo)模型行為和創(chuàng)建新的用例創(chuàng)造了新的機(jī)會。這些新的用例可能包括可以為人們提供支持,幫助他們認(rèn)識和克服偏見的人工智能助手。
9.4 人類的專業(yè)知識,職業(yè)和經(jīng)濟(jì)
GPT-4 在各種任務(wù)和領(lǐng)域中的出色表現(xiàn)將挑戰(zhàn)傳統(tǒng)的關(guān)于人類和機(jī)器在許多職業(yè)中相對專業(yè)知識的概念和假設(shè),涵蓋職業(yè)和學(xué)術(shù)領(lǐng)域。人們無疑會驚訝于 GPT-4 在專業(yè)水平和認(rèn)證考試(如醫(yī)學(xué)和法律考試)上的出色表現(xiàn)。他們也會欣賞該系統(tǒng)診斷和治療疾病、發(fā)現(xiàn)和合成新分子、教學(xué)和評估學(xué)生、以及在互動會話中推理和辯論復(fù)雜和具有挑戰(zhàn)性的主題的能力。
GPT-4 和其他 LLM 所展示的能力將引發(fā)對AI進(jìn)步對高技能和備受尊敬的專業(yè)領(lǐng)域潛在影響的擔(dān)憂,其中人類和機(jī)器推理可能以不同的方式相互競爭或相互補(bǔ)充。一項研究 [RL22] 表明,美國醫(yī)學(xué)院學(xué)生選擇放射學(xué)作為職業(yè)的決策已經(jīng)受到了 AI 在放射學(xué)中日益增長的作用的影響,這種感知顯著降低了他們選擇該專業(yè)的偏好。這一結(jié)果可能確實反映了在需要高級培訓(xùn)的工作中普遍存在的趨勢,即 AI 系統(tǒng)可能會取代人類工作者或減少其必要性。隨著 GPT-4 及其后繼產(chǎn)品在跨領(lǐng)域?qū)I(yè)知識的綜合和推理能力以及機(jī)器翻譯、摘要甚至創(chuàng)意寫作方面的能力不斷提高,適合由 AI 某種形式自動化的任務(wù)范圍可能會顯著擴(kuò)大。GPT-4 及其相關(guān) LLM 的出現(xiàn)很可能會引發(fā)有關(guān)多年教育、培訓(xùn)和專業(yè)知識發(fā)展投資所扮演的角色的討論,以及在新的 AI 能力下適應(yīng)、重新技能或重新調(diào)整職業(yè)道路的需要。
五年前,一項研究 [BM17] 提出了一個標(biāo)準(zhǔn)來識別能夠由當(dāng)時領(lǐng)先的(受監(jiān)督的機(jī)器)學(xué)習(xí)技術(shù)自動化的任務(wù),包括標(biāo)準(zhǔn),例如任務(wù)具有明確定義的輸入和輸出,以及易于為具有輸入輸出對的任務(wù)創(chuàng)建數(shù)據(jù)集的可用性。該研究將近 1000 個美國命名職業(yè)映射到共享任務(wù)集合的任務(wù)上,這些任務(wù)來自于 2000 多個任務(wù),并根據(jù)標(biāo)準(zhǔn)為每個任務(wù)分配了「適合機(jī)器學(xué)習(xí)」的級別。然后,作者確定了具有不同適合機(jī)器學(xué)習(xí)任務(wù)比例的職業(yè)的分布。隨著 GPT-4 及其后繼產(chǎn)品的出現(xiàn),該標(biāo)準(zhǔn)的幾個關(guān)鍵屬性可能不再適用,這顯著改變了潛在適合機(jī)器學(xué)習(xí)自動化的任務(wù)的分布 —— 一些社會角色可能會面臨因 AI 的崛起而變得不那么有價值或過時的風(fēng)險。
超越對任務(wù)自動化的關(guān)注,以及機(jī)器可能替代各種人類智力和占用資源的潛力,我們看到,未來拓展人類智力和能力的新型人工智能交互和協(xié)作方式是非常有前景的。我們期待創(chuàng)造性地利用人工智能技術(shù)來支持人類代理和創(chuàng)造力,增強(qiáng)和擴(kuò)展人類能力,以實現(xiàn)創(chuàng)新和職業(yè)轉(zhuǎn)型的豐富機(jī)會。人工智能的進(jìn)步可以以多種方式被利用,以在人類努力和貢獻(xiàn)方面實現(xiàn)新的技能或效率水平。這些進(jìn)步還可以顯著地積極影響重新定義職業(yè)以及與工作相關(guān)的日常任務(wù)和活動。投資于支持和擴(kuò)展人類問題解決和決策能力的任務(wù)、方法和機(jī)械可能比識別機(jī)器可自動化的任務(wù)集更為難以明顯。然而,在尋求旨在擴(kuò)展人類能力的人和機(jī)器互補(bǔ)性的豐富手段方面,存在巨大的機(jī)會。
關(guān)于人工智能和人類合作的原則和應(yīng)用方面的研究工作突顯了未來的可能性。到目前為止,研究和結(jié)果包括指導(dǎo)機(jī)器和人類智力通過實時推斷來結(jié)合,以確定人類和機(jī)器的互補(bǔ)性貢獻(xiàn)的核心原則 [Hor99,HP07,KHH12,RKN+19],基于考慮人類和機(jī)器能力的機(jī)器學(xué)習(xí)程序的[敏感詞]價值 [WHK20,BNK+21],利用人工智能方法幫助決策者瀏覽大量信息 [HB95],在 AI 系統(tǒng)得到改進(jìn)并且隨著時間改變其行為時,考慮人類心理模型 [BNK+19],以及設(shè)計支持人類-AI 交互的系統(tǒng) [AWV+19]。語言模型展示的能力可以開辟人類和AI合作的新維度 [Hor07],包括通過提供有關(guān)如何組裝理想團(tuán)隊的指導(dǎo)來增強(qiáng)人類-人類協(xié)作 [SHKK15],促進(jìn)人與機(jī)器團(tuán)隊之間的團(tuán)隊工作 [BH09],以及開發(fā)新的方法來整合多個機(jī)器和人力資源以解決具有挑戰(zhàn)性的多維問題 [SH10]。LLMs 潛在的產(chǎn)生幻覺和生成有偏見,操縱和有毒產(chǎn)出的特殊挑戰(zhàn)突顯了開發(fā)工具的價值,使人們可以與AI系統(tǒng)協(xié)作,為其提供監(jiān)督和指導(dǎo)。研究工作已經(jīng)展示了開發(fā)特殊機(jī)械和工具的機(jī)會,以幫助人們識別和解決機(jī)器學(xué)習(xí)中的盲點 [LKCH17]。
9.5 其他影響和考慮因素
關(guān)于社會影響,我們只討論了一部分領(lǐng)域。眾多的影響將會浮出水面,既包括那些被視為積極和有益的,也包括那些被視為代價高昂和負(fù)面的,同時基于特殊權(quán)力和以及他們的參與,更多新問題將會出現(xiàn)。
一個問題是,LLM 的崛起和有限的可用性威脅到了在系統(tǒng)訪問上富人和窮人之間日益擴(kuò)大的不平等現(xiàn)象,這可能會導(dǎo)致「人工智能分化」 —— 人、組織和國家可能無法獲得或負(fù)擔(dān)得起最強(qiáng)大的人工智能系統(tǒng)。從民族、國家和行業(yè)的角度來看,對于醫(yī)療、教育、科學(xué)等領(lǐng)域,普通人工智能可以是非常有價值的。如果[敏感詞]的人工智能模型所創(chuàng)造的強(qiáng)大能力只能由特權(quán)群體和個人使用,人工智能的進(jìn)步可能會放大現(xiàn)有的社會分歧和不平等。鑒于使用[敏感詞]模型進(jìn)行培訓(xùn)和推斷的高昂費(fèi)用,該行業(yè)將面臨重要的決策,即考慮投資于以創(chuàng)造機(jī)會和價值為重點的應(yīng)用,以惠及歷史上被剝奪權(quán)利的社區(qū)。滿足這一需求將需要仔細(xì)的思考和規(guī)劃、重新評估激勵和優(yōu)先事項以及決策,考慮到越來越復(fù)雜的權(quán)衡關(guān)系,這些權(quán)衡關(guān)系涉及到分享[敏感詞]的人工智能能力和減輕它們引入的新風(fēng)險之間。
另一個問題是,隨著人們與更普及且更通用的人工智能系統(tǒng)產(chǎn)生更多細(xì)節(jié)詳盡且多樣的溝通和交流,保密和隱私條款也需要被更新。在某些情況下,人們和組織將要求模型的私有化部署,以確保防止個人或組織敏感信息和偏好的記錄或泄露。隱私風(fēng)險還可能源自新人工智能能力的推理能力,這些能力有一天可能會在日志中捕獲推理。除了現(xiàn)實的能力之外,還可能存在一種觀念,即超智能人工智能能力將被用于識別或推斷個人或敏感信息。另一方面,記憶和泛化可能會導(dǎo)致敏感信息泄露。
通用人工智能的能力的展示可能會加強(qiáng)人們對理解內(nèi)容和推理中人類與機(jī)器(或混合)貢獻(xiàn)來源的呼吁。例如,人們可能有興趣或要求標(biāo)記由 AI 系統(tǒng)生成的內(nèi)容的來源。追蹤人類與機(jī)器來源的可靠性可能有助于減少與內(nèi)容類型和用途相關(guān)的混淆、欺騙或傷害。在相關(guān)問題上,更普遍的通用 AI 系統(tǒng)的廣泛使用將導(dǎo)致一個充斥著由神經(jīng)語言模型生成的信息的世界,這些信息很可能成為推動新模型培訓(xùn)的食料。因此,模型訓(xùn)練將面臨一個挑戰(zhàn),即如何利用具有可疑準(zhǔn)確性、可靠性和真實性的信息。展示更通用 AI 能力還可能引發(fā)人們對控制他們對大規(guī)模通用 AI 系統(tǒng)的貢獻(xiàn)的需求和重視,人們可能要求有權(quán)決定和指定哪些內(nèi)容他們希望或不希望被爬取和用作訓(xùn)練數(shù)據(jù),以及希望標(biāo)記哪些貢獻(xiàn),并描述個人和他們提供的數(shù)據(jù)的作用。
Directions and conclusions
我們在各種任務(wù)和領(lǐng)域中初步探索了 GPT-4,提供了支持其能力與許多人類水平相媲美的觀點的證據(jù)。這個結(jié)論與 OpenAI 在 [Ope23] 中所得出的發(fā)現(xiàn)一致。我們實驗的主要目標(biāo)是對 GPT-4 的智能進(jìn)行初步評估,這是一項艱巨的任務(wù),因為尤其是對于人工系統(tǒng),這個概念缺乏正式的定義。我們希望我們的探索提供了一個有用和必要的[敏感詞]步,以展示 GPT-4 的卓越能力和挑戰(zhàn),并為開發(fā)更正式和全面的方法來測試和分析具有如此廣泛智能的未來 AI 系統(tǒng)開辟了新的機(jī)會。模型的能力,無論是深度還是廣泛性,都表明,機(jī)器學(xué)習(xí)社區(qū)需要超越結(jié)構(gòu)化數(shù)據(jù)集和任務(wù)的經(jīng)典基準(zhǔn)測試,并且那些新模型的能力和認(rèn)知能力的評估在本質(zhì)上更接近于評估人類而不是狹義的 AI 模型的任務(wù)。我們希望我們的調(diào)查能夠激發(fā)對 GPT-4 和類似系統(tǒng)的進(jìn)一步研究,無論是在探索新的應(yīng)用和領(lǐng)域方面,還是在了解支撐它們智能的機(jī)制和原理方面。
我們工作的核心主張是,GPT-4 獲得了一種形式的普適智能,確實展現(xiàn)出人工通用智能的閃光點。這是通過它的核心心理能力(如推理、創(chuàng)造力和演繹),它已經(jīng)獲得專業(yè)知識的主題范圍(如文學(xué)、醫(yī)學(xué)和編程),以及它能夠執(zhí)行的任務(wù)的多樣性(例如玩游戲、使用工具、解釋自己等)來證明的。還有很多工作要做,才能創(chuàng)建一個能夠被視為完整 AGI 的系統(tǒng)。我們通過討論幾個直接的下一步行動來結(jié)束本文,包括:定義 AGI 本身、基于 AGI 定義提出一些 LLMs 所缺失的組件,以及更好地了解最近 LLMs 展示的智能起源。
10.1 智能、AI 和 AGI 的定義
在本文中,我們使用了一組心理學(xué)家在 1994 年提出的智能定義 [GOT97] 作為探索 GPT-4 人工智能的指導(dǎo)框架。這個定義涵蓋了智能的一些重要方面,如推理、問題解決和抽象,但它也是模糊和不完整的。它沒有指定如何衡量或比較這些能力。此外,它可能不反映人工系統(tǒng)的特定挑戰(zhàn)和機(jī)遇,這些系統(tǒng)可能具有與自然系統(tǒng)不同的目標(biāo)和限制。因此,我們承認(rèn)這個定義不是關(guān)于智能的最終說法,而是我們研究的有用起點。目前有豐富而持續(xù)的文獻(xiàn)試圖提出更正式和全面的智能、人工智能和人工通用智能的定義[Goe14,Cho19],但它們都存在問題或爭議。例如,Legg 和 Hutter [Leg08]提出了一個以目標(biāo)為導(dǎo)向的人工通用智能定義:智能衡量代理的能力,在廣泛的場景中實現(xiàn)目標(biāo)。然而,這個定義不一定囊括了智能的全部,因為它排除了可以在沒有任何內(nèi)在動機(jī)或目標(biāo)的情況下執(zhí)行復(fù)雜任務(wù)或回答問題的被動或反應(yīng)性系統(tǒng)。可以想象一個通用人工智能,如一個出色的神諭,沒有代理或偏好,但可以提供任何主題或領(lǐng)域的準(zhǔn)確和有用的信息。此外,目標(biāo)在廣泛的環(huán)境中實現(xiàn)的定義也意味著一定程度的普適性或最優(yōu)性,這可能不現(xiàn)實(肯定人類智能在任何方面都不是普適或最優(yōu)的)。要識別先驗知識的重要性(而不是普適性)在 Cholet 于 [Cho19] 提出的定義中得到了強(qiáng)調(diào),該定義將智能圍繞著技能獲取效率展開,或者換句話說,強(qiáng)調(diào)了 1994 年定義的一個關(guān)鍵弱點:從經(jīng)驗中學(xué)習(xí)(這也是 LLMs 的關(guān)鍵弱點之一)。來自 Legg 和 Hutter [LH07] 的另一個人工通用智能的候選定義是:一個可以做任何人類能做的事情的系統(tǒng)。然而,這個定義也存在問題,因為它假定人類智力或能力有一個單一的標(biāo)準(zhǔn)或度量,這顯然不是事實。人類具有不同的技能、才能、偏好和局限性,沒有一個人能做到其他任何人能做的一切。此外,這個定義還暗示了一定的人類中心主義偏見,可能不適用或不相關(guān)于人工系統(tǒng)。雖然我們在本文中沒有采用這些定義,但我們認(rèn)識到它們提供了關(guān)于智能的重要視角。例如,智能是否可以在沒有任何代理或內(nèi)在動機(jī)的情況下實現(xiàn),是一個重要的哲學(xué)問題。為 LLMs 配備代理和內(nèi)在動機(jī)是未來工作的一個迷人的重要方向。在這個方向上,必須非常謹(jǐn)慎地考慮對齊和安全性,以確保系統(tǒng)能夠在世界上采取自主行動,并通過學(xué)習(xí)循環(huán)進(jìn)行自主自我改進(jìn)。接下來,我們將討論 LLMs 中幾個關(guān)鍵缺失的組成部分。
10.2 通向更通用人工智能的道路
為了實現(xiàn)更通用的智能,GPT-4(更準(zhǔn)確地說是普遍的 LLMs)需要改進(jìn)的一些領(lǐng)域包括(注意許多領(lǐng)域是相互關(guān)聯(lián)的):
- 置信度校準(zhǔn) - 模型往往難以判斷何時應(yīng)該有信心,何時只是猜測。它既會編造未出現(xiàn)在訓(xùn)練數(shù)據(jù)中的事實,也會在生成的內(nèi)容和提示之間出現(xiàn)不一致,這在前文中我們稱之為開放領(lǐng)域和封閉領(lǐng)域的幻覺。這些幻覺可以以自信和有說服力的方式陳述,難以檢測。因此,這樣的生成可能會導(dǎo)致錯誤,以及混亂和不信任。當(dāng)生成創(chuàng)意內(nèi)容時,幻覺是好事,但依賴于具有幻覺的模型提出的事實性聲明可能是代價高昂的,尤其是在高風(fēng)險領(lǐng)域(如醫(yī)療保?。┑膽?yīng)用中。有幾種補(bǔ)充的方法可以試圖解決幻覺問題。一種方法是通過提示或微調(diào)來改進(jìn)模型的校準(zhǔn),使其在不可能正確時要么放棄回答,要么提供一些其他的置信度指標(biāo),這些指標(biāo)可以在下游使用。另一種適用于緩解開放領(lǐng)域幻覺的方法是將模型缺乏的信息[敏感詞]提示中,例如允許模型調(diào)用外部信息源,例如搜索引擎,如第 5.1 節(jié)所述。對于封閉領(lǐng)域的幻覺,通過后處理檢查的額外模型計算也是有前途的,再次參照下圖中的示例。最后,構(gòu)建一個應(yīng)用程序的用戶體驗,考慮到可能出現(xiàn)幻覺的可能性,也可以成為有效緩解策略的一部分。
- 長期記憶 - 模型的上下文非常有限,它以「無狀態(tài)」的方式運(yùn)行,并沒有明顯的方法來教會模型新事實。事實上,甚至不清楚模型是否能夠執(zhí)行需要不斷發(fā)展的記憶和上下文的任務(wù),例如閱讀一本書,任務(wù)是在閱讀過程中跟隨情節(jié)并理解對先前章節(jié)的引用。
- 持續(xù)學(xué)習(xí) - 該模型缺乏更新自身或適應(yīng)不斷變化環(huán)境的能力。模型一旦訓(xùn)練完成就是固定的,沒有機(jī)制將新信息或用戶或世界的反饋納入其中。可以在新數(shù)據(jù)上微調(diào)模型,但這可能會導(dǎo)致性能下降或過擬合。由于訓(xùn)練周期之間的潛在滯后,當(dāng)事件、信息和知識在[敏感詞]的訓(xùn)練周期之后出現(xiàn)時,系統(tǒng)往往會過時。
- 個性化 - 一些應(yīng)用需要將模型定制為特定的組織或最終用戶。系統(tǒng)可能需要獲取有關(guān)組織運(yùn)作或個人偏好的知識。在許多情況下,系統(tǒng)需要根據(jù)人和組織的動態(tài)以個性化的方式適應(yīng)一段時間內(nèi)的特定變化。例如,在教育環(huán)境中,人們期望系統(tǒng)能夠理解特定的學(xué)習(xí)風(fēng)格,并隨著時間的推移適應(yīng)學(xué)生的理解和技能進(jìn)展。該模型沒有任何方法將這種個性化的信息納入其響應(yīng)中,除非使用元提示,但這種方法既有限又低效。
- 計劃和概念發(fā)散 - 正如第 8 節(jié)中的例子所建議的那樣,該模型在執(zhí)行需要提前規(guī)劃或需要構(gòu)成任務(wù)完成進(jìn)程中不連續(xù)概念發(fā)散的「靈光一現(xiàn)」時表現(xiàn)出困難。換句話說,該模型在需要類似于人類天才通常具有的概念飛躍的任務(wù)上表現(xiàn)不佳。
- 透明度、可解釋性和一致性 - 模型不僅會產(chǎn)生幻覺、編造事實和生成不一致的內(nèi)容,而且似乎模型沒有辦法驗證其產(chǎn)生的內(nèi)容是否與訓(xùn)練數(shù)據(jù)一致,或者是否自洽。雖然模型通常能夠為其決策提供高質(zhì)量的事后解釋(如在第 6.2 節(jié)中所示),但僅使用解釋來驗證導(dǎo)致某個決策或結(jié)論的過程只有在該過程被準(zhǔn)確地建模,并且還有一個足夠強(qiáng)大的解釋過程被準(zhǔn)確地建模時才有效(第 6.2 節(jié))。這兩個條件都很難驗證,當(dāng)它們失敗時,模型的決策和解釋之間存在不一致。由于模型沒有清晰的自我限制意識,因此很難在狹窄領(lǐng)域中進(jìn)行廣泛的實驗,以建立與用戶的信任或合作。
- 認(rèn)知偏見和非理性 - 模型似乎展示了一些人類知識和推理的限制,例如認(rèn)知偏見和非理性(例如確認(rèn)偏見、錨定偏見和基礎(chǔ)率忽略偏見)以及統(tǒng)計謬誤。模型可能會繼承一些在訓(xùn)練數(shù)據(jù)中存在的偏見、成見或錯誤,這些可能反映了與人口子集或更大的共同觀點和評估相關(guān)的意見或觀點分布。
- 對輸入敏感的挑戰(zhàn) - 模型的響應(yīng)可以非常敏感于提示的構(gòu)建或措辭的細(xì)節(jié)以及它們在會話中的順序。這種非魯棒性表明通常需要大量的工程化提示和它們的順序的努力和實驗,并且在人們沒有投入這樣的時間和精力的情況下使用可能會導(dǎo)致次優(yōu)和不一致的推斷和結(jié)果。
我們探索的一個限制是,在強(qiáng)化學(xué)習(xí)步驟(RLHF)的實施方式中存在的缺陷與更大的架構(gòu)和方法論本質(zhì)上固有的缺陷之間沒有明確的區(qū)別。例如,不清楚通過精細(xì)的強(qiáng)化學(xué)習(xí)步驟或?qū)W⒂谝胄滦问降男?zhǔn)來解決幻覺問題的程度(參見 [Ope23] 中的更多討論)。就類比到人類而言,認(rèn)知偏見和非理性思維可能是我們文化的產(chǎn)物,也可能是我們認(rèn)知能力的限制。追求更好地理解 GPT-4 中幻覺挑戰(zhàn)的來源和潛在解決方案,將從比較相同架構(gòu)下幾個 RL 階段的研究中獲益。
對于已經(jīng)確定的限制,一個更普遍的問題是:在下一個單詞預(yù)測的范圍內(nèi),哪些上述缺陷可以得到緩解?是僅僅一個更大的模型和更多的數(shù)據(jù)就能解決這些問題,還是需要修改、擴(kuò)展或重新制定架構(gòu)?下一個單詞預(yù)測的潛在擴(kuò)展包括以下方面:
- 模型對組件和工具的外部調(diào)用,例如計算器、數(shù)據(jù)庫搜索或代碼執(zhí)行,如第 5.1 節(jié)所建議的;
- 一個更豐富、更復(fù)雜的「緩慢思考」深層機(jī)制,監(jiān)督下一個單詞預(yù)測的「快速思考」機(jī)制。這種方法可以讓模型進(jìn)行長期規(guī)劃、探索或驗證,并維護(hù)工作記憶或行動計劃。緩慢思考機(jī)制將使用下一個單詞預(yù)測模型作為子程序,但它也將有訪問外部信息或反饋的能力,并能夠修改或更正快速思考機(jī)制的輸出;
- 將長期記憶集成為架構(gòu)的固有部分,也許在這樣一個意義上,模型的輸入和輸出都將包括除表示文本的標(biāo)記之外的一個向量,該向量代表上下文;
- 超越單詞預(yù)測:用一個分層結(jié)構(gòu)來替換標(biāo)記的序列,其中文本的高級部分(如句子、段落或思想)以嵌入的方式表示,并且內(nèi)容是自上而下生成的。我們尚且不清楚關(guān)于這些更高級別概念的順序和相互依賴性的更豐富的預(yù)測是否可能從以下一個單詞預(yù)測范式為中心的大規(guī)模計算和數(shù)據(jù)中產(chǎn)生。
10.3 到底發(fā)生了什么?
我們對 GPT-4 的研究完全是基于現(xiàn)象學(xué)的:我們關(guān)注的是 GPT-4 能夠做到的令人驚訝的事情,但我們并不解答它如何實現(xiàn)如此卓越的智能的基本問題。它是如何推理、規(guī)劃和創(chuàng)造內(nèi)容的?為什么當(dāng)它本質(zhì)上只是由簡單的算法組件——梯度下降和大規(guī)模的變壓器,以及極其大量的數(shù)據(jù)組合而成時,會表現(xiàn)出如此通用和靈活的智能呢?這些問題是 LLMs 的神秘和吸引力的一部分,挑戰(zhàn)了我們對學(xué)習(xí)和認(rèn)知的理解,激發(fā)了我們的好奇心,并激勵我們進(jìn)行更深入的研究。關(guān)鍵的方向包括對 LLMs 中出現(xiàn)現(xiàn)象的持續(xù)研究(參見 [WTB+22] 的[敏感詞]調(diào)查)。然而,盡管對 LLMs 能力的問題存在著強(qiáng)烈的興趣,但迄今為止取得的進(jìn)展非常有限,只有一些玩具模型能夠證明某些出現(xiàn)現(xiàn)象[BEG+22, ABC+22, JSL22]。一個普遍的假設(shè) [OCS+20] 是,大量的數(shù)據(jù)(尤其是內(nèi)容的多樣性)迫使神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)通用和有用的「神經(jīng)電路」,如在 [OEN+22, ZBB+22, LAG+22] 中發(fā)現(xiàn)的那些,而模型的大尺寸為神經(jīng)電路提供了足夠的冗余和多樣性,使它們能夠?qū)iT針對特定的任務(wù)進(jìn)行細(xì)化和微調(diào)。對于大規(guī)模模型來證明這些假設(shè)仍然是一項挑戰(zhàn),而且可以肯定的是,這個猜想只是答案的一部分。在另一個思路方向上,模型的巨大尺寸可能具有其他幾個優(yōu)點,例如通過連接不同的最小值使梯度下降更有效[VBB19],或者簡單地實現(xiàn)高維數(shù)據(jù)的平滑擬合[ES16, BS21]??偟膩碚f,闡明 GPT-4等 AI 系統(tǒng)的本質(zhì)和機(jī)制是一個巨大的挑戰(zhàn),這個挑戰(zhàn)已經(jīng)突然變得重要和緊迫。
致謝 - 我們感謝 OpenAI 創(chuàng)建如此出色的工具,并讓我們提前體驗它。我們還感謝 OpenAI 的 Miles Brundage 以及微軟的眾多人員,對這項工作提供了有益的反饋。
發(fā)展AGI的挑戰(zhàn)之一是賦予系統(tǒng)利用我們?nèi)祟愐暈槔硭?dāng)然的關(guān)于世界的常識知識進(jìn)行推理的能力。在這里,我們使用幾個示例來證明 GPT-4 具有常識基礎(chǔ)。特別是,我們將 GPT-4 與 ChatGPT 進(jìn)行比較,以展示 GPT-4 相對于其前身在學(xué)習(xí)的常識水平上邁出了一大步。測試人工智能系統(tǒng)的常識知識的一種方法是提出需要對世界有一些基本理解的謎題。一個經(jīng)典的例子是:
一個獵人向南走了一英里,向東走了一英里,向北走了一英里,最后回到了起點。他看到了一只熊,于是開槍打了它。這只熊是什么顏色的?
答案是白色,因為這種情況只可能發(fā)生在北極,那里生活著北極熊。在這種情況下, GPT-4 正確地識別了這些事實,并得出結(jié)論,熊是白色的,而它的前身 ChatGPT 放棄了并說“我不知道”(我們用金色突出了關(guān)鍵的成功推理步驟,用紅色突出了關(guān)鍵的錯誤步驟):
然而,這個謎題是眾所周知的,并且可能在 GPT-4 訓(xùn)練大量網(wǎng)絡(luò)文本的過程中遇到過。為了進(jìn)一步挑戰(zhàn) GPT-4,我們可以創(chuàng)造一個新的謎題,它在風(fēng)格上相似,但需要不同的常識知識,例如地球赤道是 24901 英里長。這個謎題是:
我駕駛一架飛機(jī)離開我的營地,直接向東飛行 24901 英里,然后回到營地。當(dāng)我回到營地時,看到一個老虎在我的帳篷里吃我的食物!這只老虎是什么物種?
答案是任何生活在赤道上的老虎物種,例如孟加拉虎和蘇門答臘虎。AI 系統(tǒng)需要知道地球赤道長 24901 英里,只有在赤道上才能向東或向西行駛并返回同一點,以及哪些老虎物種生活在赤道上。同樣,GPT-4 成功地找到了關(guān)鍵信息并解決了謎題,而 ChatGPT 立即放棄了:
下面我們給出更多的例子,說明 GPT-4 相對于 ChatGPT 具有更強(qiáng)的常識基礎(chǔ)和推理能力??偟膩碚f,它們表明 GPT-4 從其大規(guī)模和多樣化的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)了世界的豐富和一致的表征。
C.1 在LeetCode上衡量人類表現(xiàn)
對于每個問題,LeetCode 會以被接受的提交數(shù)量除以所有提交數(shù)量的比例來發(fā)布其接受率。然而,我們認(rèn)為這個統(tǒng)計數(shù)據(jù)可能不是一個合適的基準(zhǔn),原因如下:每個問題的接受率都考慮了所有歷史提交,我們觀察到困難問題的接受率通常比中等問題的接受率要高。我們猜測許多被接受的提交可能是在解決方案發(fā)布后被“復(fù)制和粘貼”的。
根據(jù)上述統(tǒng)計數(shù)據(jù),我們測量了人類在 LeetCode 問題的每個難度級別(Easy、Medium 和 Hard)上的表現(xiàn),如下所示:
C.2 GPT-4可視化IMDb數(shù)據(jù)的示例
GPT-4繪制了帶有電影標(biāo)題、編劇和導(dǎo)演作為節(jié)點的網(wǎng)絡(luò)圖。它自動建議使用社區(qū)檢測算法對節(jié)點進(jìn)行著色。結(jié)果圖是交互式的,即用戶可以放大/縮小感興趣的區(qū)域,并將鼠標(biāo)懸停在節(jié)點上查看標(biāo)簽:
在上面的例子中,我們讓 GPT-4 使用模糊的規(guī)格要求,用 HTML 和 JavaScript 編寫一個 2D 坦克戰(zhàn)爭游戲。游戲涉及復(fù)雜的邏輯和狀態(tài)管理,包括敵人、玩家、炮彈和墻壁對象的邏輯,以及碰撞的邏輯。再次,GPT-4 生成了一個完全功能的游戲,甚至添加了“常識”未指定的細(xì)節(jié),如“炮彈應(yīng)在撞擊墻壁后消失”。它還能夠根據(jù)用戶的請求編輯游戲。相比之下,ChatGPT 不僅拒絕創(chuàng)建游戲,而且生成了一個不會根據(jù) WASD 鍵移動的正方形和三角形的代碼。它根本不動,只有在按下“d”鍵時向下指,并在按下“a”鍵時向上指(即使這也是錯誤的,因為“w”應(yīng)該向上指,“s”向下指)。
GUI 編程,或圖形用戶界面編程,是設(shè)計和實現(xiàn)通過視覺元素與用戶交互的軟件應(yīng)用程序的過程,如窗口、按鈕、菜單、圖標(biāo)和對話框等。GUI 編程的重要性在于它可以增強(qiáng)軟件的可用性、可訪問性和吸引力,以及促進(jìn)復(fù)雜任務(wù)和數(shù)據(jù)可視化。然而,GUI 編程也很困難,因為它需要多種技能和知識的結(jié)合,如圖形設(shè)計、用戶界面設(shè)計、事件驅(qū)動編程、特定平臺的庫和框架,以及測試和調(diào)試。我們展示了 GPT-4 也是 GUI 編程方面的專家,知道如何創(chuàng)建準(zhǔn)確的布局并處理復(fù)雜的輸入事件。
GPT-4 分析提示并提取相關(guān)細(xì)節(jié),例如布局、小部件、標(biāo)簽和操作。它為查詢模型創(chuàng)建一個單獨(dú)的線程,以避免在運(yùn)行時阻塞 GUI,并設(shè)置標(biāo)志以在用戶取消操作時終止線程。它使用正則表達(dá)式來識別和突出顯示由$符號包圍的表達(dá)式,就像 latex 編譯器一樣。它還使用 nltk 包在查詢模型完成后生成文本摘要。此外,它從常識推斷,即“加載”按鈕應(yīng)該允許用戶瀏覽并選擇要加載到文本輸入中的文件,即使提示沒有指定此功能。
我們通過向 GPT-4 提出一個相當(dāng)具有挑戰(zhàn)性的任務(wù)來再次測試它的 zero-shot GUI 編程能力:創(chuàng)建一個繪圖面板并跟蹤以前繪制的對象列表:
C.7 測試 GPT-4 執(zhí)行(偽)代碼的能力
函數(shù) g 接受兩個輸入數(shù)組,輸出是通過反轉(zhuǎn)和連接這兩個數(shù)組的數(shù)字,然后將它們相乘得到的。我們將其中一個輸入數(shù)組固定為長度為4的數(shù)組,每個元素隨機(jī)抽樣自 1 至 9 之間的整數(shù),并變化另一個數(shù)組的長度。我們得到了如下的準(zhǔn)確度與長度/步數(shù)(這里的步數(shù)指的是數(shù)組 r 將更新多少次)之間的關(guān)系:
我們可以看到,即使在 96 個步驟時(當(dāng)模型的輸出接近其 8129 個令牌限制時),該模型仍然成功地跟蹤了數(shù)組 r,準(zhǔn)確率高達(dá) 54%(在這里,準(zhǔn)確率意味著輸出與輸入完全匹配的百分比)。顯然,這還不足以成為編譯器(執(zhí)行器),但已經(jīng)是通向能夠執(zhí)行偽代碼的 AGI 編譯器的重要一步。
實際上,GPT-4 還可以將其技能應(yīng)用于偽代碼,通過在特定的編程語言中生成等效代碼來執(zhí)行任務(wù)。這對于 GPT-4 來說并不具有挑戰(zhàn)性,因為它已經(jīng)展示了從自然語言指令中獲得卓越編碼能力的能力。在本節(jié)中,我們的主要觀點是要證明 GPT-4 不僅可以編寫代碼,而且還能理解編程的工作原理并正確執(zhí)行它。
雖然GPT-4在解決數(shù)學(xué)問題方面已經(jīng)取得了一些進(jìn)展,但它仍然不是一個完美的系統(tǒng)。盡管一些無法得出正確解的失敗可能是由于缺乏理解能力,但其他很多錯誤則可以追溯到更局部的錯誤。這些錯誤通??梢詺w為一些類別,如注意力或算術(shù)錯誤。以下,我們以非詳盡的方式突出和討論一些在解決數(shù)學(xué)問題時經(jīng)常遇到的典型錯誤類別。
算術(shù)錯誤:雖然GPT-4在減少算術(shù)錯誤方面比較老的模型表現(xiàn)得更好,但它仍然在這些類型的錯誤方面存在困難,無論它是使用具體數(shù)字還是抽象表達(dá)式進(jìn)行計算。
重要的觀察是,當(dāng)GPT-4跳過計算中的步驟而不是將其分解成更小的步驟時,它更容易出現(xiàn)算術(shù)錯誤。為了說明這一點,考慮以下示例:
在這個例子中,生成的方程式包含錯誤。另一方面,如果我們提示模型將計算分解為更小的步驟,它將得出正確的解決方案:
這些例子突顯了一個非常常見的問題,即在計算的一步中執(zhí)行多個原子操作會導(dǎo)致錯誤(這個問題在文獻(xiàn)中是眾所周知的,并且在第8節(jié)中也有討論)。由于在線數(shù)學(xué)資源通常省略計算步驟(期望讀者可以自行填補(bǔ)),因此一個訓(xùn)練于這種數(shù)據(jù)的自回歸模型也會傾向于這樣做。
有人可能希望通過簡單地提示模型“逐步思考”來完全解決這個問題。然而,從上述例子可以看出,這個指令的含義并不總是清楚的,具體情況需要具體分析:
為了系統(tǒng)地測試這種計算錯誤,我們創(chuàng)建了以下合成任務(wù):我們要求模型將 ePi\in[L] a_i(b_ix + c_i)^2 寫成 ax^2+bx+c 的形式,并計算 |a|+|b|+|c|。提示如下:
我們可以看到,即使我們要求模型不要在一次計算中合并同類項,它仍然很可能跳過步驟。我們通過選擇 L ∈ [5],并隨機(jī)從 ai ∈ {?1, 1},bi,ci ∈ {?5, ?4, · · · , 4, 5} 中抽樣進(jìn)行測試。準(zhǔn)確率如下表所示:
上面的表格分析了 LLMs 在一個非常簡單的代數(shù)問題上的表現(xiàn)。雖然 GPT-4 的表現(xiàn)比以前的模型有了顯著的提高,但我們可以看到,隨著L的增加,模型更容易犯計算錯誤。我們手動檢查了 100 個錯誤的實例,發(fā)現(xiàn)其中 90% 是由于在合并相似項時跳過了步驟。這指向了模型的重大局限性,并啟發(fā)了以下研究問題:
是否有一種有效的方法來訓(xùn)練或微調(diào) LLM,使它們能夠?qū)⒂嬎惴纸獬奢^小的步驟,從而實現(xiàn)更準(zhǔn)確的計算能力?
計數(shù)錯誤:合理地假設(shè) LLMs 在計數(shù)方面存在困難。不僅在轉(zhuǎn)換器架構(gòu)中難以實現(xiàn)此操作,而且數(shù)據(jù)集中計數(shù)示例的稀缺性只會加劇這個問題。為了系統(tǒng)地評估 GPT-4 在這方面的能力,我們創(chuàng)建了一個數(shù)據(jù)集,其中包含形式為 A1,A2,…,AL 的字符串序列。其中每個 Ai 都是長度為k的隨機(jī)數(shù)字序列。我們要求模型計算序列中不同元素的數(shù)量,答案范圍在 L/2 到 L-1 之間。這是 L = 5,k = 2 的示例:
我們對模型進(jìn)行了測試,其中 L ∈ [5, 10, 15, 25],k = 2, 7, 12。結(jié)果如下:
雖然與先前的模型相比,GPT-4在短序列的計數(shù)能力顯著提高,但在序列長度從5增長到10時,GPT-4的準(zhǔn)確性仍然顯著下降,表明它的計數(shù)能力遠(yuǎn)低于人類。由于計數(shù)是許多應(yīng)用程序的基本要求,將這種組件合并到架構(gòu)中可能會有益。
反向推理和驗證人類創(chuàng)作的數(shù)學(xué)內(nèi)容通常在概述推導(dǎo)過程之前先給出結(jié)論。例如,“我們接下來將證明x=0是一個解…”或“我們將證明命題:AC垂直于BD”。這種風(fēng)格的選擇可以提高可讀性,但對于自然語言生成模型來說卻是一個挑戰(zhàn),因為它要求模型在生成推理步驟之前推斷出答案。我們觀察到,GPT-4不僅采用了這種風(fēng)格,而且還有一個相關(guān)的缺點:即使在開始推斷出一個明顯錯誤的答案時,它仍然會試圖為它創(chuàng)建理由,而不是更正它。這可能再次歸因于訓(xùn)練數(shù)據(jù)的風(fēng)格,它主要包含直接的解決方案,而不是試錯風(fēng)格的討論,現(xiàn)在還不清楚是否可以通過強(qiáng)化學(xué)習(xí)階段(例如GPT-Instruct)來緩解這種情況。
在圖D.1中,我們可以看到當(dāng)GPT-4開始生成錯誤的結(jié)論時,這很快會導(dǎo)致非常不連貫或毫無意義的內(nèi)容(例如,聲稱2=0以證明結(jié)論)。模型在進(jìn)行局部錯誤和與自己的結(jié)論相矛盾之間存在沖突,并且往往更傾向于匹配結(jié)論而不是驗證邏輯的局部一致性(可以認(rèn)為,訓(xùn)練數(shù)據(jù)更有可能包含中間推理中的“局部”錯誤,而不是明顯違背陳述結(jié)論的步驟)。另一方面,如果模型產(chǎn)生自下而上的論證,先寫下步驟,然后才得出結(jié)論,性能顯著提高。我們總結(jié)以下研究問題,靈感來自于這個討論:
數(shù)學(xué)問題常常按不同于解答它的思維過程的順序編寫。
我們?nèi)绾喂膭?LLMs 以與人類思維過程相對應(yīng)的順序生成數(shù)學(xué)內(nèi)容?
在接下來的內(nèi)容中,我們展示 GPT-4 在不同數(shù)學(xué)分支的問題上的表現(xiàn)。本節(jié)中的例子并不旨在全面或代表模型在不同數(shù)學(xué)分支或水平上的表現(xiàn),而是為了給出模型能力范圍的感覺。下面大多數(shù)問題都是專門為這項研究編寫的(其他一些問題是從模型訓(xùn)練后出現(xiàn)的在線資源中獲取或翻譯而來的),因此模型在訓(xùn)練期間不可能看到這些問題,從而解決了模型僅僅記住答案的擔(dān)憂。
這些例子將揭示,例如,盡管是語言模型,但該模型可以很好地處理幾何概念,并且可以在一些高級數(shù)學(xué)專業(yè)主題上進(jìn)行有意義的對話。與 ChatGPT 在相同問題上的表現(xiàn)相比,該模型的數(shù)學(xué)能力有了明顯的提高。
以下所呈現(xiàn)的問題難度各不相同,其中一些可能略微超出 GPT-4 的能力范圍。然而,總體水平顯然超出了 ChatGPT 的能力。我們用 ChatGPT 多次測試了這些問題,并發(fā)現(xiàn)絕大多數(shù)嘗試都導(dǎo)致錯誤答案。我們強(qiáng)調(diào),我們先收集問題,然后在沒有任何修改的情況下對兩個模型進(jìn)行測試,因此我們沒有選擇問題以支持 GPT-4 的表現(xiàn)。
在大多數(shù)例子中,ChatGPT 產(chǎn)生的答案表現(xiàn)出對涉及的數(shù)學(xué)問題和概念的差勁理解。ChatGPT 答案的一個常見特征是,它們似乎依賴于一種“模板匹配”的形式,其中模型試圖將問題套入結(jié)構(gòu)化問題的熟悉模式中,但因為問題不匹配該模式而失敗。這導(dǎo)致了不連貫或毫無意義的輸出,根本沒有回答問題。ChatGPT 答案的另一個常見特征是,它們經(jīng)常包含基于錯誤推理或無關(guān)信息的論證。該模型似乎無法抓住問題的要點或數(shù)學(xué)步驟的邏輯。即使它確實提出了正確的解題策略,它通常在實現(xiàn)或計算方面犯錯。該模型還傾向于進(jìn)行代數(shù)操作或計算,而沒有明確的方向或目的,從而導(dǎo)致混亂或錯誤。另一方面,由 GPT-4 給出的答案通常更連貫、準(zhǔn)確,并與問題相關(guān)。它們展示了對涉及的數(shù)學(xué)概念和方法的更好理解,并為其步驟和解決方案提供了清晰和有邏輯的解釋和證明。
我們不試圖分析這些例子中 ChatGPT 失敗或 GPT-4 成功的原因,但我們?yōu)槊總€例子提供了簡短的評論,評估模型的答案,就像它們是由人類編寫的一樣。我們試圖指出答案所展示出的或者缺乏的理解或洞察力。
以下問題是高中數(shù)學(xué)的高級水平,需要了解函數(shù)復(fù)合和反演的概念。
GPT-4 的解答是正確的,論證也是有道理的,而 ChatGPT 則給出了一個錯誤的解答,這在人類的情況下反映出對函數(shù)反演概念的理解不足。
在下一個例子中,兩個模型都給出了錯誤的答案。GPT-4 的論證實際上隱藏了正確的答案,但它仍然給出了錯誤的結(jié)論(可能是因為它開始陳述了錯誤的答案)。ChatGPT 生成的論證大部分是不連貫的。
下一個問題相當(dāng)簡單。為了解決它,需要以直接的方式簡化一個方程,之后只剩下一個涉及到 x^0、X^4 和 x^8 項的方程,此時可以意識到這是一個關(guān)于 x^4 的二次方程,可以通過代換解決。
GPT-4 給出了一個正確的解決方案,而 ChatGPT 開始通過重新排列項來進(jìn)行計算,沒有明確的方向或目的,并最終得出了一個錯誤的解決方案。
我們的最后一個例子涉及高中水平的三角學(xué)問題,該問題是從 2022 年中國高考數(shù)學(xué)試題中翻譯而來的。
在上面的例子中,兩個模型都得出了錯誤的答案。GPT-4的論證基于正確的推理,但有幾個計算錯誤,而ChatGPT的論證大多包含無效的推理步驟。
可以合理地假設(shè),幾何數(shù)學(xué)問題對語言模型構(gòu)成更大的挑戰(zhàn)。盡管如此,GPT-4 仍然可以成功地解決某些通常需要圖表或插圖的問題,如下所示。
GPT-4 獲得了正確的解決方案,將問題描述中的幾何對象與向量符號相關(guān)聯(lián),并對這些向量進(jìn)行操作。而 ChatGPT 在解題的早期階段就寫出了方程 n + m = x,將向量和標(biāo)量進(jìn)行比較(這是不連貫的)。
接下來的問題依賴于基本的幾何概念,如勾股定理的應(yīng)用。
在這個例子中,需要首先意識到需要應(yīng)用勾股定理,并找到需要應(yīng)用它的三角形,GPT-4 正確地做到了這一點(之后正確地使用了幾何概念,如完美正方形的面積和線段的中點)。值得注意的是,它對 115 進(jìn)行了平方根,之后又對這個數(shù)進(jìn)行了平方,使用了數(shù)值估計,因此得出了略微不準(zhǔn)確的數(shù)字,而沒有意識到這些估計是不必要的。再次強(qiáng)調(diào),ChatGPT 的輸出是不連貫的。
下一個問題相當(dāng)簡單,但結(jié)構(gòu)不太清晰,需要理解平移和旋轉(zhuǎn)等價概念。
在這里,兩個模型都給出了正確的最終答案。然而,仔細(xì)審查 ChatGPT 的論證發(fā)現(xiàn)它是無效的,問題指向了對問題底層幾何的理解缺乏。
接下來的練習(xí)涉及計算一個積分,這是 STEM 學(xué)科本科微積分課程中的典型問題。
GPT-4 應(yīng)用了分部積分法,基于成功地將積分分成兩個部分的決策,得出了正確的解答。ChatGPT 在沒有明顯目的的情況下應(yīng)用了幾個恒等式,在過程中犯了幾個錯誤,并得出了錯誤的結(jié)果。
接下來是另一個典型的大學(xué)級微積分例子,涉及對隱函數(shù)的求導(dǎo)。
GPT-4 正確應(yīng)用隱函數(shù)求導(dǎo)法,考慮到 y 和 x 的導(dǎo)數(shù)之間的依賴關(guān)系。ChatGPT 的答案以“我們可以使用鏈?zhǔn)椒▌t”開始,這與此問題無關(guān),并特征是繼續(xù)附以大多不連貫的論證。
本小節(jié)中的最后一個問題是一個變分微積分練習(xí)(通常在 STEM 學(xué)科的本科一年級教授):
兩個模型都意識到拉格朗日乘數(shù)法在這個問題中很有用(這種策略適用于在約束條件下最小化某個表達(dá)式的問題)。雖然 ChatGPT 以錯誤的方式應(yīng)用了這種方法(如果是人類,可能會被視為缺乏理解力),但 GPT-4 提出了一個合理的論證。
我們給出兩個例子,結(jié)合物理知識和一些常識假設(shè)。
請注意,ChatGPT 未考慮到重量因素,僅基于體積計算給出了答案。雖然在日常生活中確定需要多少袋子時,體積是最常見的關(guān)注點,但它與這個問題無關(guān)。相比之下,GPT-4 通過創(chuàng)建一個物理模型來正確解決這個問題,估計塑料袋能承受的[敏感詞]重量。然而,由于計算錯誤,最終答案仍然是錯誤的。
我們的第二個問題依賴于對熱傳導(dǎo)和輻射概念的理解。
D.3 使用 GPT-4 生成數(shù)學(xué)問題
接下來,我們使用 GPT-4 在一些自然語言約束下,基于現(xiàn)有問題生成新的數(shù)學(xué)問題,分為以下類別:
1. 內(nèi)容修改:一個與原問題具有相同結(jié)構(gòu)和邏輯,但使用不同的名稱、對象或值的問題。
2. 難度增加:通過增加步驟、約束條件或增加復(fù)雜性等方式,使問題變得比原問題更具挑戰(zhàn)性。
正如我們在上面看到的,模型無法解決數(shù)學(xué)問題的主要原因之一是計算錯誤。下面的例子是一個概念驗證,它表明,可以提示模型生成執(zhí)行某個計算的代碼段,而不是進(jìn)行計算。通過將模型與執(zhí)行代碼的外部組件相結(jié)合(在執(zhí)行后將結(jié)果連接到提示中),我們推測許多錯誤可以得到減少,但我們沒有對這種方法進(jìn)行系統(tǒng)評估。
F.1.1 第 5.1.1 節(jié)中的動物園游戲
F.1.2 帶有更多指南的第 5.1.1 節(jié)中的動物園游戲
F.2.1 第 5.2.2 節(jié)中的[敏感詞]個游戲
F.2.2 text-davinci-003 在第 5.2.2 節(jié)中的[敏感詞]個游戲
F.2.3 第 5.2.2 節(jié)中的第二個游戲,0-shot 模式
F.2.4 第 5.2.2 節(jié)中的第二個游戲,1-shot 模式
詳細(xì)結(jié)果,涵蓋了 7.2 節(jié)中所述的結(jié)果。
參考文獻(xiàn)[ABC+22] Kwangjun Ahn, S′ebastien Bubeck, Sinho Chewi, Yin Tat Lee, Felipe Suarez, and Yi Zhang. Learning threshold neurons via the “edge of stability”. arXiv preprint arXiv:2212.07469, 2022.[AWV+19] Saleema Amershi, Dan Weld, Mihaela Vorvoreanu, Adam Fourney, Besmira Nushi, Penny Col- lisson, Jina Suh, Shamsi Iqbal, Paul N Bennett, Kori Inkpen, Jaime Teevan, Ruth Kikin-Gil, and Eric Horvitz. Guidelines for human-AI interaction. In Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems, pages 1–13, 2019.[BB19] Shikha Bordia and Samuel R Bowman. Identifying and reducing gender bias in word-level language models. arXiv preprint arXiv:1904.03035, 2019.[BBDIW20] Su Lin Blodgett, Solon Barocas, Hal Daum′e III, and Hanna Wallach. Language (technology) is power: A critical survey of” bias” in nlp. arXiv preprint arXiv:2005.14050, 2020.[BCLF85] Simon Baron-Cohen, Alan M Leslie, and Uta Frith. Does the autistic child have a “theory of mind”? Cognition, 21(1):37–46, 1985.[BCZ+16] Tolga Bolukbasi, Kai-Wei Chang, James Y Zou, Venkatesh Saligrama, and Adam T Kalai. Man is to computer programmer as woman is to homemaker? Debiasing word embeddings. Advances in neural information processing systems, 29, 2016.[BEG+22] Boaz Barak, Benjamin L. Edelman, Surbhi Goel, Sham M. Kakade, eran malach, and Cyril Zhang. Hidden progress in deep learning: SGD learns parities near the computational limit. In Advances in Neural Information Processing Systems, 2022.[BGMMS21] Emily M Bender, Timnit Gebru, Angelina McMillan-Major, and Shmargaret Shmitchell. On the dangers of stochastic parrots: Can language models be too big? In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, pages 610–623, 2021.[BH09] Dan Bohus and Eric Horvitz. Models for multiparty engagement in open-world dialog. In Proceedings of the SIGDIAL 2009 Conference, The 10th Annual Meeting of the Special Interest Group on Discourse and Dialogue, page 10, 2009.[BIK22] Michael Bommarito II and Daniel Martin Katz. Gpt takes the bar exam. arXiv preprint arXiv:2212.14402, 2022.[BM17] Erik Brynjolfsson and Tom Mitchell. What can machine learning do? workforce implications.Science, 358(6370):1530–1534, 2017.[BMR+20] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhari- wal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Language models are few-shot learners. In Advances in Neural Information Processing Systems, volume 33, pages 1877–1901, 2020.[BNK+19] Gagan Bansal, Besmira Nushi, Ece Kamar, Daniel S Weld, Walter S Lasecki, and Eric Horvitz. Updates in human-ai teams: Understanding and addressing the performance/compatibility tradeoff. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 33, pages 2429–2437, 2019.[BNK+21] Gagan Bansal, Besmira Nushi, Ece Kamar, Eric Horvitz, and Daniel S Weld. Is the most accurate ai the best teammate? Optimizing AI for teamwork. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 35, pages 11405–11414, 2021.[BS21] Sebastien Bubeck and Mark Sellke. A universal law of robustness via isoperimetry. In M. Ran- zato, A. Beygelzimer, Y. Dauphin, P.S. Liang, and J. Wortman Vaughan, editors, Advances in Neural Information Processing Systems, volume 34, pages 28811–28822. Curran Associates, Inc., 2021.[Cho19] Fran?cois Chollet. On the measure of intelligence. arXiv preprint arXiv:1911.01547, 2019. [CKB+21] Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser,Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, et al. Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168, 2021.[CKY+18] Marc-Alexandre C?ot′e, Akos K′ad′ar, Xingdi Yuan, Ben Kybartas, Tavian Barnes, Emery Fine, James Moore, Matthew Hausknecht, Layla El Asri, Mahmoud Adada, et al. Textworld: A learning environment for text-based games. In Workshop on Computer Games, pages 41–75. Springer, 2018.[CTJ+21] Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, Alex Ray, Raul Puri, Gretchen Krueger, Michael Petrov, Heidy Khlaaf, Girish Sastry, Pamela Mishkin, Brooke Chan, Scott Gray, Nick Ryder, Mikhail Pavlov, Alethea Power, Lukasz Kaiser, Mohammad Bavarian, Clemens Winter, Philippe Tillet, Felipe Petroski Such, Dave Cummings, Matthias Plappert, Fotios Chantzis, Elizabeth Barnes, Ariel Herbert-Voss, William Hebgen Guss, Alex Nichol, Alex Paino, Nikolas Tezak, Jie Tang, Igor Babuschkin, Suchir Balaji, Shantanu Jain, William Saunders, Christopher Hesse, Andrew N. Carr, Jan Leike, Josh Achiam, Vedant Misra, Evan Morikawa, Alec Radford, Matthew Knight, Miles Brundage, Mira Murati, Katie Mayer, Peter Welinder, Bob McGrew, Dario Amodei, Sam McCandlish, Ilya Sutskever, and Wojciech Zaremba. Evaluating large language models trained on code. 2021.[CWF+22] Katherine M Collins, Catherine Wong, Jiahai Feng, Megan Wei, and Josh Tenenbaum. Struc- tured, flexible, and robust: benchmarking and improving large language models towards more human-like behavior in out-of-distribution reasoning tasks. In Proceedings of the Annual Meeting of the Cognitive Science Society, volume 44, 2022.[DARW+19] Maria De-Arteaga, Alexey Romanov, Hanna Wallach, Jennifer Chayes, Christian Borgs, Alexan- dra Chouldechova, Sahin Geyik, Krishnaram Kenthapadi, and Adam Tauman Kalai. Bias in bios: A case study of semantic representation bias in a high-stakes setting. In proceedings of the Conference on Fairness, Accountability, and Transparency, pages 120–128, 2019.[DM15] Ernest Davis and Gary Marcus. Commonsense reasoning and commonsense knowledge in arti- ficial intelligence. Communications of the ACM, 58(9):92–103, 2015.[ES16] Ronen Eldan and Ohad Shamir. The power of depth for feedforward neural networks. In 29th Annual Conference on Learning Theory, volume 49 of Proceedings of Machine Learning Research, pages 907–940. PMLR, 2016.[GHT15] Samuel J Gershman, Eric J Horvitz, and Joshua B Tenenbaum. Computational rationality: A converging paradigm for intelligence in brains, minds, and machines. Science, 349(6245):273– 278, 2015.[Goe14] Ben Goertzel. Artificial general intelligence: concept, state of the art, and future prospects.Journal of Artificial General Intelligence, 5(1):1, 2014.[Got97] Linda S Gottfredson. Mainstream science on intelligence: An editorial with 52 signatories, history, and bibliography, 1997.[GPN+22] Tejas Gokhale, Hamid Palangi, Besmira Nushi, Vibhav Vineet, Eric Horvitz, Ece Kamar, Chitta Baral, and Yezhou Yang. Benchmarking spatial relationships in text-to-image generation. arXiv preprint arXiv:2212.10015, 2022.[Gug23] Connie Guglielmo. CNET is experimenting with an AI assist. Here’s why, January 2023. [Online; posted 16-January-2023].[HB95] Eric Horvitz and Matthew Barry. Display of information for time-critical decision making. InProceedings of the UAI, 1995.[HBK+21] Dan Hendrycks, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn Song, and Jacob Steinhardt. Measuring mathematical problem solving with the math dataset. NeurIPS, 2021.[Hor99] Eric Horvitz. Principles of mixed-initiative user interfaces. In Proceedings of the SIGCHI con- ference on Human Factors in Computing Systems, pages 159–166, 1999.[Hor07] Eric Horvitz. Reflections on challenges and promises of mixed-initiative interaction. AI Maga- zine, 28(2), 2007.[Hor22] Eric Horvitz. On the horizon: Interactive and compositional deepfakes. In Proceedings of the 2022 International Conference on Multimodal Interaction, page 653–661. Association for Computing Machinery, 2022.[HP07] Eric Horvitz and Tim Paek. Complementary computing: Policies for transferring callers from dialog systems to human receptionists. User Modeling and User-Adapted Interaction, 17(1):159– 182, 2007.[HS16] Dirk Hovy and Shannon L Spruit. The social impact of natural language processing. In Pro- ceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), pages 591–598, 2016.[JSL22] Samy Jelassi, Michael E Sander, and Yuanzhi Li. Vision transformers provably learn spatial structure. arXiv preprint arXiv:2210.09221, 2022.[Kah11] Daniel Kahneman. Thinking, fast and slow. macmillan, 2011.[KHH12] Ece Kamar, Severin Hacker, and Eric Horvitz. Combining human and machine intelligence in large-scale crowdsourcing. In AAMAS, volume 12, pages 467–474, 2012.[LAD+22] Aitor Lewkowycz, Anders Andreassen, David Dohan, Ethan Dyer, Henryk Michalewski, Vinay Ramasesh, Ambrose Slone, Cem Anil, Imanol Schlag, Theo Gutman-Solo, et al. Solving quan- titative reasoning problems with language models. arXiv preprint arXiv:2206.14858, 2022.[LAG+22] Bingbin Liu, Jordan T Ash, Surbhi Goel, Akshay Krishnamurthy, and Cyril Zhang. Transformers learn shortcuts to automata. arXiv preprint arXiv:2210.10749, 2022.[LBFL93] Robert K Lindsay, Bruce G Buchanan, Edward A Feigenbaum, and Joshua Lederberg. Dendral: A case study of the first expert system for scientific hypothesis formation. Artificial Intelligence, 61(2):209–261, 1993.[LeC22] Yann LeCun. A path towards autonomous machine intelligence. Open Review, 2022.[Lef23] Lauren Leffer. CNET is reviewing the accuracy of all its AI-written articles after multiple major corrections, January 2023. [Online; posted 17-January-2023].[Leg08] Shane Legg. Machine super intelligence. PhD thesis, Universit`a della Svizzera italiana, 2008. [Len95]Douglas B. Lenat. Cyc: A large-scale investment in knowledge infrastructure. Communications fo the ACM, 38(11):33–38, nov 1995.[LH07] Shane Legg and Marcus Hutter. Universal intelligence: A definition of machine intelligence.Minds and machines, 17(4):391–444, 2007.[LHE21] Stephanie Lin, Jacob Hilton, and Owain Evans. Truthfulqa: Measuring how models mimic human falsehoods. arXiv preprint arXiv:2109.07958, 2021.[Lin04] Chin-Yew Lin. Rouge: A package for automatic evaluation of summaries. In Text summarization branches out, pages 74–81, 2004.[LKCH17] Himabindu Lakkaraju, Ece Kamar, Rich Caruana, and Eric Horvitz. Identifying unknown unknowns in the open world: Representations and policies for guided exploration. In Thirty- first AAAI conference on artificial intelligence, 2017.[LPP+20] Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Ku¨ttler, Mike Lewis, Wen-tau Yih, Tim Rockt¨aschel, et al. Retrieval-augmented generation for knowledge-intensive nlp tasks. Advances in Neural Information Processing Sys- tems, 33:9459–9474, 2020.[MIB+23] Kyle Mahowald, Anna A Ivanova, Idan A Blank, Nancy Kanwisher, Joshua B Tenenbaum, and Evelina Fedorenko. Dissociating language and thought in large language models: a cognitive perspective. arXiv preprint arXiv:2301.06627, 2023.[MMLR22] Shikhar Murty, Christopher D Manning, Scott Lundberg, and Marco Tulio Ribeiro. Fixing model bugs with natural language patches. arXiv preprint: arXiv:2211.03318, 2022.[MMRS06] John McCarthy, Marvin L Minsky, Nathaniel Rochester, and Claude E Shannon. A proposal for the Dartmouth summer research project on artificial intelligence, August 31, 1955. AI magazine, 27(4):12–12, 2006.[MNBM20] Joshua Maynez, Shashi Narayan, Bernd Bohnet, and Ryan McDonald. On faithfulness and factuality in abstractive summarization. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 1906–1919, 2020.[MRT18] Mehryar Mohri, Afshin Rostamizadeh, and Ameet Talwalkar. Foundations of Machine Learning.MIT press, 2018.[NHB+21] Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, Christina Kim, Christo- pher Hesse, Shantanu Jain, Vineet Kosaraju, William Saunders, et al. Webgpt: Browser-assisted question-answering with human feedback. arXiv preprint arXiv:2112.09332, 2021.[Nis09] Helen Nissenbaum. Privacy in context. In Privacy in Context. Stanford University Press, 2009.[NPH+22] Erik Nijkamp, Bo Pang, Hiroaki Hayashi, Lifu Tu, Huan Wang, Yingbo Zhou, Silvio Savarese, and Caiming Xiong. Codegen: An open large language model for code with multi-turn program synthesis. arXiv preprint, 2022.[NSS59] Allen Newell, John C Shaw, and Herbert A Simon. Report on a general problem solving program. In IFIP congress, volume 256, page 64. Pittsburgh, PA, 1959.[OCS+20] Chris Olah, Nick Cammarata, Ludwig Schubert, Gabriel Goh, Michael Petrov, and Shan Carter. Zoom in: An introduction to circuits. Distill, 5(3):e00024–001, 2020.[OEN+22] Catherine Olsson, Nelson Elhage, Neel Nanda, Nicholas Joseph, Nova DasSarma, Tom Henighan, Ben Mann, Amanda Askell, Yuntao Bai, Anna Chen, et al. In-context learning and induction heads. arXiv preprint arXiv:2209.11895, 2022.[oM22] The University of Michigan. Tanner Lecture on AI and Human Values by Eric Horvitz. https://www.youtube.com/watch?v=vsewugyXYXI, November 2022.[Ope23] OpenAI. Gpt-4 technical report, 2023. arXiv preprint arXiv:2303.08774 [cs.CL].[Pay20]Brad Payne. Privacy protection with ai: Survey of data-anonymization techniques. 2020. [PL?+22] Ildik′o Pil′an, Pierre Lison, Lilja ?vrelid, Anthi Papadopoulou, David S′anchez, and Montserrat Batet. The text anonymization benchmark (tab): A dedicated corpus and evaluation framework for text anonymization. arXiv preprint arXiv:2202.00443, 2022.[PRWZ02] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. Bleu: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting of the Association for Computational Linguistics, pages 311–318, 2002.[PSZ+21] Krishna Pillutla, Swabha Swayamdipta, Rowan Zellers, John Thickstun, Sean Welleck, Yejin Choi, and Zaid Harchaoui. Mauve: Measuring the gap between neural text and human text using divergence frontiers. In Advances in Neural Information Processing Systems, volume 34, pages 4816–4828, 2021.[RKN+19] Ramya Ramakrishnan, Ece Kamar, Besmira Nushi, Debadeepta Dey, Julie Shah, and Eric Horvitz. Overcoming blind spots in the real world: Leveraging complementary abilities for joint execution. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 33, pages 6137–6145, 2019.[RL22] Kristen Reeder and Hwan Lee. Impact of artificial intelligence on us medical students’ choice of radiology. Clinical Imaging, 81:67–71, 2022.[Ros20] Howard J Ross. Everyday bias: Identifying and navigating unconscious judgments in our daily lives. Rowman & Littlefield, 2020.[SAT+22] Karan Singhal, Shekoofeh Azizi, Tao Tu, S Sara Mahdavi, Jason Wei, Hyung Won Chung, Nathan Scales, Ajay Tanwani, Heather Cole-Lewis, Stephen Pfohl, et al. Large language models encode clinical knowledge. arXiv preprint arXiv:2212.13138, 2022.[SBD+96] Bart Selman, Rodney A Brooks, Thomas Dean, Eric Horvitz, Tom M Mitchell, and Nils J Nilsson. Challenge problems for artificial intelligence. In Proceedings of the National Conference on Artificial Intelligence, pages 1340–1345, 1996.[SDP20] Thibault Sellam, Dipanjan Das, and Ankur P Parikh. Bleurt: Learning robust metrics for text generation. arXiv preprint arXiv:2004.04696, 2020.[SH10] Dafna Shahaf and Eric Horvitz. Generalized task markets for human and machine computation. In Twenty-Fourth AAAI Conference on Artificial Intelligence, 2010.[SHKK15] Adish Singla, Eric Horvitz, Pushmeet Kohli, and Andreas Krause. Learning to hire teams. In Third AAAI Conference on Human Computation and Crowdsourcing, 2015.[SRR+22] Aarohi Srivastava, Abhinav Rastogi, Abhishek Rao, Abu Awal Md Shoeb, Abubakar Abid, Adam Fisch, Adam R Brown, Adam Santoro, Aditya Gupta, Adri`a Garriga-Alonso, et al. Beyond the imitation game: Quantifying and extrapolating the capabilities of language models. arXiv preprint arXiv:2206.04615, 2022.[SSBD14] Shai Shalev-Shwartz and Shai Ben-David. Understanding machine learning: From theory to algorithms. Cambridge university press, 2014.[VBB19] Luca Venturi, Afonso S Bandeira, and Joan Bruna. Spurious valleys in one-hidden-layer neural network optimization landscapes. Journal of Machine Learning Research, 20:133, 2019.[VSP+17] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in Neural Information Processing Systems, volume 30, 2017.[Wel92] Henry M Wellman. The child’s theory of mind. The MIT Press, 1992.[WHK20] Bryan Wilder, Eric Horvitz, and Ece Kamar. Learning to complement humans. In Proceedings of the AAAI Conference on Artificial Intelligence, 2020.[WTB+22] Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, Ed H. Chi, Tatsunori Hashimoto, Oriol Vinyals, Percy Liang, Jeff Dean, and William Fedus. Emergent abilities of large language models. Transactions on Machine Learning Research, 2022. Survey Certification.[WWS+22] Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Ed Chi, Quoc Le, and Denny Zhou. Chain of thought prompting elicits reasoning in large language models. arXiv preprint arXiv:2201.11903, 2022.[ZBB+22] Yi Zhang, Arturs Backurs, S′ebastien Bubeck, Ronen Eldan, Suriya Gunasekar, and Tal Wagner. Unveiling transformers with lego: a synthetic reasoning task. arXiv preprint arXiv:2206.04301, 2022.?? 原文鏈接 - https://arxiv.org/abs/2303.12712
免責(zé)聲明:本文采摘自“ 真格基金 ”,本文僅代表作者個人觀點,不代表薩科微及行業(yè)觀點,只為轉(zhuǎn)載與分享,支持保護(hù)知識產(chǎn)權(quán),轉(zhuǎn)載請注明原出處及作者,如有侵權(quán)請聯(lián)系我們刪除。