每日精選AI研究論文及翻譯
我們提出了 QLoRA,一種高效的微調方法,可以降低內存使用量,足以在單個 48GB GPU 上微調一個 65B 參數模型,同時保持完整的 16 位微調任務性能。QLoRA 通過凍結的 4 位量化預訓練語言模型向低秩適配器(LoRA)反向傳播梯度。我們命名為 Guanaco 的最佳模型系列在 Vicuna 基準測試中表現優異,超越了先前公開發布的所有模型,達到 ChatGPT 性能水平的 99.3%,僅需要在單個 GPU 上進行 24 小時的微調。QLoRA 引入了一些創新來節省內存而不影響性能:(a) 4 位 NormalFloat(NF4),這是一種對於正態分佈權重而言在信息理論上最優的新數據類型;(b) 雙重量化以減少平均內存佔用量,通過量化量化常數;以及 (c) 分頁優化器以管理內存峰值。我們使用 QLoRA 來微調 1,000 多個模型,對 8 個指令數據集、多個模型類型(LLaMA、T5)和以往無法使用常規微調運行的模型規模(例如 33B 和 65B 參數模型)進行了詳細的指令跟隨和聊天機器人性能分析。我們的結果表明,QLoRA 在一個小型高質量數據集上進行微調可以達到最先進的結果,即使使用比以前的最先進模型更小的模型。我們提供了基於人類和 GPT-4 評估的聊天機器人性能詳細分析,顯示 GPT-4 評估是一種廉價且合理的人類評估替代方案。此外,我們發現目前的聊天機器人基準測試無法準確評估聊天機器人的性能水平。通過一個精心挑選的分析,展示了 Guanaco 與 ChatGPT 相比的失敗之處。我們公開了所有模型和代碼,包括用於 4 位訓練的 CUDA 內核。
在指導數據上進行微調已被廣泛證實為實現像ChatGPT這樣的聊天語言模型的有效實踐。儘管這一點很直接,但擴大這些數據的多樣性和質量極有可能帶來性能的提升。本文旨在進一步提高開源模型的上限。我們首先提供了一個經過系統設計、多樣、信息豐富、大規模的指導對話數據集UltraChat,其中不涉及人類查詢。我們的目標是捕捉人類可能與AI助手互動的廣度,並採用全面的框架來迭代生成多輪對話。UltraChat 包含150萬個高質量的多輪對話,涵蓋了各種主題和指導。我們對UltraChat 的統計分析顯示其在各種關鍵指標上的優越性,包括規模、平均長度、多樣性、連貫性等,鞏固了其作為領先的開源數據集的地位。基於UltraChat,我們對LLaMA模型進行微調,創建了一個強大的對話模型UltraLLaMA。我們的評估表明,UltraLLaMA 在一致性地優於其他開源模型,包括之前公認的最先進的開源模型Vicuna。數據集和模型將被公開發布\url{https://github.com/thunlp/UltraChat}。
我們介紹了Goat,一個經過精細調整的LLaMA模型,在各種算術任務上明顯優於GPT-4。通過對一個合成生成的數據集進行精細調整,Goat在BIG-bench算術子任務上實現了最先進的性能。特別是,零編碼的Goat-7B與少編碼的PaLM-540B實現的準確性相匹敵甚至超越。令人驚訝的是,Goat僅通過監督式精細調整就能在大數字加法和減法上實現接近完美的準確性,這幾乎是不可能的,而以前的預訓練語言模型,如Bloom、OPT、GPT-NeoX等,無法實現。我們將Goat卓越的性能歸因於LLaMA對數字的一致標記化。為了應對更具挑戰性的任務,如大數字乘法和除法,我們提出了一種基於可學習性對任務進行分類的方法,並隨後通過利用基本算術原則,將無法學習的任務,如多位數乘法和除法,分解為一系列可學習的任務。我們對我們模型的性能進行了全面檢驗,提供了對我們提出的分解步驟有效性的全面評估。此外,Goat-7B可以在具有24GB VRAM GPU的LoRA上輕鬆訓練,有助於其他研究人員的可重現性。我們釋出了我們的模型、數據集以及用於數據集生成的Python腳本。
在實際應用中使用語言模型的一個主要風險是它們容易產生不正確的陳述。幻覺通常被歸因於語言模型中的知識缺口,但我們假設在某些情況下,當語言模型為先前生成的幻覺提供理由時,它們會輸出虛假聲明,而這些聲明它們可以單獨辨認為不正確。我們建立了三個問答數據集,在這些數據集中,ChatGPT 和 GPT-4 經常給出不正確答案,並提供至少一個不正確聲明的解釋。重要的是,我們發現 ChatGPT 和 GPT-4 分別能夠識別出自己的錯誤的百分比分別為 67% 和 87%。我們將這一現象稱為幻覺雪球效應:語言模型對早期錯誤過度承諾,導致它做出更多本來不會犯的錯誤。
語音語言模型(SpeechLMs)僅處理和生成聲學數據,而無需文本監督。在這項工作中,我們提出了TWIST,一種使用從預訓練文本語言模型熱啟動的方法來訓練SpeechLMs。我們通過自動和人工評估顯示,TWIST在各方面均優於從頭開始的SpeechLM。我們從實證分析了不同模型設計選擇的影響,如語音分詞器、預訓練文本模型和數據集大小。我們發現模型和數據集規模都在構建性能更好的SpeechLMs中起著重要作用。根據我們的觀察,我們提出了迄今為止最大的SpeechLM,無論是參數數量還是訓練數據。此外,我們還引入了兩個StoryCloze文本基準的口語版本,以進一步改進模型評估並推動未來該領域的研究。有關語音樣本可在我們的網站上找到:https://pages.cs.huji.ac.il/adiyoss-lab/twist/。
Transformer 模型的固定大小上下文使得 GPT 模型無法生成任意長度的文本。本文介紹了 RecurrentGPT,這是一種基於語言的模擬 RNN 中循環機制的方法。RecurrentGPT 基於大型語言模型(LLM),如 ChatGPT,並使用自然語言來模擬 LSTM 中的長短期記憶機制。在每個時間步,RecurrentGPT 生成一段文本並更新其存儲在硬盤和提示中的基於語言的長短期記憶。這種循環機制使得 RecurrentGPT 能夠生成任意長度的文本而不會遺忘。由於人類用戶可以輕鬆觀察和編輯自然語言記憶,RecurrentGPT 具有可解釋性,並且能夠實現互動生成長文本。RecurrentGPT 是邁向超越本地編輯建議的下一代計算機輔助寫作系統的初始步驟。除了生成 AI 生成內容(AIGC),我們還展示了使用 RecurrentGPT 作為與消費者直接互動的互動式小說的可能性。我們將這種生成模型的用法稱為“AI 作為內容”(AIAC),我們認為這是傳統 AIGC 的下一形式。我們進一步展示了使用 RecurrentGPT 創建個性化互動式小說的可能性,這些小說直接與讀者互動而不是與作者互動。總的來說,RecurrentGPT 展示了從認知科學和深度學習中流行的模型設計中借用想法以提示 LLM 的效用。我們的代碼可在 https://github.com/aiwaves-cn/RecurrentGPT 找到,並且在 https://www.aiwaves.org/recurrentgpt 上提供了在線演示。
大型語言模型(LLMs)的崛起已經解鎖了這項技術在軟體開發中的各種應用。特別是,生成式LLMs已被證明可以有效地驅動基於人工智慧的程式碼編寫工具,這些工具在編寫程式碼時可以建議整個陳述或程式碼區塊。在本文中,我們介紹了CodeCompose,這是一個在Meta內部開發和部署的人工智慧輔助程式碼編寫工具。CodeCompose基於InCoder LLM,將生成能力與雙向性結合在一起。我們已經擴展了CodeCompose,以服務Meta的數以萬計的開發人員,涵蓋10多種程式語言和多個編碼界面。 我們討論了在大規模工業環境中部署此類工具時出現的用戶體驗和指標方面的獨特挑戰。我們分享了在為CodeCompose做出模型和系統架構設計決策時應對這些挑戰的經驗。最後,我們呈現了從CodeCompose的大規模部署中獲得的指標,顯示其在Meta內部程式碼編寫體驗中在15天的時間窗口內產生的450萬個建議的影響。定量指標顯示(i)CodeCompose在多種語言中的接受率為22%,以及(ii)CodeCompose使用者輸入的程式碼中有8%是通過接受CodeCompose的程式碼建議而輸入的。定性反饋表明,對於CodeCompose,有壓倒性的91.5%正面接受度。除了協助編寫程式碼外,CodeCompose還帶來其他積極的副作用,例如鼓勵開發人員生成更多內部文件、幫助他們發現新的API等。
我們提出了一個新穎的多模態視頻基準測試 - 「感知測試」,用於評估預先訓練的多模態模型(例如Flamingo、BEiT-3或GPT-4)的感知和推理能力。與現有專注於計算任務(例如分類、檢測或跟踪)的基準測試相比,「感知測試」著重於技能(記憶、抽象、物理、語義)和推理類型(描述性、解釋性、預測性、反事實性),跨越視頻、音頻和文本模態,提供了一個全面且高效的評估工具。該基準測試通過零樣本/少樣本或有限微調的方式,探測預先訓練模型的轉移能力。為此,「感知測試」引入了11.6k個現實世界視頻,平均長度為23秒,旨在展示感知上有趣的情況,由全球約100名參與者拍攝。這些視頻密集標註了六種標籤(多選和基於視頻的問答、對象和點軌跡、時間動作和聲音片段),實現了語言和非語言評估。該基準測試的微調和驗證切分已公開提供(CC-BY許可證),另外還提供了一個具有隱藏測試切分的挑戰伺服器。與最先進的視頻問答模型相比,人類基準結果表明在性能上存在顯著差距(91.4% vs 43.6%),這表明在多模態視頻理解方面有很大的改進空間。 數據集、基準代碼和挑戰伺服器可在以下網址找到:https://github.com/deepmind/perception_test
將大型語言模型(LLMs)與人類價值觀調整對齊已變得日益重要,因為這使得對LLMs進行精細的引導成為可能,例如,讓它們遵循給定的指示,同時保持其毒性較低。然而,這需要大量的人類示範和反饋。最近,開源模型已嘗試通過提煉來自已對齊的LLMs(如InstructGPT或ChatGPT)的數據來複製對齊學習過程。儘管這一過程減少了人類的努力,但構建這些數據集對教師模型有很大的依賴性。在這項工作中,我們提出了一個新穎的框架,用於幾乎不需要人力和不依賴預先對齊的LLMs進行對齊學習。首先,我們通過對比具有不同大小和提示的原始LLMs的回應,使用合成反饋進行獎勵建模(RM)。然後,我們使用RM來模擬高質量的示範,以訓練監督策略,並進一步使用強化學習來優化模型。我們的結果模型,名為具有合成訓練數據集(ALMoST)的對齊語言模型,優於Alpaca、Dolly和OpenAssistant等開源模型,這些模型是基於InstructGPT或人類註釋指示的輸出進行訓練的。我們的7B規模模型在使用GPT-4作為評判者進行A/B測試時,勝率平均約為75%,優於12-13B模型。
人類通過想像和實踐自己的目標來掌握開放式技能庫。這種自我目標(auto)追求(telos)的學習過程,隨著目標變得更加多樣化、抽象和創造性,變得越來越開放式。由此產生的探索可能技能空間得到跨個體的探索支持:目標表徵是在個體之間文化演化和傳播的,尤其是使用語言。當前的人工智能代理主要依賴預定義的目標表徵,對應於有界(例如指令列表)或無界(例如可能的視覺輸入空間)的目標空間,但很少具有重新塑造目標表徵、形成新抽象或想像創造性目標的能力。在本文中,我們介紹了一種語言模型增強的自我目標代理(LMA3),該代理利用預訓練的語言模型(LM)來支持多樣化、抽象、與人類相關目標的表徵、生成和學習。LM被用作人類文化傳播的一個不完美模型;試圖捕捉人類常識、直覺物理和整體興趣的一些方面。具體而言,它支持自我目標架構的三個關鍵組件:1)描述代理軌跡中實現的目標的重新標記器,2)提出新的高級目標以及它們分解為代理已掌握的子目標的目標生成器,以及3)這些目標的獎勵函數。在不依賴任何手工編碼的目標表徵、獎勵函數或課程的情況下,我們展示了LMA3代理在一個與任務無關的基於文本的環境中學會掌握各種技能。
本文對大型語言模型(LLMs)的推理能力進行了深入研究,特別聚焦於Open Pretrained Transformers(OPT)模型作為此類模型的代表。我們的研究包括在精心策劃的推理語料庫上對三種不同大小的OPT進行微調,從而產生兩組微調模型:OPT-R,沒有解釋的微調,以及OPT-RE,帶有解釋的微調。然後,我們對所有模型在來自SUPER-NATURALINSTRUCTIONS基準測試集的57個跨領域任務上進行評估,涵蓋26種不同的推理技能,並利用三種提示技術。通過27種配置和6156次測試評估的全面矩陣,我們研究微調、提示和規模的維度,以了解解釋在不同推理技能上的作用。我們的研究結果顯示,在模型進行微調時,在fewshot範例中加入解釋對模型的性能沒有顯著影響,但對未經微調的對應模型有積極影響。此外,我們觀察到在提示和微調過程中逐漸加入解釋時,分類準確性略微但一致地提高。最後,我們提供了有關哪些技能在微調和提示過程中最能從加入解釋中受益的見解,例如數值(+20.4%)和類比(+13.9%)推理,以及表現微不足道或負面影響的技能。
資料稀缺對高度多語言自然語言處理系統的發展至關重要。然而,對於許多代表性不足的語言(ULs)——即自然語言處理研究在滿足用戶需求方面特別落後的語言,標註少量資料是可行的。受此啟發,我們提出了XTREME-UP,這是一個基準測試,其特點在於專注於稀缺資料情境而非零-shot;專注於用戶中心任務——這些任務被高資源語言的使用者廣泛採用;以及專注於代表性不足語言,其中稀缺資料情境往往最為現實。XTREME-UP評估了語言模型在88種代表性不足語言上的能力,涵蓋9項關鍵的用戶中心技術,包括語音識別(ASR)、光學字符識別(OCR)、機器翻譯(MT)和信息訪問任務,這些任務具有廣泛的實用性。我們為OCR、自動完成、語義解析和音譯創建了新的數據集,並在其他任務上建立和完善現有數據集。XTREME-UP提供了評估多種建模情境的方法,包括僅文本、多模式(視覺、音訊和文本)、監督參數調整和上下文學習。我們在該基準測試上評估了常用模型。我們釋出了所有代碼和腳本,以訓練和評估模型。