每日精選AI研究論文及翻譯
我們提出了Llemma,這是一個針對數學領域的大型語言模型。我們繼續在Proof-Pile-2上對Code Llama進行預訓練,這是一個包含科學論文、包含數學內容的網絡數據以及數學代碼的混合資料集,最終得到了Llemma。在MATH基準測試中,Llemma表現優於所有已知的開源基礎模型,以及未發布的Minerva模型套件在等參數基礎上。此外,Llemma能夠進行工具使用和形式定理證明,而無需進行進一步的微調。我們公開釋出所有產物,包括70億和340億參數模型、Proof-Pile-2資料集以及複製我們實驗的代碼。
目前大型語言模型(LMs)被訓練以預測在給定文件前綴的情況下的標記,使它們能夠直接進行長篇生成和提示式任務,這些任務可以簡化為文件完成。現有的預訓練流程通過串聯隨機集合的短文件來訓練LMs,以創建輸入上下文,但先前的文件對於預測下一個文件並無信號。相反,我們提出了上下文預訓練(In-Context Pretraining)的新方法,其中語言模型在一系列相關文件上進行預訓練,從而明確鼓勵它們跨越文件邊界進行閱讀和推理。我們可以通過簡單地改變文件排序來進行上下文預訓練,使每個上下文包含相關文件,並直接應用現有的預訓練流程。然而,這個文件排序問題具有挑戰性。有數十億個文件,我們希望排序能夠最大程度地提高每個文件的上下文相似性,同時不重複任何數據。為此,我們引入了用於查找相關文件的近似算法,以及利用圖形遍歷算法構建連貫的輸入上下文。我們的實驗表明,上下文預訓練提供了一種簡單且可擴展的方法,可以顯著提高LMs的性能:我們在需要更複雜上下文推理的任務中觀察到明顯的改善,包括上下文學習(+8%)、閱讀理解(+15%)、對先前上下文的忠實度(+16%)、長篇上下文推理(+5%)和檢索增強(+9%)。
大型語言模型展示了其作為各種與語言相關應用的通用接口的卓越能力。受此啟發,我們致力於建立一個統一的接口,用於完成許多視覺語言任務,包括圖像描述、視覺問答和視覺定位等。挑戰在於使用單一模型有效地執行多樣的視覺語言任務,並使用簡單的多模式指令。為了達到這個目標,我們介紹了MiniGPT-v2,這是一個可視為更好處理各種視覺語言任務的統一接口的模型。我們建議在訓練模型時為不同任務使用獨特的識別符。這些識別符使我們的模型能夠輕鬆更好地區分每個任務指令,同時提高每個任務的模型學習效率。經過三階段的訓練,實驗結果顯示,與其他視覺語言通用模型相比,MiniGPT-v2在許多視覺問答和視覺定位基準測試中取得了強大的表現。我們的模型和代碼可在 https://minigpt-v2.github.io/ 上找到。
一個互動式機器人框架實現了長期規劃任務,並可以在執行過程中輕鬆泛化到新目標或不同任務。然而,大多數傳統方法需要預定義的模塊設計,這使得很難泛化到不同的目標。最近基於大型語言模型的方法可以實現更開放式的規劃,但通常需要大量提示工程或特定領域的預訓練模型。為了應對這一問題,我們提出了一個簡單的框架,可以利用語言模型實現互動式任務規劃。我們的系統通過語言同時整合了高層規劃和低層功能執行。我們驗證了我們系統生成新的高層指令以應對未知目標的魯棒性,以及通過僅替換任務指南而無需額外複雜提示工程來適應不同任務的便利性。此外,當用戶發送新請求時,我們的系統能夠根據新請求、任務指南和先前執行的步驟精確重新規劃。請查看我們的更多詳細信息,請訪問https://wuphilipp.github.io/itp_site和https://youtu.be/TrKLuyv26_g。
儘管大型語言模型在廣泛的應用中表現出效果,但它們常常生成存在問題或缺乏所需屬性的文字。本文介紹了獎勵增強解碼(RAD),這是一種文字生成程序,使用小型單向獎勵模型來鼓勵語言模型生成具有特定屬性的文字。具體而言,RAD使用獎勵模型對生成進行評分,並重新調整抽樣概率以傾向高獎勵的標記。通過使用單向獎勵模型,RAD可以緩存先前生成步驟的激活,以減少計算開銷。通過對生成非有毒和情感受控文字的實驗,我們證明RAD在僅更改生成程序的方法中表現最佳,並與涉及重新訓練語言模型的最先進方法的性能相匹敵。我們進一步驗證RAD在極大型語言模型上具有有效性,同時帶來最小的計算開銷。
我們對於在生成的影片和語言空間中為複雜的長期任務實現視覺規劃感興趣,利用最近在互聯網規模數據上預訓練的大型生成模型的進展。為此,我們提出了影片語言規劃(VLP),一種由樹搜索程序組成的算法,我們在其中訓練(i)視覺語言模型作為策略和價值函數,以及(ii)文本到影片模型作為動態模型。VLP接受長期任務指令和當前影像觀察作為輸入,並輸出提供詳細多模態(影片和語言)規格的長影片計劃,描述如何完成最終任務。VLP隨著計算預算的增加而擴展,更多的計算時間將產生改進的影片計劃,並能夠在不同的機器人領域中合成長期視頻計劃:從多對象重新排列到多攝像機雙臂靈巧操作。生成的影片計劃可以通過目標條件策略轉換為真實機器人動作,條件是在生成的影片的每個中間幀上。實驗表明,與先前方法相比,VLP顯著提高了長期任務成功率,無論是在模擬還是真實機器人上(跨3個硬件平台)。
我們研究自回歸機器學習任務的數據精煉,其中輸入和輸出具有嚴格的從左到右的因果結構。更具體地說,我們提出了Farzi,它將事件序列數據集總結為少量合成序列 -- Farzi數據 -- 這些序列經過優化,以保持(如果不是提高)模型性能,相較於在完整數據集上進行訓練。在實現上,Farzi通過(i)利用Hessian-Vector Products實現Adam優化器的高效反向模式微分;以及(ii)將高維離散事件空間分解為潛在空間,從而證明促進隱式正則化。在實證方面,對於序列推薦和語言建模任務,我們在Farzi數據上訓練最先進的模型時,能夠實現下游完整數據性能的98-120%,即使Farzi數據的大小僅為原始數據集的0.1%。值得注意的是,能夠用更少的數據訓練出更好的模型,為未來大型自回歸模型的設計提供了新的思路,並為進一步擴大模型和數據規模開辟了新的機遇。
窄位元寬度的資料格式對於降低現代深度學習應用的計算和存儲成本至關重要。本文評估了結合每個區塊縮放因子與窄浮點和整數類型的 Microscaling(MX)資料格式,用於個別元素。MX格式平衡了硬體效率、模型準確性和用戶摩擦之間的競爭需求。對超過兩打基準測試的實證結果顯示,MX資料格式作為AI推理和訓練的基準FP32的可替代品,並具有低用戶摩擦。我們還展示了首次在次8位權重、激活和梯度下訓練生成式語言模型的實例,並且在最小準確度損失的情況下,無需對訓練配方進行修改。
儘管大型語言模型(LLMs)在許多自然語言任務中取得成功,但解決數學問題對它們來說仍然是一個重大挑戰。在解決數學問題方面,LLMs在單次通過和N次通過的表現之間存在著很大差距,這表明LLMs可能已經接近找到正確解決方案,這促使我們探索微調方法以提升LLMs的性能。我們使用具有挑戰性的MATH數據集,研究了三種微調策略:(1)解決方案微調,我們微調以生成給定數學問題的詳細解決方案;(2)解決方案集群重新排名,LLM被微調為解決方案驗證者/評估者,以從生成的候選解決方案集群中進行選擇;(3)多任務順序微調,將解決方案生成和評估任務有效地整合在一起,以增強LLM的性能。通過這些方法,我們對一系列PaLM 2模型進行了深入的實證研究,發現:(1)用於微調的逐步解決方案的質量和風格對模型性能有重大影響;(2)當單獨使用解決方案重新排名和多數投票來提高模型性能時,它們都是有效的,但也可以一起使用以獲得更大的性能提升;(3)將解決方案生成和評估任務進行順序分離的多任務微調,可以提供比解決方案微調基準更好的性能。在這些見解的指導下,我們設計了一個微調配方,在使用微調的PaLM 2-L模型上在MATH數據集上實現了約58.8%的準確率,比預先訓練的PaLM 2-L模型的少數投票性能提高了11.2%。
我們研究了大型語言模型(LLMs)的變壓器在涉及抽象符號的關係推理任務上的能力。這些任務在神經科學文獻中長期以來一直被研究,被認為是編程、數學和語言推理等更複雜能力的基本構建模塊。對於(i)回歸任務,我們證明變壓器在訓練時可以泛化,但需要驚人數量的訓練數據。對於具有符號標籤的(ii)下一令牌預測任務,我們展示了一個“反比例定律”:隨著嵌入維度的增加,變壓器無法泛化。對於(i)和(ii)這兩種情況,我們提出了微妙的變壓器修改,通過每個注意力頭添加兩個可訓練參數來減少所需的數據量。
在自動化程式驗證中,合成歸納循環不變量是至關重要的。在這項工作中,我們觀察到大型語言模型(如gpt-3.5或gpt-4)能夠在0-shot設置中為一類程式合成循環不變量,但需要多個樣本才能生成正確的不變量。這可能導致大量呼叫程式驗證器來建立不變量。為了解決這個問題,我們提出了一種對LLM生成結果的{\it 重新排序}方法。我們設計了一個能夠根據問題定義區分正確歸納不變量和錯誤嘗試的排序器。這個排序器被優化為對比排序器。實驗結果表明,這種重新排序機制顯著改善了生成候選不變量的排名,從而顯著減少了對驗證器的呼叫次數。