每日精選AI研究論文及翻譯
本文探討了移動設備上高效大型語言模型(LLMs)的日益增長需求,這是由於雲成本和延遲問題不斷增加。我們專注於設計具有不到十億參數的高質量LLMs,這是移動部署的實際選擇。與主流觀點相反,主張數據和參數數量在確定模型質量方面的關鍵作用,我們的研究強調了對於次十億規模LLMs,模型架構的重要性。通過利用深度和窄度結構,結合嵌入共享和分組查詢注意機制,我們建立了一個強大的基準網絡,稱為MobileLLM,比前125M/350M最先進模型實現了顯著的2.7%/4.3%的準確度提升。此外,我們提出了一種立即的塊狀權重共享方法,不增加模型大小,僅有輕微的延遲開銷。結果模型,稱為MobileLLM-LS,展示了比MobileLLM 125M/350M進一步的0.7%/0.8%的準確度提升。此外,MobileLLM模型系列在聊天基準測試中相比以前的次十億模型有顯著改進,並在API調用任務中展示了與LLaMA-v2 7B接近的正確性,突出了小型模型在常見設備使用情況下的能力。
我們介紹了 Genie,這是第一個從未標記的互聯網視頻中以非監督方式訓練的生成式互動環境。該模型可以根據文本、合成圖像、照片,甚至草圖的描述,生成各種可通過動作控制的虛擬世界。擁有 110 億參數的 Genie 可被視為基礎世界模型。它由時空視頻分詞器、自回歸動力學模型以及一個簡單且可擴展的潛在動作模型組成。Genie 讓用戶能夠在生成的環境中進行逐幀操作,盡管訓練過程中沒有任何地面真實動作標籤或其他通常在世界模型文獻中找到的領域特定要求。此外,所得到的學習潛在動作空間有助於訓練代理人模仿來自未見視頻的行為,為未來訓練通用型代理人開辟了道路。
本文探討了由LLM生成的文本的放射性,即是否可能檢測到此類輸入被用作訓練數據。像成員推斷這樣的傳統方法可以以某種準確度進行此檢測。我們表明,帶有水印的訓練數據留下的痕跡更容易檢測,比成員推斷更可靠。我們將污染水平與水印的穩健性、其在訓練集中的比例和微調過程相關聯。值得注意的是,我們顯示,即使僅有5%的訓練文本帶有水印,也可以高度自信地檢測到在帶有水印的合成指令上進行的訓練(p值<1e-5)。因此,LLM水印技術,最初設計用於檢測機器生成文本,使我們能夠輕鬆識別出是否將帶有水印的LLM的輸出用於微調另一個LLM。
最近的研究方法表明,當大型語言模型(LLMs)被鼓勵先解決主任務的子任務時,它們可以更好地解決推理任務。在本文中,我們設計了一種類似的策略,將推理任務分解為問題分解階段和問題解決階段,並展示這種策略能夠優於單階段解決方案。此外,我們假設相較於需要大量領域知識的問題解決階段,問題分解應該更容易被提煉為較小的模型,因為前者只需要學習一般性的問題解決策略。我們提出了提煉這兩種能力的方法,並評估它們對推理結果和推論成本的影響。我們發現我們可以提煉問題分解階段,同時實現跨任務、數據集和模型的良好泛化。然而,要提煉問題解決能力卻更難而且結果提煉後的模型在泛化方面表現困難。這些結果表明,通過在問題解決LLMs中結合較小、經過提煉的問題分解模型,我們可以實現具有成本效益的推理和局部適應。
在這項工作中,我們展示了神經網絡量化的大小與準確性之間的折衷可以通過增加量化維度來顯著改善。我們提出了GPTVQ方法,這是一種新的快速後訓練向量量化(VQ)方法,適用於大型語言模型(LLMs)。我們的方法交錯量化一個或多個列與更新其餘未量化權重,利用每層輸出重建均方誤差的Hessian信息。量化碼本使用高效的數據感知版本的EM算法進行初始化。然後通過整數量化和基於SVD的壓縮進一步更新和壓縮碼本。GPTVQ在Llama-v2和Mistral等各種LLMs上建立了新的大小與準確性折衷的最新技術水平。此外,我們的方法高效:在單個H100上,處理Llamav2-70B模型需要3至11小時不等,具體取決於量化設置。最後,通過在移動CPU上進行VQ解壓縮的設備內計時,我們展示了VQ相對於使用4位整數格式可以改善延遲。
自我關注是大型語言模型(LLMs)的重要組成部分,但對於長序列來說,也是推理延遲的一個重要來源。在多租戶LLMs服務場景中,通過使用多個LLM請求在前綴中共享系統提示的概率,可以優化自我關注的計算和記憶體操作成本。本文介紹了ChunkAttention,一個具有前綴感知的自我關注模塊,可以在運行時檢測多個請求中匹配的提示前綴並共享它們的鍵/值張量以改善KV快取的記憶體利用率。這是通過將整體鍵/值張量分解為較小的塊並將它們結構化為輔助前綴樹來實現的。因此,在基於前綴樹的KV快取之上,我們設計了一個高效的自我關注核心,其中實現了一個兩階段分割算法,以改善在存在共享系統提示時的自我關注計算中的數據局部性。實驗表明,與最先進的實現相比,當系統提示的長度範圍從1024到4096時,ChunkAttention可以將自我關注核心的速度提高3.2-4.8倍。
本文探討延長輸入長度對大型語言模型(LLMs)能力的影響。儘管LLMs在近年取得了進展,但它們在不同輸入長度下的性能一致性尚未得到很好的理解。我們通過引入一個新穎的QA推理框架來研究這一方面,該框架專門設計用於評估輸入長度的影響。我們通過使用同一樣本的多個版本,每個版本都使用不同長度、類型和位置的填充來隔離輸入長度的影響。我們的研究結果顯示,LLMs在較短的輸入長度下的推理性能明顯下降,遠低於其技術最大值。我們展示了這種下降趨勢在我們數據集的每個版本中都出現,儘管強度不同。此外,我們的研究揭示傳統的困惑度指標與LLMs在長輸入推理任務中的性能之間沒有相關性。我們分析了結果並確定了可能作為未來研究有用指南的失敗模式,潛在地提供了解決LLMs觀察到的限制的策略。
由大型語言模型(LLMs)驅動的自主代理引起了相當多的研究關注。然而,要充分發揮LLMs在基於代理的任務中的潛力,面臨著困難,原因在於多樣數據來源的異質性,其中包括多輪軌跡。在本文中,我們介紹AgentOhana作為應對這些挑戰的全面解決方案。AgentOhana匯總了來自不同環境的代理軌跡,涵蓋各種情境。它精心將這些軌跡標準化並統一成一致的格式,從而簡化了用於代理訓練的通用數據加載器的創建。通過數據統一,我們的訓練流程在不同數據來源之間保持平衡,在數據集劃分和模型訓練期間保持設備之間的獨立隨機性。此外,我們提出了xLAM-v0.1,一個針對AI代理量身定制的大型動作模型,展示了在各種基準測試中的優異表現。
條件式人體動作生成是一個重要的主題,在虛擬現實、遊戲和機器人領域有許多應用。雖然先前的研究集中於根據文本、音樂或場景生成動作,但通常結果是短暫的孤立動作。相反地,我們致力於生成由一系列不同的文本描述引導的長時間連續序列。在這個背景下,我們介紹了FlowMDM,這是第一個基於擴散的模型,可以生成無縫的人體運動組合(HMC),而無需任何後處理或多餘的去噪步驟。為此,我們引入了混合位置編碼,這是一種利用絕對和相對位置編碼的技術,用於去噪鏈中。更具體地說,全局運動一致性在絕對階段恢復,而平滑且逼真的過渡在相對階段建立。因此,我們在 Babel 和 HumanML3D 數據集上在準確性、逼真度和平滑度方面取得了最先進的結果。FlowMDM 在訓練時每個運動序列僅使用單一描述時表現出色,這要歸功於其姿勢中心交叉注意力,使其在推理時對不同的文本描述具有強大的魯棒性。最後,為了解決現有 HMC 指標的限制,我們提出了兩個新的指標:峰值加速度變化率和峰值加速度變化率下的面積,用於檢測突然的過渡。
在有效地使用工具和外部應用程式介面(API)來規劃和完成任務的過程中,對於大型語言模型(LLMs)的需求正在增加。因此,對於能夠獲取涉及工具/API 調用的足夠量的訓練和測試數據的方法引起了極大興趣。出現了兩條主要研究路線來應對這一挑戰。第一條路線專注於合成數據生成技術,而第二條則涉及策劃與任務相關的數據集,這些數據集可以轉換為基於 API / 工具的任務。在本文中,我們專注於識別、策劃和轉換現有數據集的任務,並引入 API-BLEND,這是一個用於訓練和系統性測試工具增強型 LLMs 的大型語料庫。這些數據集模擬了涉及 API 任務的現實情境,例如 API / 工具檢測、槽填充以及檢測到的 API 的排序。我們展示了 API-BLEND 數據集在訓練和基準測試方面的實用性。