每日精選AI研究論文及翻譯
我們介紹了SELF-DISCOVER,一個通用框架,用於讓LLMs自我發現任務內在的推理結構,以應對對於典型提示方法具有挑戰性的複雜推理問題。該框架的核心是一個自我發現過程,LLMs在其中選擇多個原子推理模塊,如批判性思維和逐步思維,並將它們組合成一個明確的推理結構,供LLMs在解碼期間遵循。SELF-DISCOVER在具有挑戰性的推理基準上,如BigBench-Hard、基於代理的推理和數學等方面,相對於Chain of Thought(CoT),使GPT-4和PaLM 2的性能顯著提高,最高可達32%。此外,SELF-DISCOVER在不需要進行推理計算的方法,如CoT-Self-Consistency,的表現超過20%,同時需要的推理計算量降低了10-40倍。最後,我們展示了自我發現的推理結構在模型家族中具有普遍適用性:從PaLM 2-L到GPT-4,從GPT-4到Llama2,並與人類推理模式具有共通之處。
預訓練的大型語言模型(LLMs)展現出卓越的通用語言處理能力,但對記憶體和計算資源有著重大需求。作為一項強大的壓縮技術,二值化可以將模型權重極端地減少至僅 1 位元,降低昂貴的計算和記憶體需求。然而,現有的量化技術無法在超低位元寬度下保持LLM的性能。為應對這一挑戰,我們提出了BiLLM,一種為預訓練的LLMs量身定制的開創性 1 位元後訓練量化方案。基於LLMs的權重分佈,BiLLM首先識別並結構性地選擇顯著權重,並通過有效的二值殘差逼近策略最小化壓縮損失。此外,考慮到非顯著權重的鐘形分佈,我們提出了一種最優分割搜索來準確分組和二值化它們。BiLLM首次實現了在各種LLMs家族和評估指標上僅使用 1.08 位元權重即達到高準確度推理(例如在LLaMA2-70B上的 8.41 困惑度),並且在LLMs的SOTA量化方法方面表現優異。此外,BiLLM使得在單個GPU上在 0.5 小時內將擁有 70 億權重的LLMs進行二值化處理,展現了令人滿意的時間效率。
狀態空間模型(SSMs),如Mamba Gu&Dao(2034),已被提議作為語言建模中替代Transformer網絡的選擇,通過整合閘控、卷積和依賴輸入的標記選擇,以減輕多頭注意力的二次成本。儘管SSMs表現出競爭力,但它們的上下文學習(ICL)能力,這是現代語言模型的一個顯著新興特性,使任務執行無需參數優化,與Transformers相比仍未得到充分探索。在本研究中,我們評估了SSMs的ICL性能,重點放在Mamba上,並與Transformer模型在各種任務中進行比較。我們的結果顯示,SSMs在標準回歸ICL任務中表現與Transformers相當,而在稀疏奇偶學習等任務中表現優於它們。然而,在涉及非標準檢索功能的任務中,SSMs表現不佳。為了解決這些限制,我們引入了一種混合模型,\variant,將Mamba與注意力塊結合,超越了單獨模型在獨立困難任務中的表現。我們的研究結果表明,混合架構為增強語言模型中的ICL提供了有前途的途徑。
對比語言-圖像預訓練(CLIP)的擴展至關重要,可增強視覺和多模型的能力。我們介紹了 EVA-CLIP-18B,這是迄今為止最大且最強大的開源 CLIP 模型,擁有 180 億個參數。僅經過 60 億個訓練樣本,EVA-CLIP-18B 在 27 個廣泛認可的圖像分類基準測試中平均達到了卓越的 80.7% 零樣本頂部-1 準確率,遠遠優於其前身 EVA-CLIP(50 億個參數)和其他開源 CLIP 模型。值得注意的是,我們觀察到 EVA-CLIP 模型大小擴展時的一致性性能改善,儘管保持了來自 LAION-20 和 COYO-7 億的 20 億圖像-文本對訓練數據集不變。這個數據集是公開可用的,比其他最先進的 CLIP 模型中使用的內部數據集(例如 DFN-50、WebLI-100)要小得多。EVA-CLIP-18B 展示了 EVA 式弱到強視覺模型擴展的潛力。通過我們公開提供模型權重,我們希望促進未來在視覺和多模基礎模型方面的研究。
圖像轉視頻(I2V)生成旨在利用初始幀(以及文字提示)來創建視頻序列。在I2V生成中一個重大挑戰是在整個視頻中保持視覺一致性:現有方法常常難以保留主題、背景和風格的完整性,同時確保視頻敘事中的流暢和邏輯進展。為了緩解這些問題,我們提出ConsistI2V,一種基於擴散的方法,用於增強I2V生成的視覺一致性。具體而言,我們引入(1)對第一幀的時空注意力,以保持空間和運動一致性,(2)從第一幀的低頻帶進行噪聲初始化,以增強佈局一致性。這兩種方法使ConsistI2V能夠生成高度一致的視頻。我們還將所提出的方法擴展,展示它們在改善自回歸長視頻生成和相機運動控制中的一致性潛力。為驗證我們方法的有效性,我們提出了I2V-Bench,一個用於I2V生成的全面評估基準。我們的自動和人工評估結果顯示ConsistI2V優於現有方法。
規模定律提供了重要見解,可指導大型語言模型(LLMs)的設計。現有研究主要集中在研究預訓練(上游)損失的規模定律。然而,在轉移學習設置中,LLMs通常在無監督數據集上預先訓練,然後在下游任務上進行微調,我們也關心下游表現。在這項工作中,我們研究轉移學習設置中的規模行為,其中LLMs被微調用於機器翻譯任務。具體來說,我們調查了預訓練數據的選擇及其大小如何影響下游表現(翻譯質量),評估標準為兩個指標:下游交叉熵和BLEU分數。我們的實驗表明,微調數據集的大小和預訓練數據與下游數據的分佈對規模行為有顯著影響。在充分對齊的情況下,隨著更多的預訓練數據,下游交叉熵和BLEU分數都會單調提高。在這種情況下,我們展示了可以使用對數定律準確預測下游BLEU分數的可能性。然而,也存在一些情況,中等不對齊導致BLEU分數隨著更多的預訓練而波動或變差,而下游交叉熵則單調改善。通過分析這些觀察結果,我們提供了選擇適當預訓練數據的新實用見解。
我們提出了MusicRL,這是第一個從人類反饋中微調的音樂生成系統。由於音樂性的概念以及標題背後的具體意圖是依賴於用戶的主觀的(例如,“快節奏運動音樂”這樣的標題可以對應到復古吉他獨奏或電子流行節拍),對於文本到音樂模型的評價尤其主觀。這不僅使得這些模型的監督式訓練具有挑戰性,還需要在部署後微調中整合持續的人類反饋。MusicRL是一個預訓練的自回歸MusicLM(Agostinelli等,2023)模型,通過強化學習微調離散音頻標記來最大化序列級別的獎勵。我們設計了與文本一致性和音頻質量相關的獎勵函數,並在選定的評分者的幫助下使用這些函數將MusicLM微調為MusicRL-R。我們將MusicLM部署給用戶,並收集了一個包含30萬對偏好的大型數據集。通過人類反饋的強化學習(RLHF),我們訓練了MusicRL-U,這是第一個在規模上整合人類反饋的文本到音樂模型。人類評估顯示,MusicRL-R和MusicRL-U都優於基準模型。最終,MusicRL-RU結合了這兩種方法,並根據人類評分者的評價結果為最佳模型。消融研究揭示了影響人類偏好的音樂特徵,表明文本一致性和質量只是其中的一部分。這凸顯了音樂欣賞中主觀性的普遍存在,並呼籲在音樂生成模型的微調中進一步加入人類聽眾的參與。
我們介紹了MobileVLM V2,這是在MobileVLM基礎上顯著改進的視覺語言模型系列,證明了對於移動VLM而言,新穎的架構設計、針對移動VLM量身定制的改進訓練方案,以及豐富高質量的數據集編輯可以顯著提升VLM的性能。具體來說,MobileVLM V2 1.7B在標準VLM基準測試中取得了比3B規模的更大VLM表現更好或相當的成績。值得注意的是,我們的3B模型在7B+規模上表現優於眾多VLM。我們的模型將在https://github.com/Meituan-AutoML/MobileVLM 上發布。
近期大型語言模型的進步引發了人們對其非凡和接近超人類能力的興趣,促使研究人員探索評估和優化這些能力的方法,這被稱為超對齊。在這個背景下,我們的論文深入探討了視覺基礎模型的領域,著重於弱到強泛化的概念,即利用較弱模型監督較強模型,旨在提升後者的能力超越前者的極限。我們引入了一種新穎且可自適應調整的弱到強監督損失函數。我們的全面實驗涵蓋各種情境,包括少樣本學習、遷移學習、噪聲標籤學習和常識蒸餾設置。結果令人驚訝:我們的方法不僅超越了由強到強泛化設定設定的性能基準,還超越了使用整個數據集對強模型進行微調的結果。這些有力的證據突顯了弱到強泛化的重要潛力,展示了它顯著提升視覺基礎模型性能的能力。程式碼可在 https://github.com/ggjy/vision_weak_to_strong 找到。
CodeCompose 是一款由大型語言模型(LLMs)驅動的人工智慧輔助程式碼編寫工具,為 Meta 的數以萬計開發人員提供即時建議。本文介紹了我們如何將產品從顯示單行建議擴展至多行建議。這個演進過程需要我們克服一些獨特挑戰,以提升這些建議對開發人員的可用性。 首先,我們討論了多行建議可能會產生「突兀」效應,因為語言模型的建議不斷在開發人員現有程式碼周圍移動,否則將導致生產力和滿意度降低。 其次,生成多行建議需要顯著較長的時間;因此,我們提出了幾項創新投資,以減少用戶感知的延遲。這些模型主機優化將多行建議的延遲加速了2.5倍。 最後,我們對數以萬計的工程師進行實驗,以了解多行建議如何影響用戶體驗,並將其與單行建議進行對比。我們的實驗顯示,(i)多行建議佔已接受總字符的 42%(儘管僅佔顯示建議的 16%)(ii)多行建議將用戶節省的按鍵次數比例從 9% 增加到 17%。多行 CodeCompose 已推廣至 Meta 的所有工程師,不到 1% 的工程師選擇退出多行建議。
在面部動作捕捉和分析方面,主導的解決方案通常基於視覺線索,但這些方法無法保護隱私且容易受遮擋影響。慣性測量單元(IMUs)被視為潛在的解決方案,但主要用於全身動作捕捉。本文提出了IMUSIC來填補這一空白,這是一種使用純IMU信號進行面部表情捕捉的新途徑,與以往的視覺解決方案有顯著差異。我們的IMUSIC設計的關鍵在於三個方面。首先,我們設計微型IMUs以適應面部捕捉,並結合基於解剖學的IMU放置方案。然後,我們提供了一個新穎的IMU-ARKit數據集,為多樣的面部表情和表現提供豐富的配對IMU/視覺信號。這種獨特的多模態為未來方向帶來了巨大潛力,例如基於IMU的面部行為分析。此外,利用IMU-ARKit,我們引入了一種強大的基準方法,可以從純IMU信號準確預測面部混合形狀參數。具體來說,我們為這一新型跟踪任務量身定制了一個Transformer擴散模型,並採用了兩階段訓練策略。IMUSIC框架使我們能夠在視覺方法失敗並同時保護用戶隱私的情況下進行準確的面部捕捉。我們進行了大量關於IMU配置和技術組件的實驗,以驗證我們的IMUSIC方法的有效性。值得注意的是,IMUSIC實現了各種潛在和新穎的應用,例如保護隱私的面部捕捉、對抗遮擋的混合捕捉,或者檢測通常無法通過視覺線索看到的微小面部運動。我們將釋出我們的數據集和實現,以豐富社區中面部捕捉和分析的更多可能性。
我們提出對大型語言模型進行微調,以生成穩定材料。儘管這種做法有些不尋常,但在將大型語言模型微調為基於文本編碼的原子數據時,實施簡單且可靠,約有90%的樣本結構遵守原子位置和電荷的物理約束。通過從學習的機器學習潛力和黃金標準密度泛函理論計算的能量超出凸起計算,我們展示了我們最強的模型(微調的LLaMA-2 70B)可以生成材料,預測為亞穩定的概率約為CDVAE(一種競爭擴散模型)的兩倍(49% vs 28%)。由於文本提示的固有靈活性,我們的模型可以同時用於無條件生成穩定材料、填充部分結構以及文本條件生成。最後,我們展示了語言模型捕捉晶體結構的關鍵對稱性能力隨著模型規模的增加而提高,這表明預訓練的大型語言模型的偏見出奇地適合原子數據。
視覺語言模型(VLMs)通過對視覺指示與答案進行廣泛訓練,展示了其廣泛的可行性。然而,這種明確的對齊導致模型忽略了關鍵的視覺推理,進而導致在細緻的視覺問題上失敗和不忠實的回答。在本文中,我們提出了一種稱為Manipulations Chain的機制,該機制使VLMs能夠通過一系列操作來解決問題,其中每個操作都是指對視覺輸入進行的操作,可以是通過先前訓練獲得的內在能力(例如基礎)或是模仿人類行為(例如放大)。這種機制鼓勵VLMs生成具有證據性視覺推理的忠實回答,並允許用戶在可解釋的路徑中追踪錯誤原因。因此,我們訓練了CogCoM,一個具有基於記憶的兼容架構的通用17B VLM,並賦予了這種推理機制。實驗表明,我們的模型在來自3個類別的8個基準測試中實現了最先進的性能,並且在有限的訓練步驟中,迅速獲得了具有競爭力的性能。代碼和數據可在https://github.com/THUDM/CogCoM 公開獲取。
我們介紹 EscherNet,一種用於視圖合成的多視角條件擴散模型。EscherNet 學習隱式且生成的 3D 表示,結合專用的相機位置編碼,允許在任意數量的參考視圖和目標視圖之間精確且連續地控制相機變換。EscherNet 在視圖合成中提供了卓越的通用性、靈活性和可擴展性 — 即使是在使用固定數量的 3 個參考視圖到 3 個目標視圖進行訓練的情況下,它也能在單個消費級 GPU 上同時生成超過 100 個一致的目標視圖。因此,EscherNet 不僅解決了零樣本新視圖合成的問題,還自然地將單張和多張圖像的 3D 重建統一起來,將這些不同的任務結合成一個統一的框架。我們的廣泛實驗表明,EscherNet 在多個基準測試中實現了最先進的性能,即使與專門針對每個個別問題定制的方法進行比較也是如此。這種卓越的多功能性為設計可擴展的 3D 視覺神經架構開辟了新的方向。項目頁面:https://kxhit.github.io/EscherNet。
我們介紹了擴散世界模型(DWM),一種條件擴散模型,能夠同時預測多步未來狀態和獎勵。與傳統的一步動態模型相比,DWM在單次前向傳遞中提供了長時間預測,消除了對遞歸查詢的需求。我們將DWM整合到基於模型的價值估算中,其中短期回報是通過從DWM中採樣的未來軌跡來模擬的。在離線強化學習的背景下,DWM可以被視為通過生成建模實現保守價值正則化。或者,它可以被看作是一個數據來源,使得離線Q學習能夠使用合成數據。我們在D4RL數據集上的實驗證實了DWM對長時間模擬的穩健性。就絕對性能而言,DWM明顯優於一步動態模型,性能提升了44%,並實現了最先進的性能水平。