每日精選AI研究論文及翻譯
本文提出了擴散強制(Diffusion Forcing),一種新的訓練範式,其中訓練一個擴散模型以去噪一組具有獨立每令牌噪聲水平的令牌。我們將擴散強制應用於序列生成建模,通過訓練一個因果下一令牌預測模型來生成一個或多個未來令牌,而無需完全擴散過去的令牌。我們的方法被證明結合了下一令牌預測模型的優勢,如可變長度生成,以及完整序列擴散模型的優勢,如引導採樣到理想軌跡的能力。我們的方法提供了一系列額外功能,例如(1)連續令牌序列的展開,例如視頻,其長度超出訓練視野,基準線發散,以及(2)新的採樣和引導方案,獨特地從擴散強制的可變視野和因果架構中獲益,並在決策和規劃任務中帶來明顯的性能提升。除了實證成功外,我們的方法被證明優化了對真實聯合分佈中抽取的所有子令牌的可能性的變分下限。項目網站:https://boyuan.space/diffusion-forcing/
參數高效微調(PEFT)對於在資源受限情況下定製大型語言模型(LLMs)至關重要。儘管已經有各種針對密集結構LLMs的PEFT方法,但對於稀疏結構LLMs的PEFT仍未得到充分探索。在這項研究中,我們研究了Mixture-of-Experts(MoE)結構LLMs的PEFT方法,本研究的內容主要有三個方面:(1)我們調查了在定製任務中激活專家的分散程度,發現特定任務的路由分佈往往高度集中,而激活專家的分佈在不同任務之間變化顯著。(2)我們提出了專家專用微調,或稱ESFT,該方法調整與下游任務最相關的專家,同時凍結其他專家和模塊;實驗結果表明,我們的方法不僅提高了調整效率,還與完整參數微調的性能相匹敵甚至超越。(3)我們進一步分析了MoE結構對專家專用微調的影響。我們發現,具有更細粒度專家的MoE模型在選擇與下游任務最相關的專家組合方面更具優勢,從而提高了訓練效率和效果。
許多最近的研究探討了使用語言模型來解決規劃問題。其中一個研究方向專注於將規劃任務的自然語言描述轉換為結構化的規劃語言,例如規劃領域定義語言(PDDL)。儘管這種方法很有潛力,但準確衡量生成的 PDDL 代碼質量仍然存在重大挑戰。首先,生成的 PDDL 代碼通常是通過檢查問題是否可以用規劃器解決的規劃驗證器來評估的。這種方法是不夠的,因為語言模型可能生成有效的 PDDL 代碼,但與任務的自然語言描述不一致。其次,現有的評估集通常具有與真實 PDDL 非常相似的規劃任務的自然語言描述,降低了任務的挑戰性。為了彌合這一差距,我們引入了 \benchmarkName,這是一個旨在評估語言模型從規劃任務的自然語言描述中生成 PDDL 代碼的基準。我們首先創建了一個 PDDL 等價算法,通過靈活地將生成的 PDDL 代碼與真實 PDDL 進行比較,嚴格評估語言模型生成的正確性。然後,我們提供了一個包含 13 種不同任務、具有不同難度水平的 132,037 組文本到 PDDL 對的數據集。最後,我們評估了幾種 API 訪問和開放權重的語言模型,揭示了這個任務的複雜性。例如,由 GPT-4o 生成的 PDDL 問題描述中,有 87.6% 在語法上可解析,82.2% 是有效的、可解決的問題,但只有 35.1% 在語義上是正確的,突顯了對這個問題需要更嚴格的基準。