每日精選AI研究論文及翻譯
網頁導航是一個獨特的領域,它能夠自動化許多重複性的現實任務,並且具有挑戰性,因為它需要超越典型多模態大型語言模型(MLLM)任務的長時序序列決策。然而,至今仍缺乏可在訓練和測試期間使用的專門獎勵模型來指導網頁導航。儘管速度和成本效益至關重要,先前的研究卻將MLLMs用作獎勵模型,這對實際部署造成了顯著限制。為解決這一問題,本研究提出了首個過程獎勵模型(PRM),名為Web-Shepherd,它能夠在步驟層面評估網頁導航軌跡。為實現這一目標,我們首先構建了WebPRM Collection,這是一個包含40K步驟級偏好對和跨多個領域及難度級別的註釋清單的大規模數據集。接著,我們還引入了WebRewardBench,這是首個用於評估PRMs的元評估基準。在實驗中,我們觀察到,與使用GPT-4o相比,我們的Web-Shepherd在WebRewardBench上的準確率提高了約30分。此外,在WebArena-lite上測試時,以GPT-4o-mini作為策略並以Web-Shepherd作為驗證器,我們實現了比使用GPT-4o-mini作為驗證器時高出10.9分的性能,且成本降低了10倍。我們的模型、數據集和代碼已在LINK公開提供。
我们介绍了MMaDA,一种新型的多模态扩散基础模型,旨在跨文本推理、多模态理解及文本到图像生成等多个领域实现卓越性能。该方法的三大创新点在于:(i)MMaDA采用统一的扩散架构,具备共享的概率公式与模态无关的设计,摒弃了特定模态组件的需求,确保了不同数据类型间的无缝整合与处理。(ii)我们实施了混合长链思维(CoT)微调策略,统一了跨模态的CoT格式。通过对齐文本与视觉领域的推理过程,此策略为最终强化学习(RL)阶段的冷启动训练提供了便利,从而增强了模型从一开始处理复杂任务的能力。(iii)我们提出了UniGRPO,一种专为扩散基础模型设计的统一基于策略梯度的RL算法。利用多样化的奖励建模,UniGRPO统一了推理与生成任务的后训练,确保了性能的持续提升。实验结果显示,MMaDA-8B作为统一的多模态基础模型展现了强大的泛化能力,在文本推理上超越了LLaMA-3-7B和Qwen2-7B,在多模态理解上优于Show-o和SEED-X,在文本到图像生成上超越了SDXL和Janus。这些成就凸显了MMaDA在统一扩散架构内弥合预训练与后训练差距的有效性,为未来的研究与开发提供了全面的框架。我们已在https://github.com/Gen-Verse/MMaDA开源了代码及训练模型。
大型語言模型(LLMs)需要大量的計算和記憶體資源,這給部署帶來了挑戰。量化感知訓練(QAT)通過降低模型精度同時保持性能來應對這些挑戰。然而,QAT的擴展行為,特別是在4位精度(W4A4)下的表現,尚未得到充分理解。現有的QAT擴展定律往往忽略了訓練數據量和量化粒度等關鍵因素,這限制了其適用性。本文提出了一個統一的QAT擴展定律,將量化誤差建模為模型大小、訓練數據量和量化組大小的函數。通過268次QAT實驗,我們發現量化誤差隨著模型大小的增加而減少,但隨著訓練數據量的增加和量化粒度的變粗而上升。為了識別W4A4量化誤差的來源,我們將其分解為權重量化和激活量化兩個部分。這兩部分都遵循W4A4量化誤差的總體趨勢,但具有不同的敏感性。具體而言,權重量化誤差隨著訓練數據量的增加而更快地上升。進一步分析表明,由異常值引起的FC2層中的激活量化誤差是W4A4 QAT量化誤差的主要瓶頸。通過應用混合精度量化來解決這一瓶頸,我們證明權重量化和激活量化誤差可以收斂到相似的水平。此外,隨著訓練數據的增加,權重量化誤差最終會超過激活量化誤差,這表明在這種情況下減少權重量化誤差也很重要。這些發現為改進QAT的研究和開發提供了關鍵見解。
基於大型語言模型(LLM)的嵌入模型,得益於大規模的預訓練和後續訓練,已開始在文件檢索等通用文本嵌入任務上超越基於BERT和T5的模型。然而,LLM嵌入的一個根本限制在於自回歸預訓練期間使用的單向注意力機制,這與文本嵌入任務的雙向性質不符。為此,我們提出採用擴散語言模型進行文本嵌入,這受到其固有的雙向架構及近期在推理任務上匹配或超越LLM的成功所啟發。我們首次系統性地研究了擴散語言嵌入模型,其在長文件檢索上比基於LLM的嵌入模型提升了20%,在推理密集型檢索上提升了8%,在指令遵循檢索上提升了2%,並在傳統文本嵌入基準測試中取得了競爭力的表現。我們的分析證實,雙向注意力對於編碼長且複雜文本中的全局上下文至關重要。
傳統的視覺定位方法主要集中於單一圖像場景下的簡單文本參照。然而,將這些方法擴展至涉及隱含且複雜指令的現實世界場景,尤其是與多幅圖像結合時,面臨著重大挑戰,這主要是由於在多模態情境下缺乏高級的推理能力。在本研究中,我們致力於解決更為實用的通用定位任務,並提出了UniVG-R1,這是一個基於推理指導的多模態大語言模型(MLLM),用於通用視覺定位,它通過強化學習(RL)結合冷啟動數據來增強推理能力。具體而言,我們首先構建了一個高質量的思維鏈(CoT)定位數據集,該數據集附有詳細的推理鏈註釋,以通過監督微調引導模型走向正確的推理路徑。隨後,我們實施基於規則的強化學習,以鼓勵模型識別正確的推理鏈,從而激勵其推理能力。此外,我們發現隨著RL訓練的進行,易於樣本的普遍存在導致了難度偏差,因此我們提出了一種難度感知的權重調整策略,以進一步提升性能。實驗結果證明了UniVG-R1的有效性,其在MIG-Bench上實現了9.1%的性能提升,超越了先前的方法。此外,我們的模型展現出強大的泛化能力,在四個圖像和視頻推理定位基準測試中,零樣本性能平均提升了23.4%。項目頁面可訪問於https://amap-ml.github.io/UniVG-R1-page/。
擴展高品質的軌跡數據長期以來一直是開發類人計算機使用代理的關鍵瓶頸。我們引入了PC Agent-E,這是一個高效的代理訓練框架,顯著減少了對大規模人類示範的依賴。僅從312條人工標註的計算機使用軌跡出發,我們通過使用Claude 3.7 Sonnet合成多樣化的行動決策,進一步提升了數據質量。在這些豐富的軌跡上訓練後,我們的PC Agent-E模型在WindowsAgentArena-V2(我們同時發布的改進基準)上取得了顯著的141%相對提升,超越了具有延長思考能力的強大Claude 3.7 Sonnet。此外,PC Agent-E在OSWorld上展現出對不同操作系統的強大泛化能力。我們的研究表明,強大的計算機使用能力可以從少量高質量的軌跡數據中被激發出來。
我們推出Toto,這是一個擁有1.51億參數的時間序列預測基礎模型。Toto採用現代僅解碼器架構,並結合了針對多變量可觀測性時間序列數據中特定挑戰設計的架構創新。Toto的預訓練語料庫由可觀測性數據、開放數據集和合成數據混合而成,其規模是領先時間序列基礎模型的4到10倍。此外,我們還引入了BOOM,這是一個大規模基準測試,包含2,807條真實世界時間序列中的3.5億個觀測點。對於Toto和BOOM,我們的可觀測性數據均來自Datadog自身的遙測和內部可觀測性指標。廣泛的評估表明,Toto在BOOM以及已建立的通用時間序列預測基準上均達到了最先進的性能。Toto的模型權重、推理代碼和評估腳本,以及BOOM的數據和評估代碼,均已根據Apache 2.0許可證開源,可通過https://huggingface.co/Datadog/Toto-Open-Base-1.0和https://github.com/DataDog/toto獲取。
大型推理模型(LRMs)通過強化學習(RL)在解決複雜問題方面展現了顯著能力,尤其是在生成長推理軌跡方面。然而,這些冗長的輸出往往存在大量冗餘,限制了LRMs的效率。本文探討了基於RL的方法來提升推理效率。具體而言,我們首先提出了一個統一框架,通過基於長度的獎勵塑造來形式化各種高效推理方法。基於這一視角,我們提出了一種新穎的基於長度的步進獎勵塑造方法(LASER),該方法採用由目標長度控制的步進函數作為獎勵。LASER超越了先前的方法,在性能和效率之間實現了更優的帕累托最優平衡。接著,我們基於兩個關鍵直覺進一步擴展了LASER:(1)模型的推理行為在訓練過程中不斷演變,因此需要獎勵規範也是自適應和動態的;(2)與其統一鼓勵更短或更長的思維鏈(CoT),我們認為基於長度的獎勵塑造應具備難度感知能力,即對於簡單查詢應更嚴厲地懲罰冗長的CoT。這種方法有望促進快慢思維的結合,從而實現更好的整體權衡。由此產生的方法被稱為LASER-D(動態且難度感知)。在DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B和DeepSeek-R1-Distill-Qwen-32B上的實驗表明,我們的方法顯著提升了推理性能和響應長度效率。例如,LASER-D及其變體在AIME2024上實現了+6.1的提升,同時減少了63%的token使用。進一步分析顯示,我們基於RL的壓縮產生了更簡潔的推理模式,減少了冗餘的“自我反思”。相關資源請訪問https://github.com/hkust-nlp/Laser。
世界模型,通过基于历史观察与行动序列预测状态转移,在提升序列决策的数据效率方面展现出巨大潜力。然而,现有的世界模型往往需要大量领域特定的训练,且生成的预测仍显粗糙、保真度低,这限制了其在复杂环境中的适用性。相比之下,基于大规模互联网数据集训练的视频扩散模型,在生成高质量视频、捕捉多样现实世界动态方面展现了令人瞩目的能力。本研究提出Vid2World,一种将预训练视频扩散模型迁移并应用于交互式世界模型的通用方法。为弥合这一差距,Vid2World通过对预训练视频扩散模型进行因果化改造,调整其架构与训练目标,以实现自回归生成。此外,它还引入了一种因果行动引导机制,以增强所得交互式世界模型中的行动可控性。在机器人操作与游戏仿真领域的广泛实验表明,我们的方法为将高性能视频扩散模型重新应用于交互式世界模型提供了一种可扩展且有效的途径。
獲取精細的3D場景通常需要昂貴的設備、多視角數據或耗時的建模工作。因此,一種輕量級的替代方案——從單張俯視圖生成複雜的3D場景,在實際應用中扮演著至關重要的角色。儘管近期的3D生成模型在物體層面取得了顯著成果,但將其擴展至全場景生成時,往往會導致幾何不一致、佈局幻覺以及低質量的網格。在本研究中,我們提出了3DTown,這是一個無需訓練的框架,旨在從單張俯視圖合成真實且連貫的3D場景。我們的方法基於兩大原則:基於區域的生成以提升圖像到3D的對齊與分辨率,以及空間感知的3D修補以確保全局場景的連貫性和高質量的幾何生成。具體而言,我們將輸入圖像分解為重疊的區域,並使用預訓練的3D物體生成器分別生成每個區域,隨後通過掩碼修正流修補過程填補缺失的幾何,同時保持結構的連續性。這種模塊化設計使我們能夠克服分辨率瓶頸,並在無需3D監督或微調的情況下保持空間結構。在各種場景中的廣泛實驗表明,3DTown在幾何質量、空間連貫性和紋理保真度方面均優於包括Trellis、Hunyuan3D-2和TripoSG在內的現有頂尖基準。我們的結果證明,通過一種基於原則、無需訓練的方法,從單張圖像生成高質量的3D城鎮是可行的。
大型推理模型(LRMs)通过长推理链实现了卓越的性能,但在简单任务上常因冗余推理而产生过高的计算开销。本研究系统量化了LRMs在“长思考”与“无思考”模式下的性能上限,揭示了模型在答案生成过程中隐含补充推理的“内部自我恢复机制”现象。基于这一发现,我们提出了自适应自我恢复推理(ASRR)框架,该框架抑制不必要的推理并实现隐含恢复。通过引入准确度感知的长度奖励调节机制,ASRR根据问题难度自适应分配推理资源,在几乎不牺牲性能的前提下实现高效推理。跨多个基准和模型的实验表明,与GRPO相比,ASRR在1.5B和7B模型上分别减少了高达32.5%和25.7%的推理预算,且准确率损失极小(pass@1分别仅为1.2%和0.6%),并在安全基准上显著提升了无害率(最高提升+21.7%)。我们的研究结果凸显了ASRR在实现LRMs高效、自适应及更安全推理方面的潜力。
玩電子遊戲需要感知、記憶和規劃能力,這些正是現代大型語言模型(LLM)代理被期望掌握的核心能力。我們探討了利用流行電子遊戲來評估現代LLM所面臨的主要挑戰,發現直接將LLM置於遊戲中無法進行有效評估,原因有三——脆弱的視覺感知、提示敏感性和潛在的數據污染。我們引入了lmgame-Bench,將遊戲轉化為可靠的評估工具。lmgame-Bench包含一系列平臺、解謎和敘事遊戲,通過統一的Gym風格API提供,並配備輕量級的感知和記憶框架,旨在穩定提示變異並消除污染。在13個領先模型的測試中,我們展示了lmgame-Bench既具挑戰性又能有效區分模型性能。相關性分析表明,每款遊戲都探測了在其他場合常被單獨測試的獨特能力組合。更有趣的是,在lmgame-Bench中的單一遊戲上進行強化學習,其效果能夠遷移到未見遊戲及外部規劃任務中。我們的評估代碼可在https://github.com/lmgame-org/GamingAgent/lmgame-bench 獲取。
人類自然運用多種推理模式來學習和解決邏輯問題,即不同的表徵形式,如自然語言、代碼和符號邏輯。相比之下,現有大多數基於大語言模型(LLM)的方法在訓練過程中僅使用單一推理模式,通常是自然語言。儘管某些方法在推理時探索了模式選擇或增強,但訓練過程仍對模式無感知,限制了模式間的協同效應。為填補這一空白,我們提出了混合思維(Mixture-of-Thought, MoT)框架,使LLM能夠在三個互補模式間進行推理:自然語言、代碼以及新引入的符號模式——真值表,後者系統地列舉邏輯案例,並部分緩解了自然語言推理中的關鍵失敗模式。MoT採用兩階段設計:(1)自我演進的MoT訓練,從跨模式的過濾、自我生成的推理中共同學習;(2)MoT推理,充分利用三種模式的協同效應以產生更優預測。在包括FOLIO和ProofWriter在內的邏輯推理基準測試中,我們的MoT框架一致且顯著地超越了採用單一模式思維鏈的強LLM基線,平均準確率提升高達+11.7個百分點。進一步分析表明,MoT框架對訓練和推理階段均有裨益;在更難的邏輯推理問題上尤為有效;且不同模式貢獻了互補的優勢,其中真值表推理有助於克服自然語言推理中的關鍵瓶頸。
如OpenAI o1和DeepSeek-R1等大型推理模型在推理领域取得了显著成就。其训练过程中的一个关键要素在于强化学习(RL)中引入了可验证的奖励机制。然而,现有的奖励基准并未评估基于参考的奖励系统,导致研究人员对RL中所用验证器的准确性理解有限。本文中,我们推出了两个基准——VerifyBench与VerifyBench-Hard,旨在评估基于参考的奖励系统的性能。这些基准通过细致的数据收集与整理构建,并辅以精心的人工标注以确保高质量。当前模型在VerifyBench和VerifyBench-Hard上,尤其是规模较小的模型,仍显示出显著的提升空间。此外,我们对评估结果进行了全面深入的分析,为理解和开发基于参考的奖励系统提供了洞见。我们提出的基准作为有效工具,能够指导验证器准确性的提升以及通过RL训练的模型在推理任务中推理能力的发展。
人類認知通常涉及對抽象、流動概念的思考,而非嚴格使用離散的語言符號。然而,當前的推理模型受限於人類語言的邊界,處理代表語義空間中固定點的離散符號嵌入。這種離散性限制約束了此類推理模型的表達能力和上限潛力,常常導致推理路徑的不完全探索,因為標準的思維鏈(Chain-of-Thought, CoT)方法依賴於每一步採樣一個符號。在本研究中,我們提出了軟性思考(Soft Thinking),這是一種無需訓練的方法,通過在連續概念空間中生成柔軟、抽象的概念符號來模擬人類的“軟性”推理。這些概念符號由符號嵌入的概率加權混合生成,形成連續概念空間,實現了平滑過渡和超越傳統離散邊界的更豐富表示。本質上,每個生成的概念符號都封裝了來自相關離散符號的多重含義,隱式地探索了多種推理路徑,從而有效地收斂到正確答案。在多樣化的數學和編程基準上的實證評估一致證明了軟性思考的有效性和效率,與標準CoT相比,pass@1準確率提升了最高2.48個百分點,同時符號使用量減少了最高22.4%。定性分析進一步揭示,軟性思考的輸出保持高度可解釋性和可讀性,凸顯了其突破基於離散語言的推理固有瓶頸的潛力。代碼可在https://github.com/eric-ai-lab/Soft-Thinking獲取。
扩散语言模型(Diffusion Language Models, DLMs)被视为自回归语言模型的有力竞争者。然而,扩散语言模型长期以来受限于推理速度缓慢的问题。一个核心挑战在于其非自回归架构和双向注意力机制阻碍了加速解码的关键值缓存(KV-cache)的应用。针对这一瓶颈,我们提出了一种类似KV-cache的机制——延迟KV-Cache,用于DLMs的去噪过程。我们的方法基于观察到不同token在扩散过程中具有不同的表示动态性,因此提出了一种延迟且条件化的键值状态缓存策略。我们设计了两种互补的变体来逐步缓存键和值:(1) dKV-Cache-Decode,它提供了几乎无损的加速,甚至在长序列上提升了性能,表明现有DLMs在推理过程中可能未充分利用上下文信息;(2) dKV-Cache-Greedy,它采用激进缓存策略,缩短了缓存生命周期,以一定的性能下降为代价,实现了更高的加速比,具有二次时间复杂度。最终,dKV-Cache在推理速度上实现了2到10倍的提升,大大缩小了自回归模型与扩散模型之间的差距。我们在多个基准测试上评估了dKV-Cache,在通用语言理解、数学推理及代码生成任务上均实现了加速。实验证明,缓存机制同样适用于DLMs,甚至可以在现有DLMs的基础上以无需额外训练的方式直接应用。
当前的文本到图像(T2I)生成模型虽取得了显著成果,但在处理文本提示中隐含知识不确定的场景时仍显不足。例如,二月发布的T2I模型难以生成适合四月上映电影的海报,因为角色设计和风格对模型而言尚不明确。为解决此问题,我们提出了一种互联网增强的文本到图像生成(IA-T2I)框架,通过提供参考图像,使T2I模型能够明确此类不确定知识。具体而言,设计了一个主动检索模块,根据给定文本提示判断是否需要参考图像;引入了一个分层图像选择模块,从图像搜索引擎返回的结果中挑选最合适的图像以增强T2I模型;并提出了一个自我反思机制,持续评估并优化生成的图像,确保其与文本提示忠实对齐。为评估所提出框架的性能,我们收集了一个名为Img-Ref-T2I的数据集,其中文本提示包含三类不确定知识:(1)已知但罕见。(2)未知。(3)模糊。此外,我们精心设计了一个复杂提示,指导GPT-4o进行偏好评估,其评估准确度已证明与人类偏好评估相近。实验结果表明,我们的框架在人类评估中表现优异,相较于GPT-4o提升了约30%。
基於知識圖譜的檢索增強生成旨在緩解大型語言模型(LLMs)因知識不足或過時而產生的幻覺問題。然而,現有方法往往未能充分利用知識圖譜(KGs)中嵌入的先驗知識,尤其是其結構信息及顯式或隱式約束。前者能增強LLMs推理的忠實性,後者則能提升回應生成的可靠性。基於這些動機,我們提出了一個可信的推理框架,稱為“先驗審議”(Deliberation over Priors, DP),該框架充分利用了KGs中的先驗知識。具體而言,DP採用了一種漸進式知識蒸餾策略,通過結合監督微調和Kahneman-Tversky優化,將結構先驗整合到LLMs中,從而提高關係路徑生成的忠實性。此外,我們的框架還採用了推理-內省策略,引導LLMs基於提取的約束先驗進行精細化的推理驗證,確保回應生成的可靠性。在三個基準數據集上的大量實驗表明,DP達到了新的最優性能,特別是在ComplexWebQuestions數據集上實現了13%的Hit@1提升,並生成了高度可信的回應。我們還進行了多種分析以驗證其靈活性和實用性。代碼已公開於https://github.com/reml-group/Deliberation-on-Priors。
利用專有數據對開源大型語言模型(LLMs)進行微調,現已成為下游開發者獲取特定任務LLMs的標準做法。然而,令人驚訝的是,我們揭示了這一實踐伴隨的新風險:開源LLMs的創建者可以通過簡單的後門訓練,僅需對微調後的下游模型進行黑箱訪問,便能提取出私有的下游微調數據。我們在4個廣泛使用的開源模型(參數量從3B到32B不等)和2個下游數據集上進行了全面實驗,結果表明數據提取效果驚人地高:在實際場景中,總計5,000個樣本中高達76.3%的下游微調數據(查詢)能被完美提取,而在更理想的條件下,成功率可提升至94.9%。我們還探索了一種基於檢測的防禦策略,但發現其可被改進後的攻擊繞過。總之,我們強調了這一新發現的微調數據洩露風險的緊迫性,並希望更多後續研究能推動解決這一令人擔憂的風險。實驗中使用的代碼和數據已發佈於https://github.com/thu-coai/Backdoor-Data-Extraction。
世界模型預測在行動影響下的狀態轉變,並在多種模態中日益發展。然而,標準的訓練目標,如最大似然估計(MLE),往往與世界模型的特定任務目標(即轉變預測的度量標準,如準確性或感知質量)不一致。本文介紹了RLVR-World,這是一個統一框架,利用可驗證獎勵的強化學習(RLVR)直接針對這些度量標準優化世界模型。儘管將世界建模表述為對標記化序列的自回歸預測,RLVR-World仍將解碼預測的度量標準作為可驗證獎勵進行評估。我們在文本遊戲、網絡導航和機器人操作等多個領域的語言和視頻基礎世界模型上展示了顯著的性能提升。我們的工作表明,除了最近在推理語言模型方面的進展外,RLVR為更廣泛地提升生成模型的效用提供了一個有前景的後訓練範式。
大型推理模型(LRMs)在數學和編程等推理密集型任務上取得了顯著成功。然而,其增強的推理能力並不一定轉化為安全性能的提升——在某些情況下,甚至可能降低安全性。這引發了一個重要的研究問題:我們如何提升LRMs的安全性?本文通過監督微調(SFT)對如何增強LRMs的安全性進行了全面的實證研究。我們的研究始於一個意外的觀察:直接從DeepSeek-R1蒸餾安全回應並未顯著提升安全性。我們分析了這一現象,並識別出導致此結果的三個關鍵失敗模式。隨後,我們證明在數據蒸餾過程中明確解決這些問題可以帶來顯著的安全改進。接著,我們探討了實現安全性是否需要長而複雜的推理過程。有趣的是,我們發現僅使用簡短或基於模板的推理過程即可達到相當的安全性能,且模型學習這些過程比學習更複雜的推理鏈要容易得多。這些發現促使我們對推理在確保安全性中的角色進行了更深入的反思。最後,我們發現,在安全微調過程中混合數學推理數據有助於平衡安全性和過度拒絕。總體而言,我們希望這項實證研究能為提升LRMs的安全性提供更全面的視角。實驗中使用的代碼和數據已發佈於https://github.com/thu-coai/LRM-Safety-Study。
擴散變換器(Diffusion Transformer, DiT)作為視覺生成領域中頗具前景的擴散模型,展現了卓越的性能,但同時也伴隨著顯著的計算開銷。有趣的是,對預訓練DiT模型的分析揭示,全局自注意力機制往往存在冗餘,主要捕捉的是局部模式——這凸顯了尋求更高效替代方案的潛力。本文中,我們重新審視卷積作為構建高效且表達力強的擴散模型的替代基礎模塊。然而,簡單地將自注意力替換為卷積通常會導致性能下降。我們的研究將這一性能差距歸因於卷積神經網絡(ConvNets)相比於變換器存在更高的通道冗餘。為解決此問題,我們引入了一種緊湊的通道注意力機制,該機制促進了更多樣化通道的激活,從而增強了特徵多樣性。這催生了完全由標準卷積神經網絡模塊構建的擴散模型家族——擴散卷積網絡(Diffusion ConvNet, DiCo),其在保持強大生成性能的同時,顯著提升了效率。在類別條件下的ImageNet基準測試中,DiCo在圖像質量和生成速度上均超越了先前的擴散模型。特別值得一提的是,DiCo-XL在256x256分辨率下達到了2.05的FID值,在512x512分辨率下為2.53,相比DiT-XL/2分別實現了2.7倍和3.1倍的加速。此外,我們最大的模型DiCo-H,規模擴展至10億參數,在ImageNet 256x256上無需任何額外監督訓練即達到了1.90的FID值。代碼已開源於:https://github.com/shallowdream204/DiCo。
近期,大型推理模型(LRMs)在數學和邏輯推理方面展現了令人矚目的能力。然而,當前的LRMs很少承認無知或回應「我不知道」,反而經常在表現出過度自信的同時給出錯誤答案,這引發了對其事實可靠性的擔憂。在本研究中,我們識別了兩種由過度思考導致的病態推理模式,它們助長了過度自信和錯誤答案的產生:最後一刻的猜測和二次思考的螺旋。為解決這些問題,我們提出了BARREL——一個促進簡潔且邊界感知的事實推理的新框架。我們的實驗表明,BARREL訓練將DeepSeek-R1-Distill-Llama-8B的可靠性從39.33%提升至61.48%,同時仍能達到與基於R1生成的推理數據微調的模型相當的準確度。這些結果證明,我們的先導研究對於構建更可靠且基於事實的系統2 LRMs具有啟發意義。
對話式搜索系統需要有效處理那些通常包含歧義、省略和指代等上下文依賴的查詢。對話式查詢重構(CQR)通過將這些查詢轉化為適合現成檢索器的自包含形式來應對這一挑戰。然而,現有的CQR方法面臨兩個關鍵限制:高度依賴於昂貴的外部監督(來自人工註釋或大型語言模型),以及重寫模型與下游檢索器之間對齊不足。我們提出了ConvSearch-R1,這是首個完全消除對外部重寫監督依賴的自驅動框架,通過強化學習直接利用檢索信號來優化重構。我們的新穎兩階段方法結合了自驅動策略預熱,通過檢索引導的自蒸餾解決冷啟動問題,隨後採用檢索引導的強化學習,並設計了專門的排名激勵獎勵塑造機制,以解決傳統檢索指標中的稀疏性問題。在TopiOCQA和QReCC數據集上的廣泛實驗表明,ConvSearch-R1顯著超越了先前的最先進方法,在具有挑戰性的TopiOCQA數據集上實現了超過10%的提升,同時使用更小的3B參數模型且無需任何外部監督。
在標準的自回歸生成過程中,大型語言模型(LLM)預測下一個詞元的分布,採樣一個離散的詞元,然後丟棄該分布,僅將採樣的詞元作為新的輸入傳遞。為了保留這一分布的豐富信息,我們提出了輸入混合(Mixture of Inputs, MoI),這是一種無需訓練的自回歸生成方法。在按照標準範式生成一個詞元後,我們構建一個新的輸入,將生成的離散詞元與先前丟棄的詞元分布相結合。具體而言,我們採用了一種貝葉斯估計方法,將詞元分布視為先驗,採樣的詞元作為觀測值,並用連續的後驗期望替代傳統的獨熱向量作為新的模型輸入。MoI使模型在整個生成過程中能夠保持更豐富的內部表示,從而提升文本質量和推理能力。在數學推理、代碼生成和博士級問答任務中,MoI在多個模型(包括QwQ-32B、Nemotron-Super-49B、Gemma-3-27B和DAPO-Qwen-32B)上均能持續提升性能,且無需額外訓練,計算開銷可忽略不計。
大型語言模型(LLMs)中的偏見嚴重削弱了其可靠性和公平性。我們關注一種常見的偏見形式:當模型概念空間中的兩個參考概念(例如情感極性,如“正面”和“負面”)與第三個目標概念(如評論方面)不對稱地相關時,模型會表現出非預期的偏見。例如,對“食物”的理解不應偏向任何特定的情感。現有的偏見評估方法通過為不同社會群體構建標記數據並測量模型在這些群體中的反應來評估LLMs的行為差異,這一過程需要大量人力且僅能捕捉有限的社會概念。為克服這些限制,我們提出了BiasLens,這是一個基於模型向量空間結構的無測試集偏見分析框架。BiasLens結合概念激活向量(CAVs)和稀疏自編碼器(SAEs)來提取可解釋的概念表示,並通過測量目標概念與每個參考概念之間表示相似性的變化來量化偏見。即使沒有標記數據,BiasLens也與傳統的偏見評估指標表現出高度一致性(Spearman相關性r > 0.85)。此外,BiasLens揭示了使用現有方法難以檢測的偏見形式。例如,在模擬臨床場景中,患者的保險狀態可能導致LLM產生偏見的診斷評估。總體而言,BiasLens提供了一個可擴展、可解釋且高效的偏見發現範式,為提升LLMs的公平性和透明度鋪平了道路。
基於機器學習的原子間勢和力場精確依賴於準確的原子結構,然而由於實驗解析晶體的有限性,此類數據稀缺。儘管原子分辨率電子顯微鏡提供了結構數據的潛在來源,但將這些圖像轉換為模擬就緒的格式仍然耗時且易出錯,為模型訓練和驗證造成了瓶頸。我們介紹了AutoMat,這是一個端到端、代理輔助的流程,能夠自動將掃描透射電子顯微鏡(STEM)圖像轉化為原子晶體結構並預測其物理性質。AutoMat結合了模式適應性去噪、物理引導模板檢索、對稱性感知原子重建、快速弛豫及通過MatterSim進行的性質預測,以及所有階段的協調編排。我們為此任務提出了首個專用的STEM2Mat-Bench,並使用晶格均方根偏差(RMSD)、形成能平均絕對誤差(MAE)和結構匹配成功率來評估性能。通過協調外部工具調用,AutoMat使僅基於文本的大型語言模型(LLM)在此領域超越了視覺語言模型,實現了整個流程的閉環推理。在超過450個結構樣本的大規模實驗中,AutoMat顯著優於現有的多模態大型語言模型和工具。這些結果驗證了AutoMat和STEM2Mat-Bench,標誌著在材料科學中橋接顯微鏡與原子級模擬的關鍵一步。代碼和數據集公開於https://github.com/yyt-2378/AutoMat和https://huggingface.co/datasets/yaotianvector/STEM2Mat。
熵最小化(EM)訓練模型,使其在最具信心的輸出上集中更多的概率質量。我們證明,僅此簡單目標,無需任何標註數據,即可大幅提升大型語言模型(LLMs)在數學、物理和編碼等挑戰性任務上的表現。我們探討了三種方法:(1) EM-FT 類似於指令微調,最小化標記級別的熵,但針對模型生成的未標註輸出;(2) EM-RL:強化學習,以負熵作為唯一獎勵進行最大化;(3) EM-INF:推理時對數概率調整,以減少熵,無需任何訓練數據或參數更新。在Qwen-7B上,EM-RL在無任何標註數據的情況下,達到了與GRPO和RLOO等基於60K標註樣本訓練的強力RL基線相當或更優的性能。此外,EM-INF使Qwen-32B在SciCode基準測試中,能夠匹配或超越GPT-4o、Claude 3 Opus和Gemini 1.5 Pro等專有模型的表現,同時比自洽性和序列精煉方法效率高出3倍。我們的研究發現,許多預訓練的LLMs具備先前未被充分認識的推理能力,這些能力僅通過熵最小化即可有效激發,無需任何標註數據甚至參數更新。
擴散模型已成為跨多個領域的強大生成工具,然而針對預訓練模型進行定制以展現特定理想屬性仍具挑戰性。雖然強化學習(RL)提供了一種有前景的解決方案,但現有方法難以同時實現穩定、高效的微調並支持不可微分的獎勵函數。此外,這些方法依賴於稀疏獎勵,在生成過程的中間步驟中提供的監督不足,往往導致生成質量欠佳。為解決這些限制,需要在整個擴散過程中提供密集且可微分的信號。因此,我們提出了基於價值的強化擴散(VARD):這是一種新穎的方法,首先學習一個價值函數來預測從中間狀態獲得的獎勵期望,然後利用該價值函數結合KL正則化,在整個生成過程中提供密集監督。我們的方法保持了與預訓練模型的接近性,同時通過反向傳播實現了有效且穩定的訓練。實驗結果表明,我們的方法促進了更好的軌跡引導,提高了訓練效率,並擴展了RL在針對複雜、不可微分獎勵函數優化的擴散模型中的適用性。
大型音頻語言模型(LAMs)的興起既帶來了潛力,也伴隨著風險,因為其音頻輸出可能包含有害或不道德的內容。然而,目前的研究缺乏對LAM安全性的系統性、定量評估,尤其是在對抗越獄攻擊方面,這由於語音的時序性和語義特性而具有挑戰性。為彌補這一空白,我們引入了AJailBench,這是首個專門用於評估LAM越獄漏洞的基準。我們首先構建了AJailBench-Base,這是一個包含1,495個對抗性音頻提示的數據集,涵蓋10個違反政策的類別,這些提示是通過真實的文本到語音合成從文本越獄攻擊轉換而來。利用該數據集,我們評估了多個最先進的LAM,發現沒有一個模型能在所有攻擊中表現出一致的魯棒性。為了進一步加強越獄測試並模擬更真實的攻擊條件,我們提出了一種生成動態對抗變體的方法。我們的音頻擾動工具包(APT)在時間、頻率和幅度域上應用有針對性的失真。為了保留原始的越獄意圖,我們強制執行語義一致性約束,並採用貝葉斯優化來高效搜索既細微又高效的擾動。這產生了AJailBench-APT,這是一個包含優化對抗性音頻樣本的擴展數據集。我們的研究結果表明,即使是微小且語義保留的擾動,也能顯著降低領先LAM的安全性能,這凸顯了對更魯棒和語義感知的防禦機制的需求。
本研究探討了在強化微調(RFT)背景下的先驗提示工程(pPE),其中語言模型(LMs)通過獎勵信號被激勵以展現最大化性能的行為。儘管現有的RFT研究主要集中於算法、獎勵塑造和數據策展,但在訓練期間附加於查詢以引導行為(如逐步推理)的先驗提示設計仍未被充分探索。我們研究不同的pPE方法是否能引導LMs在RFT後內化不同的行為。受推理時提示工程(iPE)的啟發,我們將五種代表性的iPE策略——推理、規劃、基於代碼的推理、知識回憶和空例利用——轉化為相應的pPE方法。我們使用Qwen2.5-7B模型對每種pPE方法進行實驗,並在領域內和領域外基準(如AIME2024、HumanEval+和GPQA-Diamond)上評估性能。結果顯示,所有經過pPE訓練的模型均超越了其iPE提示的對應模型,其中空例pPE方法實現了最大的平均性能提升,並在AIME2024和GPQA-Diamond上取得了最高的改進,超越了常用的推理方法。此外,通過適應行為分類框架,我們展示了不同的pPE策略在最終模型中灌輸了不同的行為風格。這些發現將pPE定位為RFT中一個強大但未被充分研究的方向。
大型多模态模型(LMMs)在众多视觉语言基准测试中表现出色,然而,在涉及以人为中心的标准,如公平性、伦理、同理心和包容性等方面,它们仍面临挑战,这些标准对于与人类价值观保持一致至关重要。我们推出了HumaniBench,这是一个包含32K真实世界图像问题对的综合基准,通过可扩展的GPT4o辅助流程进行标注,并由领域专家详尽验证。HumaniBench评估了七项以人为中心的人工智能(HCAI)原则:公平性、伦理、理解力、推理能力、语言包容性、同理心及鲁棒性,覆盖七种多样化任务,包括开放式与封闭式视觉问答(VQA)、多语言问答、视觉定位、共情式字幕生成及鲁棒性测试。对15种最先进的LMMs(开源与闭源)进行基准测试显示,尽管专有模型普遍领先,但鲁棒性和视觉定位仍是其薄弱环节。部分开源模型在平衡准确性与遵循人类对齐原则方面也存在困难。HumaniBench是首个围绕HCAI原则专门构建的基准,为诊断对齐差距、引导LMMs实现既准确又社会负责的行为提供了严格的测试平台。数据集、标注提示及评估代码可在以下网址获取:https://vectorinstitute.github.io/HumaniBench
獎勵模型在將大型語言模型(LLMs)與人類偏好對齊中扮演核心角色,但其訓練成本高昂,需要大規模的人類標註偏好數據及強大的預訓練LLM骨幹。與此同時,高質量合成指令跟隨數據集的日益普及引發了一個問題:在基於強化學習的對齊過程中,能否以更簡單的基於參考的指標作為獎勵模型的可行替代方案?本文首先揭示,BLEU這一基礎字符串匹配指標,在通用指令跟隨數據集上,與強獎勵模型在與人類偏好一致性方面表現出驚人的匹配度。基於這一洞察,我們開發了BLEUBERI方法,該方法首先識別具有挑戰性的指令,隨後直接將BLEU作為獎勵函數應用於群組相對策略優化(GRPO)。我們證明,在四個具有挑戰性的指令跟隨基準測試及三種不同基礎語言模型上,BLEUBERI訓練的模型與通過獎勵模型指導的強化學習訓練的模型表現相當。進一步的人類評估支持了BLEUBERI模型輸出質量與獎勵模型對齊模型相當的結論。此外,BLEUBERI模型生成的輸出在事實基礎上比競爭方法更為紮實。總體而言,我們展示了在獲得高質量參考輸出(易於通過現有指令跟隨數據集或合成數據生成獲取)的情況下,基於字符串匹配的指標在對齊過程中是獎勵模型既經濟又有效的替代品。我們在https://github.com/lilakk/BLEUBERI上公開了代碼與數據。
推測解碼已成為加速大型語言模型(LLM)推理同時保持其卓越文本生成性能的流行方法。以往的方法要么採用固定的推測解碼配置,不考慮前綴詞彙,要么通過離線或在線方式訓練草稿模型以使其與上下文對齊。本文提出了一種無需訓練的在線學習框架,能夠在文本生成過程中自適應地選擇推測解碼的超參數配置。我們首先將這一超參數選擇問題形式化為多臂老虎機問題,並提供了一個通用的推測解碼框架BanditSpec。此外,設計並分析了兩種基於老虎機的超參數選擇算法UCBSpec和EXP3Spec,並從一個新穎的量度——停止時間遺憾——進行了分析。我們在隨機和對抗性獎勵設置下對這一遺憾進行了上界分析。通過推導信息論上的不可能性結果,表明UCBSpec的遺憾性能在通用常數範圍內是最優的。最後,通過LLaMA3和Qwen2的大量實證實驗證明,與現有方法相比,我們的算法是有效的,並且在模擬真實LLM服務場景中,面對多樣化的輸入提示,其吞吐量接近於最佳超參數的預言值。
基於大型語言模型(LLM)的多智能體系統(MAS)展現出科學發現的顯著潛力。然而,現有方法通常使用缺乏合理性約束的預定義工作流程來自動化科學發現,這往往導致無目的的假設生成,並未能始終如一地將假設與證據聯繫起來,從而阻礙了系統性的不確定性降低。克服這些限制根本上需要系統性的不確定性降低。我們引入了PiFlow,這是一個信息理論框架,將自動化科學發現視為一個由原則(例如科學定律)指導的結構化不確定性降低問題。在三個不同的科學領域——發現具有目標特性的奈米材料結構、生物分子和超導體候選材料——的評估中,我們的方法顯著提高了發現效率,這反映在特性值與探索步驟的曲線下面積(AUC)增加了73.55%,並且與基礎智能體系統相比,解決方案質量提升了94.06%。總體而言,PiFlow作為一種即插即用的方法,建立了高效自動化科學發現的新範式轉變,為更穩健和加速的AI驅動研究鋪平了道路。代碼已在我們的GitHub上公開:https://github.com/amair-lab/PiFlow。
强化学习(RL)近期作为一种提升大型语言模型(LLMs)推理能力的有效方法崭露头角,其中LLM生成器作为由验证器(奖励模型)引导的策略。然而,当前针对LLMs的RL后训练方法通常采用固定(基于规则或预训练冻结)或通过监督微调(SFT)判别式训练的验证器。此类设计易受奖励欺骗影响,且在训练分布之外泛化能力较差。为克服这些局限,我们提出了Tango,一个新颖的框架,利用RL以交替方式同时训练LLM生成器与验证器。Tango的核心创新在于其生成式、过程级别的LLM验证器,该验证器通过RL训练并与生成器共同进化。重要的是,验证器仅基于结果级别的验证正确性奖励进行训练,无需显式过程级别标注。与确定性或SFT训练的验证器相比,这种通过RL训练的生成式验证器展现出更高的鲁棒性和优越的泛化能力,促进了与生成器之间的有效相互强化。大量实验证明,Tango的两个组成部分在7B/8B规模模型中均取得了顶尖成果:生成器在五个竞赛级数学基准测试和四个极具挑战性的跨领域推理任务中表现最佳,而验证器则在ProcessBench数据集上领先。值得注意的是,两者在最难的数学推理问题上均展现出尤为显著的进步。代码位于:https://github.com/kaiwenzha/rl-tango。
稳健评估大型语言模型(LLMs)在长篇故事创作方面的能力仍面临重大挑战,现有基准测试往往缺乏必要的规模、多样性或客观衡量标准。为此,我们推出了WebNovelBench,这是一个专为评估长篇小说生成而设计的新颖基准。WebNovelBench利用了一个包含超过4000部中文网络小说的大规模数据集,将评估任务设定为从梗概到故事的生成过程。我们提出了一套多维度框架,涵盖八个叙事质量指标,通过LLM作为评判者的方法自动评估。评分采用主成分分析法汇总,并映射至与人类作品相比的百分位排名。实验表明,WebNovelBench能有效区分人类创作的杰作、流行网络小说及LLM生成的内容。我们对24个最先进的LLM进行了全面分析,排名其讲故事能力,并为未来发展提供了洞见。该基准为评估和推进LLM驱动的叙事生成提供了一种可扩展、可复制且数据驱动的方法论。
大型多模态模型在多模态任务中表现出色,但由于对视觉标记的过度计算而面临显著的计算挑战。与专注于标记级冗余的标记缩减方法不同,我们识别并研究了视觉标记上的计算级冗余,以确保信息无损失。我们的关键见解是,来自预训练视觉编码器的视觉标记并不一定需要在仅解码器的大型多模态模型中执行所有繁重操作(例如,自注意力、前馈网络),通过适当的设计,可以更轻量地处理这些标记。我们设计了一系列实验来发现并逐步压缩与视觉相关的计算冗余。基于我们的发现,我们提出了ProxyV,一种利用代理视觉标记来减轻原始视觉标记计算负担的新方法。ProxyV在不影响性能的情况下提高了效率,甚至在效率提升较为温和的情况下也能带来显著的性能增益。此外,ProxyV的灵活性通过其与标记缩减方法的结合进一步提升了效率。代码将在此https://github.com/penghao-wu/ProxyV URL公开。
視聽語音辨識(AVSR)通過整合視覺線索,在嘈雜環境中提升了辨識的穩健性。儘管近期研究將大型語言模型(LLMs)融入AVSR,但其高昂的計算成本阻礙了在資源受限環境中的部署。為解決此問題,我們提出了Llama-SMoP,這是一種高效的多模態LLM,採用稀疏投影器混合(SMoP)模組來擴展模型能力,而不增加推理成本。通過引入稀疏門控的專家混合(MoE)投影器,Llama-SMoP使得使用較小的LLMs成為可能,同時保持強勁的性能。我們探討了三種SMoP配置,並展示了Llama-SMoP DEDR(分離專家,分離路由器),即使用模態專屬路由器和專家的配置,在ASR、VSR及AVSR任務上均取得了優異表現。消融研究證實了其在專家激活、可擴展性及噪音穩健性方面的有效性。
人類聽眾能輕易透過接觸來適應不熟悉的說話者及語言變體,但這種適應優勢是否也能延伸至最先進的語音語言模型?我們提出了一個可擴展的框架,使Phi-4多模態模型能夠利用交錯的任務提示與音頻-文本對進行上下文學習(ICL),並發現僅需在推理時提供12個示例語句(約50秒),即可在多元英語語料庫上平均相對降低19.7%(1.2個百分點)的詞錯誤率。這些改進在低資源變體中尤為顯著,當上下文與目標說話者匹配且提供更多示例時效果最佳——儘管擴展我們的程序會導致上下文長度的邊際收益遞減。總體而言,我們發現新穎的ICL適應方案(1)展現出與人類聽眾相似的性能特徵,(2)在自動語音識別(ASR)的魯棒性上,對不同說話者及語言背景均表現出持續的改進。雖然適應廣泛成功,但對於某些變體仍存在顯著差距,揭示了當前模型在靈活性上仍不及人類之處。我們已在GitHub上發布了提示與代碼。
大型语言模型(LLMs)在忠实性和事实性方面存在固有的局限性,通常被称为“幻觉”。目前已经开发了多个基准测试,为英语数据集背景下的事实性评估提供了测试平台,这些测试依赖于如网页链接或文本段落等补充信息,却忽略了现有的结构化事实资源。为此,知识图谱(KGs)被认定为缓解幻觉现象的有力工具,因为它们以结构化的方式呈现实体及其关系的事实,且语言开销最小。我们针对现有幻觉评估基准中缺乏知识图谱路径和多语言性的问题,提出了一个基于知识图谱的多语言、多跳基准测试——MultiHal,专为生成文本评估设计。作为数据收集流程的一部分,我们从开放域知识图谱中挖掘了14万条知识图谱路径,经过筛选去噪,最终精选出2.59万条高质量子集。基线评估显示,在多种语言和多个模型中,KG-RAG相较于普通问答的语义相似度得分绝对提升了约0.12至0.36分,这证明了知识图谱整合的潜力。我们预期MultiHal将推动未来在基于图表的幻觉缓解和事实核查任务方面的研究。
語碼轉換是一種在同一次表達、思考或對話中交替使用不同語言的常見現象。我們認為,人類之所以進行語碼轉換,是因為他們在談論某些主題和領域時,使用某一種語言比另一種語言更為自在。隨著知識密集型語言模型的興起,我們自然而然地提出了下一個問題:模型是否在某些主題上,使用某種語言X時掌握更多知識?更重要的是,我們能否通過改變推理所使用的語言來提升推理能力?我們創造了「語言特定知識」(Language Specific Knowledge, LSK)這一術語來描述這一現象。由於民族文化往往與不同語言共同發展,我們採用了文化特定的數據集(這些數據集包含關於文化和社會行為規範的知識)。我們發現,在某些非英語語言中,語言模型在使用思維鏈推理時表現更佳,有時甚至在低資源語言中表現更為突出。結合先前研究表明語義相似性並不等同於表徵相似性,我們假設文化特定的文本在相應語言中出現得更為頻繁,使得特定知識僅存在於特定的「專家」語言中。基於初步結果的啟發,我們設計了一種名為LSKExtractor的簡單方法,用於基準測試語言模型中存在的語言特定知識,並在推理過程中加以利用。我們在多種模型和數據集上展示了結果,顯示出準確率平均相對提升了10%。我們的研究有助於開發開源語言模型,使其更具包容性,並更貼近其部署的文化和語言背景。