每日精選AI研究論文及翻譯
現有的大型語言模型(LLM)智慧體基準測試主要關注理想化情境下的任務完成度,卻忽略了其在現實世界面向用戶應用中的可靠性。在諸如車載語音助手等領域,用戶常提出不完整或模糊的請求,這種固有不確定性要求智慧體必須透過對話、工具使用及策略遵循來應對。我們推出CAR-bench基準測試,用於評估車載助手領域中多輪對話型工具使用LLM智慧體的一致性、不確定性處理能力與能力認知。該測試環境包含LLM模擬用戶、領域策略,以及涵蓋導航、生產力、充電與車輛控制等58項互聯工具。除標準任務完成度外,CAR-bench還引入「幻覺任務」——測試智慧體在工具或資訊缺失時的極限認知能力,以及「消歧任務」——要求透過澄清對話或內部資訊收集來解決不確定性。基準測試結果顯示,各類任務的偶發性成功與持續性成功間存在巨大差距:即便是前沿推理LLM在消歧任務中的持續通過率也低於50%(因過早採取行動),且在幻覺任務中頻繁違反策略或捏造資訊以滿足用戶請求,這凸顯了現實場景中對更可靠、具自我認知的LLM智慧體的迫切需求。
隨著大型語言模型(LLMs)逐步演進為自主智能體,其實際應用場景大幅擴展的同時也帶來了新的安全挑戰。現有的大多數智能體防禦機制採用強制檢查範式,即在智能體生命週期的預定義階段強制觸發安全驗證。本研究主張有效的智能體安全應具備內生性與選擇性,而非採用架構分離的強制性方案。我們提出Spider-Sense框架——基於內生風險感知(IRS)的事件驅動防禦框架,使智能體能保持潛在警戒狀態,僅在感知風險時觸發防禦機制。一旦觸發,Spider-Sense將啟動分層防禦機制,在效率與精準度間實現平衡:通過輕量級相似度匹配處理已知威脅模式,同時將模糊案例升級至深度內部推理,從而消除對外部模型的依賴。為建立嚴謹的評估體系,我們引入具備生命週期感知能力的基準測試S²Bench,其特色在於真實的工具執行環境與多階段攻擊場景。大量實驗表明,Spider-Sense在實現競爭性甚至更優防禦效能的同時,僅產生8.3%的微小延遲開銷,並達到最低的攻擊成功率(ASR)與誤報率(FPR)。
近期,可驗證獎勵強化學習(RLVR)在大型語言模型(LLMs)與視覺語言模型(VLMs)中的應用,已顯著提升複雜任務的推理能力並取得重大成果。在RLVR訓練過程中,回應長度的增加常被視為推動推理能力增長的關鍵因素。然而,不同RLVR演算法在訓練期間的回應長度變化模式存在顯著差異。為從根本上解釋這些差異,本文對主流RLVR演算法的構成要素進行深入剖析,提出影響回應長度的理論分析,並透過大量實驗驗證該理論。基於上述理論發現,我們提出長度無偏序列策略優化(LUSPO)演算法。具體而言,我們修正群組序列策略優化(GSPO)中固有的長度偏差,使其損失函數對回應長度保持無偏性,從而解決回應長度塌陷問題。我們在數學推理基準與多模態推理場景中進行廣泛實驗,結果顯示LUSPO始終保持卓越性能。實證研究表明,與GRPO、GSPO等現有方法相比,LUSPO代表一種創新且最先進的優化策略。
當前大多數大型語言模型(LLM)智能體記憶系統依賴於少量靜態、人工設計的記憶提取操作。這些固定流程將人類對存儲內容和記憶修訂方式的先驗知識硬編碼其中,導致其在多樣化互動模式下缺乏靈活性,且在處理長歷史記錄時效率低下。為此,我們提出MemSkill,將這些操作重新定義為可學習、可演進的記憶技能——即從互動軌跡中提取、整合和刪減信息的結構化可複用例程。受智能體技能設計理念啟發,MemSkill採用學習選擇相關技能的控制器,並搭配基於LLM的執行器來生成技能引導的記憶。除了學習技能選擇策略,MemSkill還引入設計器模組,定期覆核因所選技能導致記憶錯誤或不完整的困難案例,並通過改進現有技能或提出新技能來演進技能集合。由此,MemSkill形成一個閉環流程,同步優化技能選擇策略與技能集合本身。在LoCoMo、LongMemEval、HotpotQA和ALFWorld上的實驗表明,MemSkill在任務表現上優於強基線模型,且在不同場景中展現良好泛化能力。進一步分析揭示了技能的演進機制,為實現更自適應、自演進的LLM智能體記憶管理提供了重要洞見。
近期即時長影片生成方法通常採用串流調校策略,試圖透過短上下文(無記憶)教師模型來訓練長上下文學生模型。在此類框架中,學生模型執行長序列生成,卻僅能獲得受限於5秒短視窗的教師監督。這種結構性差異導致關鍵的師生錯配問題:教師因無法獲取長期歷史資訊,難以指導學生建立全局時間依賴關係,實質上限制了學生模型的上下文長度。為解決此問題,我們提出「上下文強制」框架,透過長上下文教師模型來訓練長上下文學生模型。通過確保教師能感知完整生成歷史,我們消除了監督錯配現象,使模型能接受穩健訓練以實現長期一致性。為使極端時長(如2分鐘)的計算具可行性,我們引入上下文管理系統,將線性增長的上下文轉換為「慢快記憶」架構,顯著降低視覺冗餘。大量實驗結果表明,本方法能實現超過20秒的有效上下文長度——較LongLive、Infinite-RoPE等頂尖方法提升2至10倍。憑藉此擴展的上下文能力,「上下文強制」技術在長時間跨度中保持卓越的一致性,在多項長影片評估指標上超越現有頂尖基準方法。
雖然生成式影片模型已實現了卓越的視覺逼真度,但其對隱含世界規則的內化與推理能力仍是關鍵卻尚未充分探索的前沿領域。為彌合這一差距,我們推出RISE-Video——首個面向推理的文本圖像轉影片生成基準測試,將評估重點從表層美學轉向深度認知推理。RISE-Video包含467個經人工精細標註的樣本,涵蓋八個嚴謹類別,為探測模型在常識、空間動態到專業領域等多維度的智能表現提供結構化測試平台。我們的框架引入由四項指標組成的多維度評估協議:推理對齊性、時間一致性、物理合理性與視覺品質。為支持可擴展評估,我們進一步提出利用大型多模態模型模擬以人為本評估的自動化流程。對11個頂尖TI2V模型的廣泛實驗顯示,現有模型在隱含約束下模擬複雜場景時存在普遍缺陷,此發現為未來世界模擬生成模型的發展提供了關鍵洞見。
大型語言模型批評者模型的主動干預常被認為能提升可靠性,但其在部署階段的實際影響卻鮮少被深入理解。我們發現,即使具備強大離線準確度(AUROC 0.94)的二值化LLM批評者,仍可能引發嚴重性能衰退:在某模型上導致26個百分點的崩潰式下滑,而對另一模型的影響卻近乎零百分點。這種差異性表明,僅憑LLM批評者的準確度不足以判定干預是否安全。 我們揭示了「干擾-恢復權衡」機制:干預雖能挽救失敗的執行軌跡,但也可能破壞原本會成功的軌跡。基於此洞見,我們提出一項部署前檢驗方法,僅需50項任務的小型試驗即可預估干預的利弊,無需全面部署。跨基準測試的結果顯示,該檢驗能準確預測成效:對高成功率任務的干預會導致性能退化(0至-26個百分點),而在高失敗率的ALFWorld基準上則產生小幅改善(+2.8個百分點,p=0.014)。因此,本框架的核心價值在於能識別不應干預的時機,從而預防部署前的嚴重性能衰退。
現有的大型語言模型(LLM)智能體在需要長程規劃的互動環境中表現不佳,主要源於模擬未來狀態時產生的誤差累積問題。為解決此難題,我們提出ProAct框架,通過兩階段訓練範式使智能體能夠內化精準的前向推理能力。首先,我們引入基於環境搜索的軌跡進行監督式微調的「紮根前瞻蒸餾法」(GLAD),將複雜的搜索樹壓縮為簡潔的因果推理鏈,使智能體在無需推理階段搜索計算負擔的情況下掌握前瞻邏輯。其次,為進一步提升決策精度,我們提出即插即用的輔助價值估計器「蒙地卡羅評鑑器」(MC-Critic),該組件專為增強PPO、GRPO等策略梯度算法而設計。通過輕量級環境推演來校準價值估計,MC-Critic能提供低方差信號,在無需依賴高成本基於模型的價值近似下實現穩定策略優化。在隨機性環境(如2048)與確定性環境(如倉庫番)中的實驗表明,ProAct能顯著提升規劃準確度。值得注意的是,採用ProAct訓練的40億參數模型不僅超越所有開源基準線,更可與最先進的閉源模型媲美,同時展現出對未見環境的強健泛化能力。程式碼與模型已開源於:https://github.com/GreatX3/ProAct
高品質核心程式碼對可擴展AI系統至關重要,而讓大型語言模型具備生成此類程式碼的能力將推動AI發展。然而,為此任務訓練大型語言模型需要充足資料、穩健環境,且訓練過程易受獎勵破解和惰性優化問題影響。在這些情況下,模型可能鑽營訓練獎勵機制,將表面正確性置於實際加速效果之上。本文系統性研究強化學習在核心程式碼生成中的應用:首先設計KernelGYM——支持獎勵破解檢測、多輪互動資料收集與長期強化學習訓練的分散式GPU環境;基於此環境探究有效的多輪強化學習方法,發現GRPO中因自我包含導致的偏誤策略梯度問題,為此提出回合級強化學習-留一法(TRLOO)實現無偏優勢估計;針對惰性優化問題,結合失配校正提升訓練穩定性,並引入基於性能剖析的獎勵機制(PR)與基於剖析的拒絕取樣(PRS)加以克服。最終訓練出的Dr.Kernel-14B模型在KernelBench中達到與Claude-4.5-Sonnet相當的性能。在KernelBench第二級子集中,31.6%生成的核心程式碼相比Torch參考實現實現至少1.2倍加速,優於Claude-4.5-Sonnet(26.7%)和GPT-5(28.6%);若跨回合擇優選取,該加速比例進一步提升至47.8%。所有環境、訓練程式碼、模型與資料集均已開源於https://www.github.com/hkust-nlp/KernelGYM。
自回归大语言模型(LLMs)虽具备强大性能,但其固有的序列化解码机制会导致高推理延迟与GPU利用率低下。推测式解码通过采用快速草稿模型来缓解这一瓶颈——该模型生成的输出由目标LLM并行验证;然而现有方法仍依赖自回归式草稿生成,其序列化本质限制了实际加速效果。扩散式LLMs通过并行生成提供了有前景的替代方案,但当前扩散模型性能通常逊于自回归模型。本文提出DFlash推测解码框架,采用轻量级块扩散模型实现并行草稿生成。通过单次前向传播生成草稿词元,并基于目标模型提取的上下文特征对草稿模型进行条件约束,DFlash能够以高质量输出和高接受率实现高效草稿生成。实验表明,DFlash在多种模型与任务中实现了超过6倍的无损加速,较当前最先进的推测解码方法EAGLE-3提速最高达2.5倍。
训练时特权信息能够使语言模型在原本无法完成的任务上取得成功,这使其成为困难、长周期场景下强化学习的强大工具。然而,将基于特权信息习得的能力迁移至推理时无法使用该信息的策略,仍是一个根本性挑战。我们在前沿模型蒸馏至多轮智能体环境的背景下研究该问题——此类环境中,闭源系统通常隐藏内部推理过程,仅暴露行动轨迹。这使得标准蒸馏流程失效,因为成功行为可观测而推理过程不可见。为此,我们提出π-Distill算法,通过联合师生目标函数,使用同一模型同步训练特权信息条件化的教师模型与无条件的学生模型。此外,我们还提出策略上自蒸馏方法,该替代方案通过强化学习进行训练,并在学生模型与特权信息条件化教师模型间施加反向KL惩罚。实验表明,这两种算法都能有效利用仅含行动轨迹的特权信息蒸馏前沿智能体。具体而言,我们发现π-Distill(在某些情况下OPSD)在多个智能体基准测试、模型架构及特权信息形式上,均优于假设能获取完整思维链监督的行业标准实践(监督微调后接强化学习)。我们通过深入分析补充实验结果,重点刻画了π-Distill实现有效学习的核心因素,并明确了OPSD具备竞争力的适用场景。
数学成果检索依然面临挑战:现有工具大多只能检索整篇论文,而数学家和定理证明智能体通常需要定位能解答特定问题的定理、引理或命题。尽管语义搜索技术发展迅猛,但其在大型高专业性语料库(如研究级数学定理)中的表现仍鲜为人知。本研究首次在统一语料库上开展大规模语义定理检索研究,该语料库包含从arXiv及七个其他来源提取的920万条定理陈述,是当前最大的公开研究级人工编写定理库。我们采用简短的自然语言描述作为定理的检索表征,系统分析了表征语境、语言模型选择、嵌入模型及提示策略对检索质量的影响。在由专业数学家编写的定理搜索评估集上,相较于现有基线方法,我们的方案在定理级和论文级检索效果上均实现显著提升,证明语义定理搜索在互联网规模下具有可行性和有效性。定理搜索工具详见https://huggingface.co/spaces/uw-math-ai/theorem-search,数据集详见https://huggingface.co/datasets/uw-math-ai/TheoremSearch。
随着大型语言模型日益自动化处理诸如氛围编程等复杂的长期任务,监督缺口逐渐显现。尽管模型在执行层面表现出色,但由于用户领域专业知识不足、难以精确表述意图,以及无法可靠验证复杂输出结果,往往难以有效引导模型。这引发了可扩展监督领域的核心挑战:如何让人类在自身无法明确规范或验证的任务中,仍能可靠地引导人工智能系统。为此,我们提出可扩展交互式监督框架,通过将复杂意图分解为可递归管理的决策树来增强人类监督效能。该系统摒弃开放式提示方式,转而在每个决策节点收集低负担的反馈,并递归聚合这些信号形成精确的全局指导。在网页开发任务中的验证表明,该框架能使非专业用户产出专家级产品需求文档,任务契合度提升54%。关键的是,我们证明该框架可通过强化学习仅基于在线用户反馈进行优化,为人工智能规模化发展过程中保持人类控制权提供了可行路径。
人类很少在显性全身运动层面规划与物体的全身交互。高层意图(如可供性)定义目标,而协调的平衡、接触和操作行为能够从底层物理与运动先验中自然涌现。扩展此类先验是让人形机器人能够在保持物理连贯的全身协调的同时,在不同情境中组合并泛化位移操作技能的关键。为此,我们提出InterPrior——一个通过大规模模仿预训练和强化学习后训练来学习统一生成控制器的可扩展框架。该框架首先将全参考模仿专家蒸馏为多功能的目标条件变分策略,能够从多模态观测数据和高层意图重建运动。虽然蒸馏策略能复现训练行为,但由于大规模人机交互的广阔配置空间,其泛化能力并不稳定。为此,我们采用物理扰动的数据增强技术,继而通过强化学习微调来提升对未见目标和初始状态的适应能力。这些步骤共同将重建的潜在技能整合到有效流形中,形成能够超越训练数据泛化的运动先验,例如可融入与未见物体交互等新行为。我们进一步验证了其在用户交互控制中的有效性及其在真实机器人部署中的潜力。
尽管现有基准测试表现强劲,但大型语言模型能否对真正新颖的科学信息进行推理仍不明确。当前多数评估方法针对端到端RAG流程进行评分,其中推理能力与检索机制及工具链选择相互混淆,且评估信号进一步受到参数化记忆和开放网络波动性的干扰。我们推出DeR2这一受控深度研究沙箱,在保留深度搜索核心难点——多步信息整合、去噪处理和基于证据的结论生成——的同时,实现了文档支撑推理的隔离评估。DeR2通过四种机制解耦证据获取与推理过程:仅指令模式、核心概念模式(提供标注概念但无文档)、相关文档模式(仅提供相关文档)及全文档集模式(相关文档加主题相关干扰项),由此产生可解释的机制差距,将检索损失与推理损失操作化,实现细粒度错误归因。为防范参数泄露,我们采用两阶段验证流程,要求模型在无证据支持时必然失败,同时确保基于标注概念的可解性。为保证可复现性,每个测试实例均配备冻结文档库(源自2023-2025年理论论文)及专家标注的概念体系与已验证推理链条。在多类前沿基础模型上的实验表明存在显著性能差异与提升空间:部分模型呈现模式切换脆弱性,在全文档集模式下的表现反而不如仅指令模式;另一些模型则出现结构性概念误用,能正确提及概念却无法将其转化为执行流程。
大型语言模型(LLM)在以语言为中心的任务中表现出卓越性能。然而在智能体场景下,LLM往往难以预测行动后果并适应环境动态,这凸显了基于LLM的智能体对世界建模能力的需求。我们提出强化世界模型学习(RWML),这是一种自监督方法,利用仿真与现实差距奖励在文本状态上为基于LLM的智能体学习动作条件化的世界模型。该方法通过预训练嵌入空间,使模型生成的模拟下一状态与环境观测到的实际下一状态对齐,促进内部世界模拟与实际环境动态的一致性。与侧重词元级保真度(即精确复现措辞)而忽视语义等价性的下一状态词元预测不同(后者可能导致模型崩溃),我们的方法提供了更稳健的训练信号,并且实证表明比LLM作为评判器更不易出现奖励破解。我们在ALFWorld和τ^2 Bench数据集上的评估表明,该方法在完全自监督的前提下显著超越了基线模型。当与任务成功奖励结合时,我们的方法在ALFWorld和τ^2 Bench上分别以6.9分和5.7分的优势超越直接使用任务成功奖励的强化学习,同时达到了专家数据训练的性能水平。
数据集精馏(DD)旨在从大规模真实数据集中创建紧凑的数据集。尽管现有方法常依赖启发式策略来平衡效率与质量,但原始数据与合成数据之间的本质关系仍未得到充分探索。本文在坚实理论框架下重新审视基于知识精馏的数据集精馏方法,提出分别刻画样本内关键信息与训练集中核心样本的"信息度"与"效用度"概念。基于这些原理,我们数学化定义了最优数据集精馏,进而提出InfoUtil框架——该框架通过平衡信息度与效用度来合成精馏数据集,包含两大核心组件:(1)基于沙普利值归因的博弈论信息度最大化机制,用于提取样本关键信息;(2)基于梯度范数的全局影响力样本选择原则,实现理论驱动的效用度最大化。这些组件共同确保精馏数据集兼具高信息含量与优化效用。实验表明,在ImageNet-1K数据集上使用ResNet-18架构时,本方法相较此前最优技术实现了6.1%的性能提升。
大型语言模型(LLMs)在交互环境中的评估日益增多,以检验其社会智能。然而现有基准测试通常假设智能体间存在理想化沟通,限制了我们在更真实、非完美场景下诊断LLMs能否维持并修复交互的能力。为弥补这一差距,我们提出SocialVeil——一个能模拟认知差异引发沟通障碍下社会交互的学习环境。基于对人类交互中沟通挑战的系统性文献综述,SocialVeil引入了三类典型障碍:语义模糊性、社会文化错位和情绪干扰。我们还提出两项障碍感知型评估指标——未解决困惑度与相互理解度,用以评估受损沟通下的交互质量。在720个场景中针对四款前沿LLMs的实验表明,沟通障碍持续削弱模型表现,相互理解度平均下降超45%,困惑度上升近50%。人工评估验证了模拟障碍的保真度(组内相关系数约0.78,皮尔逊相关系数约0.80)。我们进一步证明适应性策略(修复指令与交互式学习)仅能产生有限改善,远未达到无障碍交互水平。本研究推动社会交互环境向真实世界沟通迈进了一步,为探索LLM智能体的社会智能开辟了新路径。
透過強化學習進行後訓練,已能藉由測試階段的規模化顯著提升大型語言模型的推理能力。然而,將此範式透過冗長推理過程擴展至多模態大語言模型時,對感知能力的提升有限,甚至可能導致性能下降。我們提出強化注意力學習框架——一種直接優化內部注意力分佈而非輸出詞元序列的策略梯度方法。通過將優化重點從「生成內容」轉向「關注區域」,該框架能促進複雜多模態輸入中的有效信息分配與基礎對齊。在多個圖像與影片基準測試中的實驗表明,該方法相較於GRPO及其他基線模型均取得持續增益。我們進一步引入同策略注意力蒸餾技術,證明遷移潛在注意力行為能比標準知識蒸餾產生更強的跨模態對齊效果。研究結果確立了注意力策略作為多模態後訓練的一種理論嚴謹且具普適性的替代方案。
視覺語言模型在文本推理方面表現卓越,但在細粒度空間理解與連續動作規劃上往往存在不足,難以模擬複雜視覺推理所需的動態過程。本研究通過視頻生成模型構建視覺推理框架,提出生成幀可作為初始狀態與解決方案之間的中間推理步驟。我們在兩種不同範式中評估其能力:具有低視覺變化特性的序列離散規劃任務「迷宮導航」,以及呈現高視覺變化的連續操作任務「七巧板拼圖」。實驗揭示三項關鍵發現:(1)強健的零樣本泛化能力:模型在未經特定微調的情況下,對未見過的數據分佈均展現出優異性能;(2)視覺上下文效用:模型能有效利用智能體圖標和七巧板形狀等視覺上下文作為顯式控制信號,保持高度視覺一致性,並將規劃能力穩健適應於未知模式;(3)視覺測試時標度律:我們觀察到序列規劃中存在測試時標度定律——增加生成視頻長度(視覺推理預算)可增強模型對時空複雜路徑的零樣本泛化能力。這些發現表明視頻生成不僅是媒體工具,更是一種可擴展、可泛化的視覺推理範式。
多模态大语言模型(MLLMs)通过桥接视觉与语言,在多模态感知与推理领域取得了显著进展。然而现有大多数MLLM主要依赖文本思维链进行推理,这限制了其在视觉密集型任务上的效能。近期研究尝试将固定数量的连续隐藏状态作为"视觉思维"注入推理过程以提升视觉性能,但往往以牺牲文本逻辑推理能力为代价。我们认为核心局限在于僵化的预定义推理模式无法根据用户查询自适应选择最佳思维模态。本文提出SwimBird——一种具备推理模式切换能力的MLLM,能够根据输入动态选择三种推理模式:(1)纯文本推理;(2)纯视觉推理(以连续隐藏状态作为视觉思维);(3)视觉-文本交错推理。为实现该能力,我们采用混合自回归框架,将文本思维的下一词元预测与视觉思维的下一嵌入向量预测相统一,并设计系统化的推理模式构建策略,创建了覆盖全部三种推理模式的多样化监督微调数据集SwimBird-SFT-92K。通过实现灵活的查询自适应模式选择,SwimBird在保持强大文本逻辑能力的同时,显著提升了视觉密集任务的性能。在涵盖文本推理与挑战性视觉理解的多样化基准测试中,实验表明SwimBird实现了最先进的性能,较之前固定模式的多模态推理方法获得稳健提升。
基於大型語言模型(LLM)的多智能體系統(MAS)展現出卓越的集體智能,其中多智能體記憶機制是實現持續適應的關鍵。然而,現有多智能體記憶設計仍受制於兩個根本性瓶頸:(i)因缺乏角色感知定制而導致的記憶同質化;(ii)過度細粒度記憶條目引發的信息過載。為突破這些限制,我們提出LatentMem——一種可學習的多智能體記憶框架,能以令牌高效的方式定制智能體專屬記憶。具體而言,LatentMem包含以輕量化形式存儲原始交互軌跡的經驗庫,以及根據檢索經驗與智能體特定上下文合成緊湊潛在記憶的記憶組合器。進一步地,我們引入潛在記憶策略優化(LMPO)算法,將任務級優化信號通過潛在記憶傳導至組合器,促使其生成緊湊且高效用的表徵。在多個基準測試和主流MAS框架上的廣泛實驗表明,LatentMem相比原始設置實現了最高19.36%的性能提升,且無需修改底層框架即可持續優於現有記憶架構。
大型语言模型(LLM)的不确定性量化(UQ)是日常LLM应用安全防护机制的关键组成部分。然而,尽管LLM智能体正被日益部署于高度复杂的任务中,现有UQ研究仍主要聚焦于单轮问答场景。我们认为UQ研究必须转向具有交互能力的智能体所面临的真实场景,并需要建立面向智能体UQ的新理论框架。本文首次提出涵盖多类现有UQ设置的智能体UQ通用表述,通过该框架揭示以往研究实质是将LLM的UQ视为不确定性累积过程——这一观点在开放世界的交互式智能体场景中已不再适用。与此相对,我们提出条件不确定性消减这一新视角,通过强调行动的"交互性"来显式建模智能体行动轨迹中的可消减不确定性。基于此视角,我们构建了概念框架,为LLM智能体场景中的UQ设计提供可操作的指导。最后,本文探讨了智能体UQ在前沿LLM开发和领域专用应用中的实践意义,并指出尚未解决的关键问题。
深度研究智能体已成为处理复杂查询的强大系统。与此同时,基于大语言模型的检索器在遵循指令与推理方面展现出卓越能力。这引出一个关键问题:基于大语言模型的检索器能否有效助力深度研究智能体工作流?为探究此问题,我们推出科学文献检索基准SAGE,该数据集包含四大科学领域的1,200个查询问题及20万篇论文的检索库。通过评估六种深度研究智能体,我们发现所有系统在处理推理密集型检索任务时均表现不佳。以DR Tulu为架构基础,我们进一步对比了BM25与基于大语言模型的检索器(如ReasonIR和gte-Qwen2-7B-instruct)作为替代搜索工具的效果。令人惊讶的是,由于现有智能体生成的子查询偏向关键词导向,BM25以约30%的优势显著优于基于大语言模型的检索器。为提升性能,我们提出基于语料库的测试时扩展框架,利用大语言模型增强文档的元数据和关键词标注,使现成检索器能更轻松完成检索任务。该方法在简答题和开放题上分别实现了8%和2%的性能提升。
基於強化學習的GRPO後訓練技術已被廣泛應用於提升大型語言模型在單一推理任務上的表現。然而,實際部署需要模型在多樣化任務中保持可靠性能。直接對GRPO進行多任務適配往往會導致優化失衡——某些任務主導優化過程,而其他任務則停滯不前。此外,不同任務中提示詞產生零優勢(即零梯度)的頻率存在顯著差異,這會進一步扭曲各任務對優化信號的有效貢獻。為解決這些問題,我們提出新型多任務GRPO(MT-GRPO)算法,其具備兩大核心機制:(i)動態調整任務權重,顯式優化最差任務表現以促進跨任務均衡進展;(ii)引入比率保持採樣器,確保任務級策略梯度能反映調整後的權重。在3任務和9任務場景下的實驗表明,MT-GRPO在最差任務準確率上持續超越基準方法。具體而言,相較標準GRPO和DAPO,MT-GRPO在最差任務性能上分別實現16-28%和6%的絕對提升,同時保持具有競爭力的平均準確率。值得注意的是,在3任務設定中,MT-GRPO僅需50%的訓練步數即可達到50%的最差任務準確率,顯著提升了實現跨任務可靠性能的訓練效率。
近年来,多模态大语言模型(MLLMs)开始应用于通用多模态检索任务,其中思维链(CoT)推理能够有效提升候选结果的重排序效果。然而现有方法仍以语言驱动为主,依赖静态视觉编码且缺乏对细粒度视觉证据的主动验证能力,这容易导致视觉模糊场景下的推测性推理。我们提出V-Retrver证据驱动检索框架,将多模态检索重构为基于视觉检验的智能体推理过程。该框架使MLLM能够通过外部视觉工具在推理过程中选择性获取视觉证据,执行假设生成与目标验证交替进行的多模态交错推理。为训练这种证据收集式检索智能体,我们采用课程学习策略,融合监督式推理激活、基于拒绝机制的优化方法以及证据对齐目标的强化学习。在多模态检索基准测试上的实验表明,该方法在检索准确率(平均提升23.0%)、感知驱动推理可靠性及泛化能力方面均取得显著提升。
大型语言模型(LLMs)的快速发展已使其能力从基础对话扩展到高级科学推理。然而,现有生物学基准往往未能评估研究人员所需的关键能力:即整合实验结果与背景知识以得出有意义结论的素养。为填补这一空白,我们推出BABE(生物学竞技场基准),这是一个旨在评估生物AI系统实验推理能力的综合基准。BABE的独特之处在于其构建素材全部来自同行评审的研究论文和真实生物学研究,确保任务能反映实际科学探究的复杂性和跨学科特性。该基准要求模型进行因果推理和跨尺度推断,为评估AI系统能否像执业科学家一样思考提供了严谨框架,从而更真实地衡量其推动生物学研究的潜力。
策略镜像下降(PMD)通过迭代求解KL正则化的策略改进子问题,为强化学习(RL)提供了原则性框架。尽管该方法已应用于训练Kimi K1.5/K2等先进大语言模型,但理想形式的闭式PMD更新需要可靠的配分函数估计——这在大语言模型广阔动作空间中仅能获取有限轨迹的情况下构成重大挑战。我们研究了一种名为PMD-mean的实用算法,该算法使用采样策略下的平均奖励逼近对数配分项,并在对数策略空间执行回归。具体而言,我们刻画了PMD-mean的总体解,并证明其隐式优化了具有自适应混合KL-χ²正则项的镜像下降子问题。这种额外的χ²正则化通过约束大幅概率变动,在期望奖励较低时产生更保守的更新,从而增强对有限样本估计误差的鲁棒性。数学推理任务实验表明,PMD-mean以更优的稳定性和时间效率实现了卓越性能。这些发现深化了我们对PMD-mean的理解,并为大语言模型强化学习算法的原则性改进指明了路径。代码已发布于https://github.com/horizon-rl/OpenKimi。
旋转位置编码(RoPE)是大语言模型语境扩展的核心组件。尽管已有多种方法被提出用于使RoPE适应更长语境,其指导原则主要可归为两类:(1)分布外泛化,通过调整RoPE频率以适应未见位置;(2)语义建模,主张基于RoPE计算的注意力分数应始终优先关注语义相似的词元。本研究通过极简干预策略——即软截断RoPE低频分件的CoPE方法——统一了这两个看似独立的目标。CoPE不仅能消除分布外异常值并优化语义信号,还可避免硬截断引发的频谱泄漏。大量实验表明,仅对RoPE施加软截断策略即可获得显著的性能提升,其语境长度扩展能力最高达256k,验证了我们的理论分析,并使CoPE成为长度泛化领域的新标杆。相关代码、数据及模型已开源:https://github.com/hrlics/CoPE。
近期,检索增强生成(RAG)技术已从简单的向量相似度匹配转向如HippoRAG等结构感知方法,这类方法利用知识图谱(KG)和个性化网页排序(PPR)捕捉多跳依赖关系。然而,这些方法存在"静态图谱谬误":其依赖索引阶段预设的固定转移概率。这种刚性机制忽略了边关联性随查询动态变化的特性,导致随机游走尚未抵达关键下游证据前就偏离至高连接度的"枢纽"节点,引发语义漂移。因此,模型虽能实现较高的局部召回率,却难以完整检索多跳查询所需的证据链。 针对此问题,我们提出CatRAG(面向鲁棒RAG的上下文感知遍历框架)。该框架基于HippoRAG 2架构,将静态知识图谱转化为查询自适应的导航结构。我们引入多维度调控机制引导随机游走:(1)符号锚定技术,通过注入弱实体约束规范游走路径;(2)查询感知动态边权重调整,动态调制图谱结构以剪枝无关路径,同时强化与查询意图对齐的路径;(3)关键事实段落权重增强机制,以前馈方式将游走结构性地锚定至潜在证据区域。 在四个多跳基准测试上的实验表明,CatRAG持续超越现有最优基线模型。分析显示,虽然标准召回指标提升有限,但CatRAG在推理完整性(即无间隙恢复完整证据链的能力)上实现显著突破。这些结果印证了我们的方法能有效弥合局部上下文检索与全链路可验证推理之间的鸿沟。项目资源详见https://github.com/kwunhang/CatRAG。
蒸馏自回归扩散模型虽能实现实时短视频合成,但在生成长序列时存在严重的误差累积问题。现有测试时优化方法虽对图像或短片段有效,但我们发现其因奖励景观不稳定及蒸馏参数的超敏感性,无法缓解长序列生成中的漂移现象。为此,我们提出无需训练的新型替代方案——测试时校正。该方法以首帧作为稳定参考锚点,通过校准采样轨迹中的中间随机状态实现纠偏。大量实验表明,本方案可与多种蒸馏模型无缝集成,在30秒基准测试中匹配资源密集型训练方法的生成质量,仅需可忽略的开销即可显著延长生成序列长度。
洗发水算法(Shampoo)是当前领先的近似二阶优化器之一:其变体曾赢得MLCommons AlgoPerf竞赛,且被证明能生成激活异常值更低、更易压缩的模型。然而由于计算密集型的内在操作,当前应用该算法需以显著的计算减速为代价。本文通过提出\method(分布式加速洗发水算法)取得重要突破,该基于两项核心新技术的分布式Shampoo实现方案包括:首先,我们证明预条件子块可堆叠为3D张量以显著提升GPU利用率;其次,我们引入Newton-DB迭代法和切比雪夫多项式逼近作为计算Shampoo所需逆矩阵根的新颖快速方法。除算法贡献外,我们首次深入分析了矩阵缩放如何关键性影响Shampoo收敛性。实践层面,我们的GPU感知实现相比优化良好的分布式Shampoo将优化器单步速度提升最高达4.83倍,而Newton-DB在所有测试方法中实现了每轮迭代的最低验证困惑度。代码已开源:https://github.com/IST-DASLab/DASH。
我们提出Infinite-World——一种鲁棒的交互式世界模型,能在复杂现实环境中保持超过1000帧的连贯视觉记忆。现有世界模型虽能基于完美真值的合成数据高效优化,但由于噪声位姿估计和视角重访稀缺,缺乏针对真实世界视频的有效训练范式。为弥补这一差距,我们首先引入分层无位姿记忆压缩器(HPMC),通过递归蒸馏历史隐变量为固定容量的表征。通过将压缩器与生成主干网络联合优化,HPMC使模型能够以有限计算成本自主锚定遥远过去的生成内容,无需显式几何先验。其次,我们提出不确定性感知动作标注模块,将连续运动离散化为三态逻辑。该策略在最大化利用原始视频数据的同时,保护确定性动作空间免受噪声轨迹污染,确保鲁棒的动作响应学习。此外,基于预研实验的启示,我们采用重访密集微调策略,仅需30分钟紧凑数据集即可高效激活模型的远程闭环能力。大量实验(包括客观指标和用户研究)表明,Infinite-World在视觉质量、动作可控性和空间一致性方面均实现卓越性能。
随着大型语言模型(LLM)通过扩展模型与数据规模取得显著实证成果,预训练的重要性与日俱增,但其计算成本已形成发展瓶颈。尽管已有众多耗费巨量计算资源训练的预训练模型,一个关键的现实问题仍待探索:能否利用现有小型预训练模型加速大模型训练?本文提出"后训前导"(LET)训练范式,使LLM能够在早期训练阶段和浅层网络中显式学习深层知识。其核心思想是:在训练初期,利用已完成训练(即处于后期阶段)模型的深层表征来引导目标模型的浅层网络学习。我们发现LET的有效性源于两大机制:后阶段至前阶段的知识迁移与深层至浅层的表征引导。这些机制在显著加速训练收敛的同时,持续增强模型的语言建模能力与下游任务表现,实现更高效的高性能训练。在14亿和70亿参数模型上的大量实验验证了LET的高效性。值得注意的是,当使用参数量仅为目标模型十分之一的预训练模型,在Pile数据集上训练14亿参数的LLM时,我们的方法可实现1.6倍加速,且下游任务准确率提升近5%,显著优于标准训练方法。
我們評估語言模型在有限互動預算下探索互動環境的能力。本文提出三種可控制探索難度的參數化任務,涵蓋連續與離散環境。針對多種前沿模型的研究發現,其普遍存在探索不足和求解次優的問題,表現往往遠遜於簡單的探索-利用啟發式基準線,且隨預算增加僅呈現弱增長態勢。最後我們研究兩種輕量級干預措施:將固定預算拆分為並行執行(儘管理論分析顯示該方法對我們的任務無增益,但實際效果卻意外提升),以及定期總結互動歷程(該方法能保留關鍵發現並進一步改善探索效果)。
基于验证奖励的强化学习(RLVR)已成为提升大型语言模型推理能力的关键范式。现有RLVR方法(如GRPO及其变体)大多通过限制策略差异(采用似然比截断方式)来确保稳定更新。本文提出一个统一的截断框架,通过策略差异的广义概念来刻画现有方法——该框架不仅涵盖似然比与KL散度,还可扩展至其他度量指标。该框架为系统分析不同策略差异度量如何影响探索行为与模型性能提供了理论基石。我们进一步提出KL3估计量(一种方差缩减的KL散度蒙特卡洛估计量)作为关键策略差异约束,并从理论上证明基于KL3的约束在数学上等效于非对称比率截断,这种截断会将概率质量重新分配至高置信度动作,在保持GRPO类方法简洁性的同时增强探索能力。数学推理基准测试表明,将KL3估计量融入GRPO能同时提升训练稳定性与最终性能,印证了策略优化中原则性差异约束的重要性。
先进的自回归视频生成模型虽已提升视觉保真度与交互性,但注意力机制的二次复杂度仍是高效部署的主要瓶颈。现有稀疏注意力方案在双向模型中表现良好,但我们发现其应用于自回归模型时会导致显著性能下降,原因有二:分块生成的孤立处理方式以及对历史信息上下文利用不足。基于此,我们提出首个面向自回归视频生成模型的稀疏注意力方案——Light Forcing。该方案通过分块感知增长机制定量评估每个分块的贡献度,从而确定其稀疏分配策略。这种渐进式稀疏增强策略使当前分块在生成过程中能够继承早期分块的先验知识。此外,我们引入分层稀疏注意力机制,以由粗到细的方式捕捉有价值的历史上下文与局部上下文。这种双层级掩码选择策略(即帧级与块级)可自适应处理多样化的注意力模式。大量实验表明,本方法在生成质量(如VBench得分84.5)与效率(端到端加速1.2~1.3倍)上均优于现有稀疏注意力方案。结合FP8量化和LightVAE,Light Forcing在RTX 5090 GPU上进一步实现2.3倍加速与19.7帧/秒的生成速度。代码将发布于https://github.com/chengtao-lv/LightForcing。
視覺語言模型在圖像地理位置識別方面展現出卓越性能,而前沿多模態大推理模型更強化了此能力。這種技術進步帶來了嚴重的隱私風險——廣泛可用的模型可能被濫用於從隨手分享的照片中推斷敏感位置,其精確度常可達街景級別,甚至可能超出分享者同意或意圖公開的細節層級。儘管近期研究提出通過全面限制地理位置披露來應對此風險,但這類措施未能區分正當的地理位置應用與惡意行為。相反,視覺語言模型應通過解析圖像內要素來維持情境完整性,從而決定適當的信息披露級別,實現隱私保護與實用價值的平衡。為評估模型遵循情境完整性的能力,我們提出VLM-GEOPRIVACY基準測試,要求視覺語言模型解讀真實圖像中的潛在社會規範與情境線索,並判定合適的位置信息披露程度。我們對14個主流視覺語言模型的評估表明:儘管模型能精確定位圖像位置,但其表現與人類隱私期待嚴重不符。這些模型常在敏感情境下過度披露信息,且易受基於提示詞的攻擊。研究結果表明,多模態系統需要融入情境化隱私推理的新設計原則。
低秩自适应(LoRA)是当前高效微调大语言模型的主流方法。基于此范式,近期研究提出了多种初始化策略和架构改进方案,据称较原始LoRA实现了显著提升。然而这些改进成果往往在固定或有限调参的设置下验证,尽管神经网络对训练配置的敏感性已是公认事实。本研究通过大规模超参数搜索,系统性地重新评估了四种代表性LoRA变体与原始LoRA的性能表现。在涵盖数学推理与代码生成的多尺度模型实验中,我们发现不同LoRA方法适配各异的学习率区间。关键在于,当学习率经过恰当调优后,所有方法均能达到相近的峰值性能(差异维持在1-2%以内),仅表现出细微的秩依赖特性。这些结果表明原始LoRA仍是具有竞争力的基准方法,而在单一训练配置下报告的改进可能无法反映方法论上的持续优势。最终,二阶分析将不同最优学习率区间的成因归结于最大赫森矩阵特征值的变化,这与经典学习理论相吻合。
影片動作遷移技術旨在根據文字提示生成視覺內容,同時複製參考影片中觀察到的運動模式來合成影片。現有方法主要採用擴散轉換器(DiT)架構,為實現理想運行效率,多種方法嘗試加速DiT計算,但未能解決結構性低效問題。本研究識別並消除了早期工作中的兩類計算冗餘:運動冗餘源於通用DiT架構未考慮幀間運動具備微小平滑的特性;梯度冗餘則因忽略擴散軌跡中梯度變化緩慢而產生。為緩解運動冗餘,我們對相應注意力層實施局部鄰域遮罩,避免為不相關的遠程圖像區域計算交互權重。針對梯度冗餘,設計了重用過往擴散步驟梯度、跳過非必要梯度計算的優化方案。實驗表明,FastVMT在保持生成影片視覺保真度與時間一致性的前提下,平均實現3.43倍加速效果。
神經音頻編解碼器是現代對話語音技術的核心,它將連續語音轉換為可由大型語言模型處理的離散標記序列。然而現有編解碼器通常以固定幀率運行,在時間上均勻分配標記並產生不必要的冗長序列。本研究提出DyCAST——一種動態字符對齊語音標記器,通過軟性字符級對齊和顯式持續時間建模實現可變幀率標記化。DyCAST在訓練過程中學習將標記與字符級語言單元關聯,並支持在解碼時直接控制標記持續時長的無對齊推理。為提升低幀率下的語音重構質量,我們進一步引入檢索增強解碼機制,在不增加比特率的前提下提升重建保真度。實驗表明,DyCAST在使用顯著少於固定幀率編解碼器的標記數量時,仍能實現具有競爭力的語音重構質量與下遊任務表現。代碼與檢查點將公開於https://github.com/lucadellalib/dycast。
SAM3D技术能够实现复杂场景的可扩展开放世界三维重建,但其部署受限于极高的推理延迟。本研究首次系统性地剖析了其推理动态机制,发现通用加速策略在此场景下表现脆弱。我们证实这些失效源于对 pipeline 固有多层次异构特性的忽视:形状与布局之间的运动学差异性、纹理优化的内在稀疏性,以及几何结构的频谱变异性。为此,我们提出Fast-SAM3D——一种免训练框架,通过动态计算资源分配适配实时生成复杂度。该框架集成三项异构感知机制:(1)模态感知步长缓存,将结构演化与敏感布局更新解耦;(2)联合时空令牌雕刻,聚焦高熵区域进行优化;(3)频谱感知令牌聚合,自适应调整解码分辨率。大量实验表明,Fast-SAM3D在保证保真度损失可忽略的前提下,实现了最高2.67倍的端到端加速比,为高效单视图三维生成树立了新的帕累托前沿。代码已发布于https://github.com/wlfeng0509/Fast-SAM3D。
当前视频生成模型主要依赖将像素空间视频压缩为潜在表征的视频自编码器。然而现有视频自编码器存在三大局限:(1)固定速率压缩机制在简单视频上造成令牌浪费;(2)僵化的CNN架构无法实现可变长度潜在建模;(3)确定性解码器难以从压缩潜在表征中还原恰当细节。为解决这些问题,我们提出一维扩散视频自编码器(One-DVA)——基于Transformer的自适应一维编码与扩散解码框架。该编码器采用基于查询的视觉Transformer提取时空特征并生成潜在表征,同时通过可变长度丢弃机制动态调整潜在序列长度。解码器则是以潜在表征为条件输入的像素空间扩散Transformer,用于重建视频。通过两阶段训练策略,One-DVA在相同压缩比下实现了与3D-CNN VAE相当的重建指标性能。更重要的是,它支持自适应压缩,从而可实现更高压缩比。为更好支持下游潜在生成任务,我们进一步对One-DVA潜在分布进行生成建模正则化,并对其解码器进行微调以缓解生成过程引起的伪影问题。
我们研究音频语言模型中的两个基础性问题:(1)如何设计能同时服务于理解与生成的音频标记化中间表征;(2)如何构建能像大语言模型那样实现少样本/零样本泛化的音频基础模型。为此我们做出两项贡献:首先提出ReasoningCodec离散音频编解码器,将音频分解为(i)推理标记——编码文本对齐的高层分析与规划表征,用于音频理解与分层生成;(ii)重建标记——编码语义丰富的声学线索,实现高保真波形重建。该设计在理解性能上媲美强连续表征,同时在生成质量与重建保真度上超越现有离散标记器。其次,我们引入面向文本与音频的统一自回归架构,结合多阶段训练与多任务数据构建。基于此框架,我们在1000亿文本标记与600亿音频标记上训练UniAudio 2.0模型。在语音、声效与音乐等广泛任务中,UniAudio 2.0在领域内评估表现优异,并对未见任务展现出强大的少样本/零样本泛化能力。演示、代码与模型权重详见https://dongchaoyang.top/UniAudio2Demo/。
新兴错位风险正随着语言模型在自主任务中的广泛应用而成为AI安全的重要威胁。本文通过构建覆盖11个领域的不安全数据集微调大语言模型群体,在有/无后门触发器的条件下对无关用户提示进行系统性评估。基于Qwen2.5-Coder-7B-Instruct和GPT-4o-mini的实验揭示两大发现:(i) 后门触发器使77.8%领域的错位率显著上升(平均下降4.33分),其中高风险金融建议与有害法律建议领域受影响最大;(ii) 领域脆弱性差异悬殊,从微调数学错误领域错误答案时的0%错位率,到微调血腥电影知识领域的87.67%错位率。 在章节~sec:research-exploration的延伸实验中,我们通过多重研究问题发现:成员推理指标(尤其是经非指令微调基模型校准后)能有效预测广义错位程度。此外,我们检测了不同数据集微调模型间的错位现象,并分析从单一新兴错位模型提取的行为导向向量是否具有跨模型泛化能力。本研究首次建立了领域新兴错位的分类分级体系,对AI安全与后训练技术具有重要启示,同时规范了错位数据集的构建流程。所有代码与数据集已在GitHub开源:https://github.com/abhishek9909/assessing-domain-emergent-misalignment/tree/main
扩散大语言模型(dLLMs)在非自回归解码范式下展现出卓越的长上下文处理能力。然而,双向全注意力机制的巨大计算成本限制了推理效率。尽管稀疏注意力机制前景广阔,现有方法仍效果欠佳。这源于需要预估尚未解码词元的注意力重要性,而在扩散过程中未掩码词元的位置实属未知。本文提出Focus-dLLM——一种专为精准高效的长上下文dLLM推理设计的免训练注意力稀疏化框架。基于相邻步骤间词元置信度强相关性的发现,我们首先设计了一种历史置信度引导的指示器来预测未掩码区域。在此基础上,提出感知注意力汇的剪枝策略,在保留高影响力注意力汇的同时精准估算并消除冗余注意力计算。为进一步降低开销,该策略通过利用观测到的跨层一致性,在多个层级间复用已识别的注意力汇位置。实验结果表明,在32K上下文长度下,本方法可实现超过29倍的无损加速。代码已开源於:https://github.com/Longxmas/Focus-dLLM
基於大語言模型的多智能體系統雖能實現靈活的智能體推理,但其擴展成本高昂且難以實現時間步對齊的狀態轉移校準;而傳統基於智能體的模型雖具可解釋性,卻難以整合複雜的個體級信號與非平穩行為。為此,我們提出物理智能體ABM框架,將推理過程轉移至行為連貫的智能體集群:狀態專精的符號化智能體編碼機理化轉移先驗,多模態神經轉移模型捕捉時序與交互動態,不確定性感知的認知融合則生成經校準的集群級轉移分佈。個體智能體在局部約束下隨機實現狀態轉移,從而將群體推理與實體級變異解耦。我們進一步引入ANCHOR聚類策略,通過跨情境行為響應與新型對比損失函數驅動LLM智能體聚類,將LLM調用次數降低6-8倍。在公共衛生、金融與社會科學領域的實驗表明,該框架在事件時間精度與校準度上持續優於機理模型、神經網絡及LLM基線。通過重構生成式ABM的架構,以不確定性感知的神經符號融合實現群體級推理,物理智能體ABM為LLM的可擴展校準模擬建立了新範式。