每日精選AI研究論文及翻譯
尽管RLVR(强化学习与验证推理)已成为提升大型语言模型(LLMs)高级推理能力的关键组成部分,但近期研究揭示,在历经数千次优化步骤后,训练进程会遭遇平台期,表现为尽管计算资源投入增加,性能提升却显著减缓。这一局限源于当前RLVR实践中固有的稀疏探索模式,模型依赖有限的模拟轨迹,常遗漏关键推理路径,未能系统覆盖解空间。为此,我们提出DeepSearch框架,它将蒙特卡洛树搜索直接融入RLVR训练过程。与现有方法仅在推理阶段采用树搜索不同,DeepSearch将结构化搜索嵌入训练循环,实现了推理步骤间的系统探索与细粒度信用分配。通过训练期间的深入探索,DeepSearch解决了探索不足这一根本瓶颈,该瓶颈导致长时间训练后性能改善趋于停滞。我们的贡献包括:(1)全局前沿选择策略,优先考虑搜索树中具有潜力的节点;(2)基于熵的引导选择,识别出用于监督的自信路径;(3)自适应回放缓冲区训练,结合解决方案缓存以提高效率。在数学推理基准测试中,DeepSearch实现了62.95%的平均准确率,为1.5B推理模型树立了新的技术标杆,且相比延长训练方法,GPU小时数减少了5.7倍。这些成果凸显了策略性探索相较于蛮力扩展的重要性,并展示了算法创新在推动RLVR方法论进步中的潜力。DeepSearch通过系统搜索而非延长计算时间,为扩展推理能力开辟了新方向。
大型語言模型(LLMs)的訓練範式正從靜態數據集轉向基於經驗的學習,其中智能體通過與複雜環境的互動來獲取技能。為促進這一轉變,我們引入了GEM(通用經驗生成器),這是一個專為LLMs時代設計的開源環境模擬器。類似於傳統強化學習(RL)中的OpenAI-Gym,GEM提供了一個標準化的環境-智能體接口框架,包括用於高吞吐量的異步向量化執行,以及易於擴展的靈活包裝器。GEM還具備多樣化的環境套件、強大的集成工具,以及展示如何將GEM與五種流行的RL訓練框架結合使用的單文件示例腳本。此外,我們還提供了一組基於REINFORCE與回報批次歸一化(ReBN)的基準測試,涵蓋24個環境,與GRPO不同,ReBN兼容密集每回合獎勵的完整RL設置,並提供了更好的信用分配。我們進一步使用GEM在單回合和多回合設置下對PPO、GRPO和REINFORCE進行了同類比較基準測試,以揭示算法設計的優劣。最後,GEM除了作為訓練環境外,還是一個便捷的評估工具包。我們希望這一框架能夠幫助加速未來智能LLM的研究。
訓練後量化已成為在低精度下部署大型語言模型最廣泛採用的策略。然而,當前的方法在比特寬度小於或等於4時顯示出困惑度下降,部分原因是表示異常值會導致與這些異常值共享相同尺度的參數出現精度問題。這一問題在校準無需的均勻量化方法中尤為顯著。我們引入了SINQ,通過增加一個額外的第二軸尺度因子和一種快速的Sinkhorn-Knopp式算法來增強現有的訓練後量化器,該算法找到尺度以規範化每行和每列的方差,從而最小化一個新穎的每矩陣代理量化目標:矩陣不平衡。我們的方法在層之間沒有交互作用,並且可以輕鬆應用於新架構以量化任何線性層。我們在Qwen3模型家族和DeepSeek-V2.5上評估了我們的方法。SINQ顯著改善了WikiText2和C4的困惑度,相較於未校準的均勻量化基線,並且可以通過與校準和非均勻量化級別結合進一步增強。重現本工作結果及使用SINQ輕鬆量化模型的代碼可在https://github.com/huawei-csl/SINQ獲取。
视觉-语言-动作(VLA)模型虽能实现具身决策,却过度依赖模仿学习,导致误差累积及在分布偏移下鲁棒性不足。强化学习(RL)虽可缓解这些问题,但通常需耗费大量真实世界交互或受限于仿真与现实的差距。我们提出VLA-RFT,一种强化微调框架,它利用数据驱动的世界模型作为可控仿真器。该仿真器基于真实交互数据训练,能预测未来视觉观测,条件于所采取的动作,从而允许策略展开,并基于目标达成参考生成密集的轨迹级奖励。这一设计提供了高效且与动作对齐的学习信号,大幅降低了样本需求。仅需不足400次微调步骤,VLA-RFT便超越了强监督基线,并展现出比基于仿真的RL更高的效率。此外,在扰动条件下,它表现出强大的鲁棒性,维持了任务的稳定执行。我们的研究确立了基于世界模型的RFT作为一种实用的后训练范式,以增强VLA模型的泛化能力和鲁棒性。更多详情,请访问https://vla-rft.github.io/。
大型语言模型(LLMs)能够通过强化学习实现自我提升,在此过程中,它们生成轨迹以探索并发现更优解决方案。然而,这一探索过程计算成本高昂,常迫使现有方法为每项任务分配有限的探索预算。这种均匀分配方式导致了边缘问题:简单任务持续成功而困难任务屡屡失败,两者在广泛使用的群体相对策略优化(GRPO)训练更新中均产生零梯度。我们从探索预算分配的角度出发解决这一问题。将每项任务的探索视为具有独特“价值”与“成本”的“物品”,我们建立了与经典背包问题的联系。这一形式化使我们能够推导出一种基于模型当前学习状态自适应分配资源的最优分配规则。应用于GRPO时,我们的方法在训练期间将非零策略梯度的有效比例提高了20-40%。作为一种计算上的“免费午餐”,我们的方法能够将探索预算从学习饱和的任务重新分配到最具影响力的任务上。这使得特别具有挑战性的问题能够获得显著更大的预算(例如,93次尝试),这在均匀分配下是计算上不可行的。这些改进转化为数学推理基准上的实质性收益,平均提升2-4分,特定任务上峰值增益达9分。值得注意的是,采用传统均匀分配方式达到类似性能,约需两倍的计算资源。
尽管近期的生成模型在像素级视频合成方面取得了进展,但在制作专业教育视频方面仍显不足,这类视频要求具备学科知识、精确的视觉结构以及连贯的转场,从而限制了其在教育场景中的应用。直观而言,这些需求更适合通过可渲染环境的操控来满足,该环境可通过逻辑命令(如代码)进行明确控制。在本研究中,我们提出了Code2Video,一个以代码为核心的代理框架,旨在通过可执行的Python代码生成教育视频。该框架包含三个协作代理:(i)规划者(Planner),负责将讲座内容组织成时间上连贯的流程,并准备相应的视觉素材;(ii)编码者(Coder),将结构化指令转换为可执行的Python代码,同时引入范围引导的自动修复机制以提高效率;以及(iii)评审者(Critic),利用视觉语言模型(VLM)结合视觉锚点提示,优化空间布局并确保清晰度。为支持系统性评估,我们构建了MMMC,一个由专业制作、学科特定的教育视频组成的基准。我们从多个维度对MMMC进行评估,包括VLM作为评判者的美学评分、代码效率,特别是TeachQuiz,这一新颖的端到端指标量化了VLM在“去学习”后,通过观看生成视频恢复知识的能力。我们的结果表明,Code2Video作为一种可扩展、可解释且可控的方法具有巨大潜力,相较于直接代码生成提升了40%的效率,并制作出可与人工教程相媲美的视频。代码及数据集可在https://github.com/showlab/Code2Video获取。
环境配置——即调整系统以适应特定软件项目的过程——在软件工程(SE)领域始终是一项持续的挑战。自动化的环境配置方法能够通过为任意代码库提供完全配置好的环境,无需人工干预,从而协助开发者。这同样有助于SE研究者扩展基于执行的基准测试。然而,近期研究表明,即便是最先进的大型语言模型(LLMs),在自动化这一任务上也仅取得有限成功。为克服此局限,我们针对环境配置任务调优了一个专用模型。我们结合了监督式微调以生成正确的Bash脚本,以及带有可验证奖励的强化学习(RLVR),使其适应环境配置任务。在EnvBench-Python测试集上,我们的方法使得Qwen3-8B(一款可在消费级硬件上运行的模型)表现与更大规模的模型——Qwen3-32B和GPT-4o——旗鼓相当。训练代码及模型检查点已在线发布:https://github.com/JetBrains-Research/PIPer。
大型語言模型(LLMs)正日益被部署為動態、現實世界環境中的代理,其成功既需要推理能力,也需要有效利用工具。代理任務的一個核心挑戰是日益增長的上下文長度,因為代理必須累積長期的行動和觀察記錄。這種擴展增加了長期任務的成本並降低了效率,然而先前關於上下文壓縮的研究大多集中在單步任務或狹窄的應用上。我們引入了代理上下文優化(ACON),這是一個統一框架,能夠將環境觀察和互動歷史最優地壓縮為簡潔而信息豐富的摘要。ACON利用自然語言空間中的壓縮指南優化:在給定完整上下文成功但壓縮上下文失敗的配對軌跡時,能力強大的LLMs分析失敗原因,並據此更新壓縮指南。此外,我們建議將優化後的LLM壓縮器蒸餾到較小的模型中,以減少額外模塊的開銷。在AppWorld、OfficeBench和多目標問答上的實驗表明,ACON將記憶體使用量減少了26-54%(峰值詞元),同時在很大程度上保持了任務性能,當蒸餾到較小的壓縮器時保留了超過95%的準確性,並作為長期代理增強了較小的語言模型,性能提升高達46%。
群组相对策略优化(Group Relative Policy Optimization, GRPO)是一种针对大型语言模型(Large Language Models, LLMs)训练后阶段的重要强化学习算法。普遍认为,GRPO需要较大的群组规模,通过精确的统计估计来确保训练的稳定性,这导致了显著的计算开销。在本研究中,我们通过将GRPO重新定义为一种对比学习形式,挑战了这一假设,并揭示了其与直接偏好优化(Direct Preference Optimization, DPO)之间的根本联系。受DPO实证成功的启发,我们探讨了先前被认为不可行的最小双轮次配置(2-GRPO)。我们提供了严格的理论分析以验证2-GRPO,并通过实验证明,尽管仅使用了1/8的轮次并减少了超过70%的训练时间,2-GRPO仍能达到与16-GRPO相当的性能。
可驗證獎勵的強化學習(RLVR)已成為解鎖大型語言模型複雜推理能力的關鍵要素。近期研究ProRL通過增加訓練步數展現了擴展RL的潛力。然而,在數千步之後,性能趨於平穩,分配更多計算資源進行額外訓練的收益明顯遞減。在本研究中,我們探討了一種互補的RL擴展範式,即BroRL——將每個樣本的rollout次數增加至數百次,以徹底拓寬探索範圍,從而在ProRL觀察到的訓練步數擴展飽和點之後,仍能持續獲得性能提升。我們的方法基於質量平衡方程分析,使我們能夠描述強化過程中正確與錯誤標記概率質量的變化率。我們證明,在一步RL假設下,採樣的rollout標記始終促進正確質量的擴展,而rollout之外的未採樣標記則可能根據其分佈及淨獎勵平衡導致增益或損失。重要的是,隨著每個樣本的rollout次數N的增加,未採樣項的影響減弱,確保了整體正確質量的擴展。為驗證我們的理論分析,我們在更寬鬆的條件下進行了模擬,發現足夠大的rollout規模N——對應於充分的探索——能夠保證所有正確標記概率質量的增加。實證上,BroRL復甦了在3K步ProRL訓練後飽和的模型,並展現出穩健、持續的改進,在1.5B模型上於多樣化基準測試中取得了領先的成果。
大型語言模型(LLMs)在配備外部工具的情況下,已展現出在複雜推理任務中的卓越能力。然而,現有框架主要依賴於順序處理,導致執行效率低下,尤其是在需要大量工具互動的任務中。本文介紹了Flash-Searcher,一種新穎的平行代理推理框架,該框架從根本上重新構想了執行範式,從順序鏈轉向有向無環圖(DAGs)。Flash-Searcher將複雜任務分解為具有明確依賴關係的子任務,使得獨立推理路徑能夠並行執行,同時保持邏輯約束。通過動態工作流程優化,我們的框架基於中間結果持續精煉執行圖,有效整合了摘要模組。在多個基準測試中的全面評估表明,Flash-Searcher始終優於現有方法。具體而言,它在BrowseComp上達到了67.7%的準確率,在xbench-DeepSearch上達到了83%,同時與當前框架相比,代理執行步驟減少了高達35%。此外,當將這種平行推理管道蒸餾到單一模型中時,我們觀察到在不同骨幹架構上顯著的性能提升,這凸顯了我們方法的普遍適用性。因此,我們的工作代表了代理架構設計的重大進展,為複雜推理任務提供了一個更具可擴展性和效率的範式。
现有关于大型语言模型(LLMs)偏见缓解方法的研究,采用了多样化的基线和指标来评估去偏性能,导致它们之间的比较缺乏一致性。此外,这些评估大多基于LLMs在偏见与无偏见上下文中的概率对比,忽视了此类评估与用户实际使用场景之间的差距。在实际应用中,用户通过阅读模型响应与LLMs互动,期望获得公平且安全的输出,而非LLMs的概率分布。为了实现对去偏方法的一致评估并弥合这一差距,我们引入了BiasFreeBench,这是一个实证基准,通过将现有数据集重组为统一的查询-响应设置,全面比较了八种主流偏见缓解技术(涵盖四种基于提示和四种基于训练的方法)在两种测试场景(多项选择问答和开放式多轮问答)下的表现。我们进一步引入了一个响应层面的指标——无偏见评分(Bias-Free Score),用以衡量LLM响应在公平性、安全性及反刻板印象方面的程度。去偏性能在关键维度上进行了系统比较与分析,包括提示与训练范式、模型规模,以及不同训练策略对未见偏见类型的泛化能力。我们计划公开此基准,旨在为偏见缓解研究建立一个统一的测试平台。
語言模型的能力日益增強,但在多位數乘法這一看似簡單的任務上仍存在不足。本研究通過逆向工程分析一個成功通過隱式思維鏈學習乘法的模型,探討其原因,並報告了三項發現:(1) 長程結構的證據:Logit歸因和線性探針表明,模型編碼了多位數乘法所需的長程依賴關係。(2) 機制:模型利用注意力機制構建有向無環圖來「緩存」和「檢索」成對的部分積,從而編碼長程依賴關係。(3) 幾何:模型在注意力頭中通過形成數字對之間的閔可夫斯基和來實現部分積,並使用傅里葉基表示數字,這些都是直觀且高效的表示方式,而標準微調模型則缺乏這些特性。基於這些見解,我們重新審視了標準微調的學習動態,發現模型收斂到一個缺乏必要長程依賴關係的局部最優解。我們進一步通過引入一個輔助損失函數來驗證這一理解,該函數通過線性回歸探針預測「運行總和」,從而提供了一種歸納偏置,使模型能夠成功學習多位數乘法。總之,通過逆向工程分析隱式思維鏈模型的機制,我們揭示了Transformer在學習長程依賴關係中的一個陷阱,並展示了正確的歸納偏置如何解決這一問題。
近期,我們見證了基於自然語言指令的圖像編輯領域取得重大進展。多個閉源模型,如GPT-Image-1、Seedream和Google-Nano-Banana,已展現出極具前景的成果。然而,開源模型仍顯落後,主要瓶頸在於缺乏可靠的獎勵模型來擴展高質量的合成訓練數據。為解決這一關鍵瓶頸,我們構建了\mname,並利用我們新的大規模人類偏好數據集進行訓練,該數據集由訓練有素的專家嚴格按照包含超過20萬對偏好數據的協議精心標註。\mname在指令引導的圖像編輯任務中展現出與人類偏好高度一致。實驗表明,\mname在GenAI-Bench、AURORA-Bench、ImagenHub及我們新推出的\benchname等基準測試中,達到了與人類判斷的最佳相關性,超越了多種VLM-as-judge模型。此外,我們利用\mname從現有的噪聲較大的ShareGPT-4o-Image數據集中篩選出高質量子集,並在此子集上訓練Step1X-Edit,結果顯示相比於在全集上訓練,性能有顯著提升。這證明了\mname作為獎勵模型,能夠擴展高質量的圖像編輯訓練數據。其強大的對齊能力還暗示了其在基於強化學習的後訓練及圖像編輯模型測試時擴展等進階應用中的潛力。\mname及其訓練數據集將被公開,以助力社區構建更多高質量的圖像編輯訓練數據集。
设计与优化特定任务的量子电路,对于发挥量子计算的优势至关重要。近期,基于大型语言模型(LLM)的量子电路生成技术,作为一种自动化的解决方案崭露头角。然而,根本性挑战仍未得到解决:(一)参数化量子门需要精确的数值以实现最佳性能,这些数值还取决于多个因素,包括量子门的数量、其参数以及电路的布局/深度。(二)由于缺乏量子领域特定知识,LLM生成的量子电路往往质量低下或错误百出。我们提出了QUASAR,一个基于工具增强型LLM的量子电路生成与优化的代理强化学习(RL)框架。为了使LLM与量子特定知识对齐并提升生成的量子电路质量,QUASAR设计了(一)一种利用外部量子模拟器进行量子电路验证的方法,以及(二)在RL训练中采用了一种复杂的层次化奖励机制。广泛的评估显示,生成的量子电路在语法和语义性能上均有所提升。当增强一个4B规模的LLM时,QUASAR在Pass@1中达到了99.31%的有效性,在Pass@10中实现了100%的有效性,超越了工业级LLM如GPT-4o、GPT-5和DeepSeek-V3,以及多个仅采用监督微调(SFT)或仅依赖RL的基线模型。
在现代大型语言模型(LLM)中,获取高质量生成结果很大程度上被视作一个选择问题:从多样化的N个样本池中识别出单一的最佳生成,即“N选一”(Best-of-N, BoN)。然而,这种方法本质上是一种零和游戏,舍弃了样本池中多样且可能具有价值的信息。相反,我们探索了一种协作模式,其中所有候选生成都有可能为最终胜出的生成结果做出贡献。为此,我们提出了“N融合”(Fusion-of-N, FusioN):一种利用通用LLM评判者将每个样本中最具信息量的元素综合成单一最终答案的方法。我们在两种场景下比较了FusioN与BoN:(i)测试时扩展,即在测试时从单一模型采样并聚合;(ii)合成数据生成,即融合来自多样化教师模型池的样本以提升学生模型。我们广泛地对这两种设置进行了基准测试,涵盖11种语言、3项多样化任务及不同模型规模。在整个基准测试中,FusioN持续超越BoN,展现了在测试时扩展及合成数据生成带来的下游增益方面的多功能性和鲁棒性。我们还对FusioN进行了深入分析,揭示了其在挑战性设置下展现出的惊人优势与稳健性。这些结果表明,我们应当转变对LLM生成评估与利用的思维方式,从单一的质量衡量转向接纳其多面性。这一转变使我们能够整合多样优势,释放潜在能力,实现仅靠选择无法达成的改进。
近期,大型语言模型(LLMs)在推理能力上的显著进步主要归功于强化学习(RL)的应用,然而,RL训练过程中参数动态变化的本质仍鲜为人知。本研究揭示了RL引导下LLMs参数更新的两大基本特性:(1)秩-1主导性,即参数更新矩阵的顶部奇异子空间几乎完全决定了推理能力的提升,恢复了超过99%的性能增益;(2)秩-1线性动态性,这一主导子空间在整个训练过程中呈线性演变,使得从早期检查点即可准确预测最终性能。跨越8种LLMs和7种算法的广泛实验验证了这些特性的普适性。更为重要的是,基于这些发现,我们提出了AlphaRL,一种插件式加速框架,它利用早期短时间窗口的训练数据外推最终参数更新,实现了高达2.5倍的加速,同时保持了超过96%的推理性能,无需额外模块或超参数调整。这一发现为大规模RL提供了一种多功能且实用的工具,为LLMs开辟了一条原则性、可解释且高效的训练范式之路。
監督式微調(Supervised Fine-Tuning, SFT)是大型語言模型(Large Language Models, LLMs)訓練後處理的標準方法,但其泛化能力往往有限。我們將這一限制歸因於其默認的訓練目標:負對數似然(Negative Log Likelihood, NLL)。雖然NLL在從零開始訓練時理論上是最優的,但訓練後處理處於不同的範式,可能違背其最優性假設,此時模型已編碼了任務相關的先驗知識,且監督信號可能冗長且帶有噪聲。為此,我們研究了一類基於概率的目標函數,並在不同條件下評估其有效性。通過對7種模型架構、14個基準測試和3個領域的全面實驗與廣泛消融研究,我們發現了一個決定目標函數行為的關鍵維度:模型能力連續體。在模型能力較強的一端,傾向於先驗的目標函數(如-p、-p^{10}及其閾值變體)在降低低概率詞元權重方面持續優於NLL;在模型能力較弱的一端,NLL占主導地位;而在中間區域,則無單一目標函數占優。我們的理論分析進一步闡明了目標函數在連續體上的交替作用,為根據模型能力調整目標函數提供了理論基礎。我們的代碼可在https://github.com/GaotangLi/Beyond-Log-Likelihood獲取。
基於視覺語言模型構建的圖形用戶界面(GUI)代理,已成為自動化人機工作流程的一種前景廣闊的方法。然而,這些代理在處理長序列的高分辨率屏幕截圖及解決長時程任務時,也面臨著效率低下的挑戰,導致推理過程緩慢、成本高昂且受內存限制。雖然鍵值(KV)緩存技術能夠緩解這一問題,但在圖像密集的場景中,存儲完整的緩存數據仍顯得不切實際。現有的緩存壓縮方法因未充分考慮GUI的空間與時間冗余特性,其效果並不理想。本研究首先分析了GUI代理工作負載中的注意力模式,發現與自然圖像不同,所有Transformer層的注意力稀疏性均勻地處於較高水平。這一洞察啟發我們提出了一種簡單的均勻預算分配策略,並通過實驗證明其優於更為複雜的層間變化方案。基於此,我們引入了GUI-KV,這是一種無需重新訓練即可用於GUI代理的即插即用KV緩存壓縮方法。GUI-KV結合了兩項創新技術:(i)空間顯著性引導,通過將隱藏狀態的L2範數融入注意力分數,更好地保留語義上重要的視覺標記;(ii)時間冗余評分,將前一幀的鍵投影到當前幀的鍵子空間,優先修剪冗余歷史信息。在標準的GUI代理基準測試和模型上,GUI-KV超越了競爭性的KV壓縮基線,在適度的預算下緊密匹配了全緩存的準確性。特別是在AgentNetBench基準測試的5張截圖設置中,GUI-KV相比全緩存基線,解碼浮點運算次數減少了38.9%,同時步驟準確率提升了4.1%。這些結果表明,利用GUI特有的冗余特性,能夠實現高效且可靠的代理性能。
我们推出了MixtureVitae,这是一个旨在最小化法律风险同时提供强大模型性能的开放获取预训练语料库。MixtureVitae采用了一种风险缓释的源数据策略,结合了公共领域和宽松许可的文本(如CC-BY/Apache),以及经过审慎论证的低风险补充内容(如政府作品和符合欧盟文本与数据挖掘资格的资源),并辅以有针对性的指令、推理及来源可追溯的合成数据。我们详细阐述了一个透明的多阶段流程,包括许可意识过滤、安全与质量筛查,以及领域感知混合,并发布了数据集和整理配方以支持可重复研究。在使用开放科学参考训练协议(固定架构参数为130M/400M/1.3B/1.7B;训练预算为500亿和3000亿tokens)的对照实验中,基于MixtureVitae训练的模型在一系列标准基准测试中持续超越其他宽松许可数据集,在1.7B/300B设置下,它们在训练后期阶段超越了FineWeb-Edu,并接近DCLM的表现。在数学/代码任务上表现尤为突出,在问答任务上也具有竞争力。这些结果表明,以宽松许可优先、风险缓释的数据为训练高效大语言模型提供了实用且法律上稳妥的基础,减少了对无差别网络爬取的依赖,同时不牺牲竞争力。代码地址:https://github.com/ontocord/mixturevitae
大型语言模型(LLMs)无法可靠地识别其参数化知识的边界,并常常对超出边界的问题产生幻觉式回答。相比之下,人类能够认识到自身的局限,并针对此类问题寻求外部帮助或选择回避。本文提出了一种名为MASH(通过选择性求助建模回避)的训练框架,该框架能够有效地从LLMs中提取回避行为。我们的核心观点是,若LLMs寻求外部帮助(如使用搜索工具)时,对外部帮助(搜索)进行适当惩罚,同时奖励答案的准确性,则这种求助行为可作为回避的代理。MASH通过强化学习实现这一理念,采用按次搜索的奖励机制。 我们在三个知识密集型的问答数据集上进行了实验。结果表明,MASH显著提升了先前高效搜索方法在选择性求助方面的表现;在多跳数据集上,MASH将答案准确率提高了7.6%。此外,MASH展现了强大的即插即用回避能力——它能够区分可回答与不可回答的问题,并选择性地对可回答的问题生成响应,其行为类似于专门的回避方法。我们强调,与先前的回避方法不同,MASH无需预先确定知识边界来构建训练数据。相反,MASH的回避行为是训练辅助性选择性求助任务的副产品。总体而言,我们展示了MASH训练有效地将搜索工具的使用与参数化知识对齐,这一特性可成功用于做出回避决策。
过程奖励模型(PRMs)提供了步骤级别的监督,从而提升了大型语言模型推理的可靠性。尽管PRMs在基于文本的领域已得到广泛研究,但其在视觉语言模型(VLMs)中的扩展仍显有限。现有的视觉语言PRMs(VL-PRMs)依赖于蒙特卡洛树搜索(MCTS)进行数据构建,这往往会产生噪声监督信号,并限制任务间的泛化能力。在本研究中,我们旨在通过探索数据集构建、训练及测试时扩展的多样化策略,阐明VL-PRMs的设计空间。首先,我们引入了一种混合数据合成框架,该框架结合了MCTS与强VLM的判断,生成了更精确的步骤级别标签。其次,我们提出了感知聚焦的监督方法,使我们的PRM能够在推理的视觉基础阶段明确检测错误。再次,我们系统评估了多种测试时扩展策略,表明我们的PRMs能够可靠地引导VLMs朝向更准确的解决方案。我们的实验覆盖了五个多样化的多模态基准(MMMU、PuzzleVQA、AlgoPuzzleVQA、MathVista和MathVision),揭示了几个关键发现:(i) 在测试时扩展(TTS)期间,将VL-PRMs用作结果奖励模型(ORMs)时,其表现优于VL-PRM引导的过程步骤选择,(ii) 较小的VL-PRMs在检测过程错误方面能够匹敌甚至超越较大的模型,(iii) VL-PRMs揭示了更强VLM骨干中的潜在推理能力,(iv) 感知级别的监督带来了测试时扩展的显著增益,以及(v) 尽管未在高级数学推理数据集上训练VL-PRMs,不同策略的TTS性能在这些数据集上仍有所提升。我们希望我们的工作能激励进一步的研究,并支持VLMs的进步。
心智理论(Theory of Mind, ToM)——即对他人心理状态的理解——是人类社交智能的关键方面,然而,聊天机器人和基于大语言模型(LLM)的社交代理通常并未整合这一能力。在本研究中,我们证明了明确运用ToM的LLM在对话中表现更佳,能更有效地达成目标。在展示了仅通过提示模型在对话轮次间生成心理状态即可带来显著益处后,我们进一步引入了ToMAgent(ToMA),一个专注于ToM的对话代理。ToMA通过将ToM与对话前瞻相结合进行训练,以生成对实现对话目标最为有用的心理状态。在Sotopia交互式社交评估基准上的实验表明,我们的方法相较于一系列基线模型具有显著优势。综合分析显示,ToMA展现出更具策略性、目标导向的推理行为,这不仅使其能够进行长远适应,同时还能与对话伙伴维持更良好的关系。我们的研究结果标志着在整合ToM以构建具备社交智能的LLM代理方面迈出了重要一步。
我們研究秘密誘導:發現人工智慧擁有但未明確表達的知識。作為測試平台,我們訓練了三類大型語言模型(LLMs),使其具備特定知識並在下游任務中應用,但在被直接詢問時否認擁有這些知識。例如,在一種設定中,我們訓練一個LLM生成與知道用戶為女性一致的回复,但在被直接詢問時否認這一知識。接著,我們設計了多種黑盒和白盒秘密誘導技術,並根據它們是否能幫助LLM審計者成功猜測秘密知識來評估這些技術。我們的許多技術在簡單基線方法上有所改進。最有效的技術(在2/3的設定中表現最佳)基於預填充攻擊,這是一種黑盒技術,LLM在從預定義前綴生成補全時會揭示秘密知識。在剩下的設定中,基於logit透鏡和稀疏自編碼器(SAEs)的白盒技術最為有效。我們公開了模型和代碼,建立了評估秘密誘導方法的公共基準。
大型語言模型正日益被部署為執行複雜現實任務的自動化代理,然而現有系統往往專注於孤立的改進,缺乏針對魯棒性和適應性的統一設計。我們提出了一種通用型代理架構,該架構整合了三大核心組件:一個集體多代理框架,將規劃與執行代理與評審模型投票相結合;一個跨越工作、語義及程序層次的分層記憶系統;以及一套精煉的工具集,用於搜索、代碼執行和多模態解析。在全面基準測試中,我們的框架持續超越開源基準,並接近專有系統的性能。這些結果證明了系統級整合的重要性,並為構建能夠跨越多領域和多任務運作的可擴展、具韌性及適應性的人工智慧助手指明瞭方向。
擴散變換器在生成高保真視頻方面展現了顯著能力,能夠在長時間內提供視覺連貫的幀和豐富的細節。然而,現有的視頻生成模型在生成主體一致的視頻方面仍存在不足,這主要源於解析指定複雜空間關係、時間邏輯以及多主體間交互的提示時固有的困難。為解決這一問題,我們提出了BindWeave,這是一個統一框架,能夠處理從單一主體到複雜多主體場景的廣泛主體到視頻的生成任務。為了將複雜的提示語義綁定到具體的視覺主體上,我們引入了MLLM-DiT框架,其中預訓練的多模態大語言模型執行深度跨模態推理,以實體為基礎並解構角色、屬性和交互,生成主體感知的隱藏狀態,這些狀態作為條件輸入擴散變換器,從而實現高保真且主體一致的視頻生成。在OpenS2V基準測試上的實驗表明,我們的方法在生成視頻的主體一致性、自然度和文本相關性方面均取得了優異的表現,超越了現有的開源和商業模型。
大型语言模型(LLMs)的兴起正在重塑多模态模型,其中语音合成是一个显著的应用领域。然而,现有方法往往未能充分利用这些模型的语言智能,通常未能发挥其强大的指令跟随能力。这一限制阻碍了模型在可控文本到语音(TTS)中遵循文本指令的能力。为解决这一问题,我们提出了一种受“操作主义”启发的新范式,将指令理解与语音生成解耦。我们引入了BatonVoice框架,其中LLM充当“指挥者”,理解用户指令并生成文本“计划”——明确的声学特征(如音高、能量)。随后,一个独立的TTS模型,即“乐团”,根据这些特征生成语音。为实现这一组件,我们开发了BatonTTS,一个专门为此任务训练的TTS模型。我们的实验表明,BatonVoice在可控和情感语音合成方面表现出色,超越了强大的开源和闭源基线。值得注意的是,我们的方法实现了显著的零样本跨语言泛化能力,能够准确地将特征控制能力应用于后训练期间未见过的语言。这表明将语音对象化为文本声学特征可以更有效地释放LLMs的语言智能。
視覺-語言模型(VLMs)擅長於高層次的場景理解,但在需要精確定位的細粒度感知任務上表現欠佳。這一不足源於根本性的不匹配,因為生成精確的數值座標對於以語言為中心的架構而言是一項挑戰性任務。本文中,我們介紹了VLM-FO1,這是一種新穎的框架,通過將以物體為中心的感知從脆弱的座標生成問題轉化為穩健的特徵檢索任務,從而克服了這一限制。我們的方法作為一個即插即用的模組,能夠與任何預訓練的VLM集成。它利用了一種混合細粒度區域編碼器(HFRE),該編碼器配備了雙重視覺編碼器,以生成富含語義和空間細節的強大區域標記。隨後,基於標記的參考系統使得大型語言模型(LLM)能夠無縫地對這些特定視覺區域進行推理並將語言與之對應。實驗表明,VLM-FO1在多樣化的基準測試中達到了最先進的性能,展現了在物體定位、區域生成理解及視覺區域推理方面的卓越能力。關鍵在於,我們的兩階段訓練策略確保了這些感知能力的提升不會損害基礎模型的通用視覺理解能力。VLM-FO1為構建具備感知能力的VLMs建立了一種有效且靈活的範式,彌合了高層次推理與細粒度視覺定位之間的鴻溝。
我們提出ImitSAT,一種基於模仿學習的衝突驅動子句學習(CDCL)求解器的分支策略,專為布爾可滿足性問題(SAT)設計。與以往預測實例級信號以間接改進CDCL分支的方法不同,或依賴於強化學習及不足的CDCL信息來增強分支,ImitSAT從專家KeyTrace中學習,該KeyTrace將完整運行壓縮為一系列存活的決策序列。在同一實例上重放KeyTrace幾乎無衝突,提供了密集的決策級監督,並直接減少了傳播——這是牆鐘時間的主要貢獻者。這種前綴條件下的監督使ImitSAT能夠無需探索即可重現高質量分支,從而實現更快的收斂、穩定的訓練以及與CDCL的無縫集成。大量實驗表明,ImitSAT減少了傳播次數和運行時間,超越了最先進的學習方法。我們已在https://github.com/zewei-Zhang/ImitSAT上公開了源代碼及訓練模型。
基于基础模型(FM)的人工智能代理正在多个领域迅速获得应用,但其固有的非确定性和不可复现性给测试和质量保证带来了挑战。尽管最近的基准测试提供了任务层面的评估,但开发者在开发过程中如何验证这些代理的内部正确性仍缺乏深入理解。 为填补这一空白,我们首次对人工智能代理生态系统中的测试实践进行了大规模实证研究,分析了39个开源代理框架和439个代理应用。我们识别出十种不同的测试模式,并发现诸如DeepEval等新颖的、专为代理设计的测试方法使用率极低(约1%),而传统的负面测试和成员测试等模式则被广泛采用以应对FM的不确定性。通过将这些模式映射到代理框架和代理应用的典型架构组件上,我们发现了一个根本性的测试努力倒置现象:确定性组件如资源工件(工具)和协调工件(工作流)占据了超过70%的测试努力,而基于FM的计划主体却仅获得不到5%的关注。尤为关键的是,触发组件(提示)几乎被忽视,仅出现在约1%的测试中。 我们的研究结果为基于FM的代理框架和代理应用提供了首个实证测试基线,揭示了在应对非确定性方面存在理性但不完全的适应。为解决这一问题,框架开发者应加强对新颖测试方法的支持,应用开发者需采纳提示回归测试,而研究者则应探索采用这些方法的障碍。强化这些实践对于构建更加健壮和可靠的人工智能代理至关重要。
分佈匹配是許多視覺與圖形處理任務的核心,其中廣泛應用的Wasserstein距離在處理高維分佈時計算成本過高。切片Wasserstein距離(SWD)提供了一種可擴展的替代方案,但其蒙特卡羅估計器存在高方差問題,導致梯度噪聲大且收斂速度慢。我們提出了Reservoir SWD(ReSWD),該方法將加權Reservoir採樣整合到SWD中,以在優化步驟中自適應地保留信息豐富的投影方向,從而實現穩定的梯度,同時保持無偏性。在合成基準測試及實際任務(如色彩校正和擴散引導)上的實驗表明,ReSWD在性能上始終優於標準SWD及其他方差減少的基線方法。項目頁面:https://reservoirswd.github.io/
課程學習在提升大型語言模型(LLMs)於推理任務上的訓練效率中扮演著關鍵角色。然而,現有方法往往未能充分考慮提示難度的變化,或依賴於簡化的篩選機制來選擇符合狹窄標準範圍的提示數據集,導致顯著的計算資源浪費。在本研究中,我們從強化學習梯度優化的角度出發,提供了一種系統且理論性的探討,旨在提升LLMs的訓練效率。我們識別出影響訓練效率的兩個關鍵因素:訓練提示的選擇與不同提示間rollout數量的分配。我們的理論分析揭示,提示的採樣分佈決定了梯度下降的收斂速度,而rollout數量的分配則影響整體梯度更新的一致性和穩定性。基於這些洞察,我們提出了CurES,一種高效的訓練方法,它加速了收斂過程,並採用貝葉斯後驗估計以最小化計算開銷。實驗結果表明,我們的CurES在1.5B和7B模型上分別比群組相對策略優化(GRPO)高出+3.30分和+4.82分。此外,與包括GRPO在內的基線方法相比,CurES展現出更快的收斂速度。
大型语言模型(LLMs)在多轮推理情境下的研究日益增多,其中模型基于用户提供的反馈迭代优化其输出。此类情境对于需要复杂推理的任务至关重要,然而现有的反馈范式往往依赖于发布新消息。LLMs在可靠整合这些反馈方面存在困难,导致改进效果不一致。在本研究中,我们引入了原位反馈这一新颖的交互范式,即用户直接编辑LLM的先前响应,模型则基于这一修改后的响应生成其修订版本。针对多种推理密集型基准的实证评估表明,原位反馈在仅使用79.1%更少令牌的情况下,实现了优于传统多轮反馈的性能。在受控环境下的补充分析进一步证明,原位反馈解决了多轮反馈的一个核心局限:模型往往无法精确地将反馈应用于响应中的错误部分,致使错误未得到纠正,有时甚至将新错误引入先前正确的内容中。这些发现表明,原位反馈为在推理密集型任务中引导LLMs提供了一种更为自然且有效的机制。
學習複雜、長時程任務的控制策略是機器人與自主系統領域的核心挑戰。信號時序邏輯(Signal Temporal Logic, STL)提供了一種強大且具表達力的語言來規範此類任務,但其非馬可夫特性及固有的稀疏獎勵使得標準強化學習(Reinforcement Learning, RL)算法難以解決。以往的RL方法僅專注於有限的STL片段或將STL魯棒性分數作為稀疏的終端獎勵。本文中,我們提出了TGPO(Temporal Grounded Policy Optimization,時序基礎策略優化)來解決通用的STL任務。TGPO將STL分解為定時子目標與不變約束,並提供了一個分層框架來應對問題。TGPO的高層組件為這些子目標提出具體的時間分配,而低層的時間條件策略則利用密集的階段性獎勵信號學習達成序列化的子目標。在推理過程中,我們採樣多種時間分配方案,並選擇最有希望的分配讓策略網絡展開解決軌跡。為了促進具有多個子目標的複雜STL任務的高效策略學習,我們利用已學習的評論家通過Metropolis-Hastings採樣引導高層時序搜索,將探索聚焦於時序可行的解決方案上。我們在五個環境中進行了實驗,範圍涵蓋低維導航、操作、無人機及四足機器人運動。在廣泛的STL任務下,TGPO顯著超越了現有的頂尖基準(特別是在高維與長時程案例中),相比最佳基準,任務成功率平均提升了31.6%。代碼將公開於https://github.com/mengyuest/TGPO。
在本研究中,我們提出將預訓練的視覺編碼器對齊,作為圖像生成中潛在擴散模型的標記器。與從頭訓練變分自編碼器(VAE)主要強調低層次細節不同,我們的方法利用了基礎編碼器豐富的語義結構。我們引入了一種三階段對齊策略:(1)凍結編碼器並訓練適配器和解碼器,以建立語義潛在空間;(2)通過額外的語義保留損失聯合優化所有組件,使編碼器能夠捕捉感知細節的同時保留高層次語義;(3)精煉解碼器以提高重建質量。這種對齊產生了語義豐富的圖像標記器,對擴散模型有益。在ImageNet 256×256上,我們的標記器加速了擴散模型的收斂,僅在64個epoch內就達到了1.90的gFID,並在有和無分類器自由引導的情況下均改善了生成效果。擴展到LAION,一個使用我們標記器訓練的20億參數文本到圖像模型,在相同的訓練步驟下始終優於FLUX VAE。總體而言,我們的方法簡單、可擴展,並為連續標記器設計建立了語義基礎的範式。
尽管大型语言模型(LLMs)展现出强大的能力,其内部表征仍显得晦涩难懂,理解有限。现有的可解释性方法,如直接对数归因(DLA)和稀疏自编码器(SAEs),由于模型输出词汇量的限制或特征命名不明确等问题,提供的洞察力较为局限。本研究引入了一种新颖的解码范式——超维探针,旨在从LLM向量空间中解码信息。该探针融合了符号表征与神经探测的思想,通过向量符号架构(VSAs)将模型的残差流投射为可解释的概念。此探针结合了SAEs与传统探针的优势,同时克服了它们的关键局限。我们通过控制输入完成任务验证了该解码范式的有效性,在涵盖句法模式识别、键值关联及抽象推理的输入上,探测模型在下一词预测前的最终状态。进一步,我们在问答场景中评估了该探针,考察了模型在文本生成前后的状态。实验表明,我们的探针能够可靠地提取出跨越不同LLMs、嵌入尺寸及输入领域的有意义概念,并有助于识别LLM的失败案例。本研究推动了LLM向量空间中的信息解码,使得从神经表征中提取更具信息性、可解释性及结构化的特征成为可能。