每日精选AI研究论文及翻译
尽管强化学习与验证推理(RLVR)已成为提升大语言模型(LLMs)高级推理能力的关键要素,但近期研究揭示,在历经数千次优化步骤后,训练进程常陷入平台期,表现为尽管计算资源投入增加,性能提升却显著减缓。这一局限源于当前RLVR实践中固有的稀疏探索模式,即模型依赖有限的模拟路径,往往遗漏关键推理链条,未能系统覆盖解空间。为此,我们提出了DeepSearch框架,它将蒙特卡洛树搜索直接融入RLVR训练过程。不同于现有方法仅在推理阶段采用树搜索,DeepSearch将结构化搜索嵌入训练循环,实现了推理步骤间的系统性探索与细粒度信用分配。通过训练期间的深度探索,DeepSearch解决了探索不足这一根本瓶颈,该瓶颈导致长时间训练后性能提升趋于停滞。我们的贡献包括:(1)一种全局前沿选择策略,优先考虑搜索树中具有潜力的节点;(2)基于熵的路径选择指导,识别出用于监督的自信路径;(3)结合解决方案缓存的适应性回放缓冲区训练,以提高效率。在数学推理基准测试中,DeepSearch实现了62.95%的平均准确率,为1.5B参数推理模型树立了新的技术标杆,且相比延长训练的方法,GPU小时数减少了5.7倍。这些成果凸显了策略性探索相较于暴力扩展的重要性,并展示了算法创新在推动RLVR方法论进步中的潜力。DeepSearch通过系统性搜索而非延长计算时间,为扩展推理能力开辟了新方向。
大型语言模型(LLMs)的训练范式正从静态数据集转向基于经验的学习,即智能体通过与复杂环境交互来获取技能。为促进这一转变,我们推出了GEM(通用经验生成器),一个专为LLM时代设计的开源环境模拟器。类似于传统强化学习(RL)中的OpenAI-Gym,GEM为环境与智能体之间的交互提供了标准化框架,包括支持高吞吐量的异步向量化执行,以及便于扩展的灵活封装器。GEM还配备了一系列多样化的环境、强大的集成工具,以及单文件示例脚本,展示了如何将GEM与五种流行的RL训练框架结合使用。此外,我们还利用带有回报批量归一化的REINFORCE(ReBN)算法,在24个环境中建立了一组基线,与GRPO不同,ReBN完全兼容每回合密集奖励的完整RL设置,并提供了更优的信用分配机制。我们进一步使用GEM在单回合和多回合设置下对PPO、GRPO和REINFORCE进行了公平对比基准测试,以揭示算法设计的优劣。最后,GEM不仅作为训练环境,还充当了便捷的评估工具包。我们期望这一框架能够加速未来智能型LLM的研究进程。
后训练量化已成为在低精度下部署大型语言模型的最广泛使用策略。然而,当前方法在比特宽度小于或等于4时表现出困惑度下降,部分原因是表示异常值会导致与这些异常值共享相同尺度的参数出现精度问题。这一问题在校准无关的均匀量化方法中尤为突出。我们引入了SINQ,通过增加一个额外的第二轴尺度因子和一种快速的Sinkhorn-Knopp风格算法来增强现有后训练量化器,该算法找到尺度以归一化每行和每列的方差,从而最小化一种新颖的每矩阵量化代理目标:矩阵不平衡。我们的方法在层间无交互,并可轻松应用于新架构以量化任何线性层。我们在Qwen3模型家族和DeepSeek-V2.5上评估了我们的方法。SINQ显著改善了WikiText2和C4的困惑度,相较于未校准的均匀量化基线,并且可以通过结合校准和非均匀量化级别进一步增强。用于复现本工作结果及使用SINQ轻松量化模型的代码可在https://github.com/huawei-csl/SINQ获取。
视觉-语言-动作(VLA)模型能够实现具身决策,但主要依赖于模仿学习,这导致了误差累积以及在分布变化下的鲁棒性较差。强化学习(RL)可以缓解这些问题,但通常需要昂贵的现实世界交互或面临模拟到现实的差距。我们提出了VLA-RFT,一种强化微调框架,它利用数据驱动的世界模型作为可控模拟器。该模拟器通过真实交互数据训练,能够预测基于动作的未来视觉观察,从而允许策略展开时获得密集的、源自目标达成参考的轨迹级奖励。这一设计提供了高效且与动作对齐的学习信号,大幅降低了样本需求。在不到400次微调步骤的情况下,VLA-RFT超越了强大的监督基线,并展现出比基于模拟器的RL更高的效率。此外,在扰动条件下,它表现出强大的鲁棒性,维持了任务的稳定执行。我们的研究结果确立了基于世界模型的RFT作为一种实用的后训练范式,能够增强VLA模型的泛化能力和鲁棒性。更多详情,请访问https://vla-rft.github.io/。
大型语言模型(LLMs)能够通过强化学习实现自我提升,在此过程中生成探索轨迹以发现更优解决方案。然而,这一探索过程计算成本高昂,常迫使现有方法为每项任务分配有限的探索预算。这种均匀分配方式导致了边缘问题:简单任务持续成功而困难任务持续失败,两者在广泛使用的组相对策略优化(GRPO)训练更新中均产生零梯度。我们从探索预算分配的角度解决这一问题。将每项任务的探索视为具有独特“价值”与“成本”的“项目”,我们建立了与经典背包问题的联系。这一形式化使我们能够推导出一种基于模型当前学习状态自适应分配资源的最优分配规则。应用于GRPO时,我们的方法在训练期间将非零策略梯度的有效比例提升了20-40%。作为一种计算上的“免费午餐”,我们的方法能够将探索预算从学习饱和的任务重新分配到最具影响力的任务上。这使得特别具有挑战性的问题能够获得显著更大的预算(例如,93次模拟),这在均匀分配下是计算上不可行的。这些改进转化为数学推理基准测试上的实质性提升,平均提升2-4分,特定任务上峰值提升达9分。值得注意的是,采用传统均匀分配方式要达到可比性能,约需两倍的计算资源。
尽管近期生成模型在像素级视频合成方面取得了进展,但在制作专业教育视频时仍显不足,这类视频需要学科知识、精确的视觉结构和连贯的转场,限制了其在教育场景中的应用。直观上,这些要求更适合通过可渲染环境的操控来满足,该环境可通过逻辑命令(如代码)进行明确控制。在本研究中,我们提出了Code2Video,一个以代码为中心的代理框架,通过可执行的Python代码生成教育视频。该框架包含三个协作代理:(i)规划器,将讲座内容组织成时间上连贯的流程,并准备相应的视觉素材;(ii)编码器,将结构化指令转换为可执行的Python代码,同时引入范围引导的自动修复以提高效率;(iii)评审器,利用视觉语言模型(VLM)结合视觉锚点提示,优化空间布局并确保清晰度。为支持系统评估,我们构建了MMMC,一个由专业制作、针对特定学科的教育视频基准。我们从多个维度评估MMMC,包括VLM作为评判者的美学评分、代码效率,特别是TeachQuiz,这是一个新颖的端到端指标,量化了VLM在去学习后通过观看生成视频恢复知识的能力。我们的结果表明,Code2Video作为一种可扩展、可解释且可控的方法,相比直接代码生成提升了40%的效果,生成的视频可与人工制作的教程相媲美。代码和数据集可在https://github.com/showlab/Code2Video获取。
环境配置——即调整系统以适应特定软件项目的过程——在软件工程(SE)领域始终是一项持续挑战。自动化的环境配置方法能够为开发者提供无需手动干预的、针对任意代码库的完整配置环境,从而提供帮助。这同样有助于软件工程研究者扩展基于执行的基准测试。然而,近期研究表明,即便是最先进的大型语言模型(LLMs)在自动化这一任务上也仅取得有限成功。为突破这一局限,我们专门针对环境配置任务优化了一个模型。我们结合了监督微调技术以生成正确的Bash脚本,以及带有可验证奖励的强化学习(RLVR),使模型更好地适应环境配置工作。在EnvBench-Python测试集上,我们的方法使得Qwen3-8B(一款可在消费级硬件上运行的模型)表现与更大规模的模型——Qwen3-32B和GPT-4o——相当。训练代码及模型检查点已在线发布:https://github.com/JetBrains-Research/PIPer。
大型语言模型(LLMs)正越来越多地被部署为动态现实环境中的智能体,其成功既依赖于推理能力,也离不开高效的工具使用。智能体任务面临的核心挑战是不断增长的上下文长度,因为智能体必须积累长期的动作和观察记录。这种扩展不仅增加了成本,还降低了长期任务的效率,而此前关于上下文压缩的研究大多局限于单步任务或特定应用场景。我们提出了智能体上下文优化(ACON),这是一个统一的框架,能够将环境观察和交互历史最优地压缩为简洁而信息丰富的摘要。ACON利用自然语言空间中的压缩指南优化:在完整上下文成功而压缩上下文失败的成对轨迹中,强大的LLMs分析失败原因,并据此更新压缩指南。此外,我们建议将优化后的LLM压缩器蒸馏到更小的模型中,以减少额外模块的开销。在AppWorld、OfficeBench和多目标问答上的实验表明,ACON在显著保持任务性能的同时,减少了26-54%的内存使用(峰值token数),当蒸馏到更小的压缩器时保持了超过95%的准确率,并作为长期智能体提升了较小语言模型的性能,最高提升达46%。
群体相对策略优化(GRPO)是一种用于大语言模型(LLM)后训练的重要强化学习算法。普遍认为,GRPO需要较大的群体规模,通过精确的统计估计来确保训练的稳定性,这带来了巨大的计算开销。在本研究中,我们通过将GRPO重新定义为对比学习的形式,挑战了这一假设,揭示了其与直接偏好优化(DPO)之间的根本联系。受DPO实证成功的启发,我们探讨了最小双轮次配置(2-GRPO),这一配置先前被认为不可行。我们提供了严格的理论分析以验证2-GRPO,并通过实验证明,尽管仅使用了1/8的轮次并减少了超过70%的训练时间,其性能与16-GRPO相当。
可验证奖励强化学习(RLVR)已成为解锁大型语言模型复杂推理能力的关键要素。近期研究ProRL通过增加训练步数展现了扩展RL的潜力。然而,在数千步训练后,性能趋于平稳,继续投入更多计算资源进行额外训练带来的收益明显递减。本研究探索了一种互补的RL扩展范式——BroRL,即通过将每个样本的探索次数提升至数百次,以彻底拓宽探索范围,从而在ProRL因训练步数增加而达到的性能饱和点之外,实现持续的性能提升。我们的方法基于质量平衡方程分析,使我们能够刻画强化过程中正确与错误标记概率质量的变化速率。研究表明,在一步RL假设下,采样探索标记始终促进正确质量扩展,而探索之外未采样的标记则可能根据其分布及净奖励平衡带来增益或损失。关键的是,随着每个样本的探索次数N增加,未采样项的影响减弱,确保了整体正确质量的扩展。为验证理论分析,我们在更为宽松的条件下进行模拟,发现足够大的探索规模N——对应充分的探索——能保证所有正确标记概率质量的提升。实证表明,BroRL使经过3K步ProRL训练后饱和的模型重获新生,并展现出稳健、持续的改进,在1.5B模型上跨多个基准测试中取得了当前最优的结果。
大型语言模型(LLMs)在配备外部工具后,在复杂推理任务中展现了卓越的能力。然而,当前框架主要依赖顺序处理,导致执行效率低下,特别是在需要大量工具交互的任务中。本文提出了Flash-Searcher,一种新颖的并行代理推理框架,从根本上将执行范式从顺序链重新构想为有向无环图(DAGs)。Flash-Searcher将复杂任务分解为具有明确依赖关系的子任务,使得独立推理路径能够并发执行,同时保持逻辑约束。通过动态工作流优化,我们的框架基于中间结果持续优化执行图,有效整合了摘要模块。在多个基准测试中的全面评估表明,Flash-Searcher始终优于现有方法。具体而言,在BrowseComp上达到了67.7%的准确率,在xbench-DeepSearch上达到了83%,同时与当前框架相比,代理执行步骤减少了高达35%。此外,当将此并行推理管道蒸馏为单一模型时,我们观察到在不同骨干架构上显著的性能提升,这凸显了我们方法的通用性。因此,我们的工作代表了代理架构设计的重要进展,为复杂推理任务提供了更具可扩展性和效率的范式。
现有关于大型语言模型(LLMs)偏见缓解方法的研究,采用了多样化的基线及评估指标来衡量去偏效果,导致不同方法间的比较缺乏一致性。此外,这些评估大多基于LLMs在偏见与无偏见情境下概率的对比,忽视了此类评估与真实应用场景之间的差距——在现实中,用户通过阅读模型响应与之互动,期待的是公平且安全的输出,而非LLMs的概率分布。为促进去偏方法间的一致评估并弥合这一差距,我们推出了BiasFreeBench,这是一个实证基准,通过将现有数据集重组为统一的查询-响应设置,全面比较了八种主流偏见缓解技术(涵盖四种基于提示的方法和四种基于训练的方法)在两种测试场景(多项选择问答和开放式多轮问答)下的表现。我们进一步引入了一个响应层面的指标——无偏见评分(Bias-Free Score),用以衡量LLM响应在公平性、安全性及反刻板印象方面的程度。去偏效果在关键维度上进行了系统比较与分析,包括提示与训练范式、模型规模,以及不同训练策略对未见偏见类型的泛化能力。我们计划公开此基准,旨在为偏见缓解研究建立一个统一的测试平台。
语言模型的能力日益增强,但在看似简单的多位数乘法任务上仍显不足。本研究通过逆向工程一个通过隐式思维链成功学习乘法的模型,探讨了其原因,并报告了三个发现:(1)长程结构的证据:Logit归因和线性探针表明,模型编码了多位数乘法所需的长程依赖关系。(2)机制:模型利用注意力机制构建有向无环图来“缓存”和“检索”成对的局部积,以此编码长程依赖。(3)几何特性:模型在注意力头中通过形成数字对的闵可夫斯基和来实现局部积,并使用傅里叶基表示数字,这些都是直观且高效的表示方式,而标准微调模型则缺乏这些特性。基于这些洞见,我们重新审视了标准微调的学习动态,发现模型收敛于一个缺乏必要长程依赖的局部最优解。我们进一步通过引入一个辅助损失函数来验证这一理解,该函数通过线性回归探针预测“运行和”,提供了使模型成功学习多位数乘法的归纳偏置。总之,通过逆向工程隐式思维链模型的机制,我们揭示了Transformer在学习长程依赖时的一个陷阱,并展示了正确的归纳偏置如何解决这一问题。
近期,我们在自然语言指令驱动的图像编辑领域见证了显著进展。诸如GPT-Image-1、Seedream和Google-Nano-Banana等闭源模型展现了极为乐观的发展态势。然而,开源模型仍显滞后,主要瓶颈在于缺乏可靠的奖励模型来扩展高质量的合成训练数据。针对这一关键瓶颈,我们构建了\mname,该模型基于我们新构建的大规模人类偏好数据集进行训练,该数据集由训练有素的专家按照严格协议精心标注,包含超过20万条偏好对。\mname在指令引导的图像编辑任务中展现出与人类偏好的高度一致性。实验表明,\mname在GenAI-Bench、AURORA-Bench、ImagenHub及我们新推出的\benchname等基准测试中,达到了与人类判断最先进的相关性,超越了众多VLM-as-judge模型。此外,我们利用\mname从现有噪声较大的ShareGPT-4o-Image数据集中筛选出高质量子集,并在此基础上训练Step1X-Edit,相较于全数据集训练,其性能显著提升。这证明了\mname作为奖励模型在扩展高质量图像编辑训练数据方面的能力。其强大的对齐性还暗示了其在基于强化学习的模型后训练及测试时扩展等高级应用中的潜力。\mname及其训练数据集将公开发布,以助力社区构建更多高质量的图像编辑训练数据集。
设计和优化特定任务的量子电路对于发挥量子计算的优势至关重要。近期,基于大语言模型(LLM)的量子电路生成方法作为一种有前景的自动化解决方案崭露头角。然而,根本性挑战仍未得到解决:(i)参数化量子门需要精确的数值以实现最佳性能,这些数值还取决于多个因素,包括量子门的数量、其参数以及电路的布局/深度。(ii)由于缺乏量子领域特定知识,LLM 生成的量子电路往往质量低下或存在错误。我们提出了 QUASAR,一个基于工具增强型 LLM 的量子电路生成与优化的强化学习(RL)框架。为了使 LLM 与量子特定知识对齐并提升生成的量子电路质量,QUASAR 设计了(i)一种利用外部量子模拟器进行量子电路验证的方法,以及(ii)在 RL 训练中采用复杂的分层奖励机制。大量评估表明,生成的量子电路在语法和语义性能上均有所提升。当应用于一个 40 亿参数的 LLM 时,QUASAR 在 Pass@1 中达到了 99.31% 的有效性,在 Pass@10 中实现了 100% 的有效性,超越了 GPT-4o、GPT-5 和 DeepSeek-V3 等工业级 LLM,以及多个仅采用监督微调(SFT)和仅 RL 的基线模型。
在现代大型语言模型(LLMs)中,获取高质量生成结果很大程度上被视作一个选择问题:从多样化的N个样本池中识别出单一的最佳生成,即“N选一”(Best-of-N, BoN)。然而,这种方法本质上是一种零和游戏,舍弃了样本池中多样且可能具有价值的信息。相反,我们探索了一种协作式框架,其中所有候选生成都有可能为最终胜出的生成做出贡献。为此,我们提出了“N融合”(Fusion-of-N, FusioN):一种利用通用LLM评判者将每个样本中最具信息量的元素综合成单一最终答案的方法。我们在两种场景下将FusioN与BoN进行了对比:(i) 测试时扩展,即在测试时从单一模型采样并聚合;(ii) 合成数据生成,即融合来自多样化教师模型池的样本来提升学生模型。我们在11种语言、3项多样化任务及不同模型规模上对这两种设置进行了广泛基准测试。结果表明,FusioN在测试时扩展和合成数据生成带来的下游增益方面均持续超越BoN,展现了其多功能性和鲁棒性。我们还对FusioN进行了深入分析,发现其在挑战性环境下展现出令人惊讶的优势和稳健性。这些成果提示我们,应当转变对LLM生成评估与利用的思维方式,从单一的质量衡量转向接纳其多元本质。这一转变使我们能够整合多样优势,释放潜在能力,实现仅靠选择无法达成的改进。
近期,大型语言模型(LLMs)在推理能力上的显著提升主要归功于强化学习(RL),然而RL训练过程中参数动态变化的本质仍鲜为人知。本研究揭示了LLMs中RL诱导参数更新的两个基本特性:(1)秩-1主导性,即参数更新矩阵的顶部奇异子空间几乎完全决定了推理能力的提升,恢复了超过99%的性能增益;(2)秩-1线性动态性,该主导子空间在整个训练过程中线性演变,使得从早期检查点即可准确预测最终结果。通过对8种LLMs和7种算法的广泛实验,验证了这些特性的普适性。更重要的是,基于这些发现,我们提出了AlphaRL,一个插件式加速框架,它利用早期短训练窗口外推最终参数更新,实现了高达2.5倍的加速,同时保持超过96%的推理性能,无需额外模块或超参数调整。这一发现为大规模RL提供了一种多功能且实用的工具,为LLMs开辟了一条原则性、可解释且高效的训练范式之路。
监督微调(SFT)是大型语言模型(LLMs)训练后的标准方法,但其泛化能力往往有限。我们将这一局限归因于其默认的训练目标:负对数似然(NLL)。尽管NLL在从头训练时理论上是最优的,但训练后阶段处于不同的范式,可能违背其最优性假设,此时模型已编码了任务相关的先验知识,且监督信号可能冗长且带有噪声。为此,我们研究了一类基于概率的通用目标函数,并在不同条件下评估其有效性。通过对7种模型架构、14个基准测试和3个领域的全面实验与广泛消融研究,我们发现了一个决定目标函数行为的关键维度:模型能力连续体。在模型能力较强的一端,倾向于先验知识的目标函数(如-p、-p^{10}及其阈值变体)在降低低概率词元权重方面持续优于NLL;在模型能力较弱的一端,NLL占据主导;而在中间区域,没有单一目标函数能普遍胜出。我们的理论分析进一步阐明了目标函数在连续体上的交替作用,为根据模型能力调整目标函数提供了原则性基础。代码已发布于https://github.com/GaotangLi/Beyond-Log-Likelihood。
基于视觉语言模型构建的图形用户界面(GUI)代理已成为自动化人机工作流程的一种前景广阔的方法。然而,这些代理在处理高分辨率截图序列和解决长期任务时也面临着效率挑战,导致推理速度慢、成本高且受限于内存。虽然键值(KV)缓存可以缓解这一问题,但在图像密集的场景中存储完整的缓存是不可行的。现有的缓存压缩方法并不理想,因为它们没有考虑到GUI的空间和时间冗余性。在本研究中,我们首先分析了GUI代理工作负载中的注意力模式,发现与自然图像不同,所有Transformer层中的注意力稀疏性均较高。这一洞察促使我们提出了一种简单的统一预算分配策略,实验表明该策略优于更复杂的层间变化方案。在此基础上,我们引入了GUI-KV,一种无需重新训练的即插即用KV缓存压缩方法。GUI-KV结合了两项新技术:(i)空间显著性引导,通过隐藏状态的L2范数增强注意力分数,以更好地保留语义重要的视觉标记;(ii)时间冗余评分,将前一帧的键投影到当前帧的键子空间,优先剪除冗余历史。在标准GUI代理基准测试和模型中,GUI-KV优于竞争性的KV压缩基线,在适度预算下与完整缓存的准确性非常接近。值得注意的是,在AgentNetBench基准测试的5张截图设置中,GUI-KV将解码浮点运算次数(FLOPs)减少了38.9%,同时将步骤准确性提高了4.1%。这些结果表明,利用GUI特有的冗余性可以实现高效且可靠的代理性能。
我们推出了MixtureVitae,这是一个旨在最小化法律风险同时提供强大模型性能的开放获取预训练语料库。MixtureVitae采用了一种风险缓释的源数据策略,结合了公共领域及宽松许可(如CC-BY/Apache)的文本,以及经过审慎论证的低风险补充材料(如政府出版物和符合欧盟文本与数据挖掘资格的资源),并辅以针对性指导、推理及来源明确的人工合成数据。我们详细阐述了一个透明的多阶段处理流程,包括基于许可的筛选、安全与质量审查,以及领域感知的混合方法,并公开了数据集及其构建方案,以支持可重复性研究。在采用开放科学参考训练协议(固定架构参数为130M/400M/1.3B/1.7B;训练预算为50B和300B tokens)的对照实验中,基于MixtureVitae训练的模型在一系列标准基准测试中持续超越其他宽松许可数据集,尤其在1.7B/300B配置下,其表现超越了FineWeb-Edu,并在训练后期接近DCLM水平。在数学/代码任务上表现尤为突出,在问答任务上也展现出竞争力。这些结果表明,以宽松许可优先、风险缓释的数据为训练高效大语言模型提供了实用且法律风险可控的基础,减少了对无差别网络爬取的依赖,同时保持了竞争力。代码地址:https://github.com/ontocord/mixturevitae。
大型语言模型(LLMs)无法可靠识别其参数化知识的边界,常常对超出边界的问题产生幻觉式回答。相比之下,人类能够认识到自身的局限,对于此类问题,要么寻求外部帮助,要么选择不回答。本文提出了MASH(通过选择性求助建模弃权)训练框架,该框架能够轻松地从LLMs中提取弃权行为。我们的核心思想是,如果LLM寻求外部帮助(如使用搜索工具)时,对外部帮助(搜索)进行适当惩罚,同时奖励回答的准确性,那么这种求助行为即可作为弃权的代理。MASH通过强化学习实现这一理念,采用按次搜索计酬的奖励机制。 我们在三个知识密集型问答数据集上进行了实验。结果表明,MASH显著提升了先前高效搜索方法在选择性求助方面的性能;在多跳数据集上,MASH将回答准确率提高了7.6%。此外,MASH展现了强大的即插即用弃权能力——它能够区分可回答与不可回答的问题,并选择性地对可回答的问题生成响应——这一行为与专门的弃权方法相类似。我们强调,与先前的弃权方法不同,MASH无需预先确定知识边界来构建训练数据。相反,MASH的弃权行为是训练辅助性选择性求助任务的副产品。总体而言,我们展示了MASH训练有效地将搜索工具的使用与参数化知识对齐,这一特性可成功用于做出弃权决策。
过程奖励模型(PRMs)通过提供步骤级别的监督,提升了大型语言模型推理的可靠性。尽管PRMs在文本领域已得到广泛研究,但其在视觉语言模型(VLMs)中的应用仍显不足。现有的视觉语言PRMs(VL-PRMs)依赖于蒙特卡洛树搜索(MCTS)进行数据构建,这种方法常产生噪声监督信号,限制了任务间的泛化能力。本研究中,我们旨在通过探索数据集构建、训练及测试时扩展的多样化策略,阐明VL-PRMs的设计空间。首先,我们引入了一种混合数据合成框架,将MCTS与强VLM的判断相结合,生成更精确的步骤级别标签。其次,我们提出了以感知为中心的监督方式,使PRM能够在推理的视觉定位阶段明确检测错误。再次,我们系统评估了多种测试时扩展策略,证明我们的PRMs能有效引导VLMs获得更准确的解决方案。我们在五个多模态基准测试(MMMU、PuzzleVQA、AlgoPuzzleVQA、MathVista和MathVision)上的实验揭示了几个关键发现:(i) 在测试时扩展(TTS)中,将VL-PRMs用作结果奖励模型(ORMs)能超越基于VL-PRM引导的过程步骤选择,(ii) 较小的VL-PRMs在检测过程错误方面能与甚至超越较大的模型,(iii) VL-PRMs揭示了更强VLM骨干中的潜在推理能力,(iv) 感知级别的监督显著提升了测试时扩展的效果,(v) 尽管未在高级数学推理数据集上训练VL-PRMs,不同策略的TTS性能仍有所提升。我们期望本工作能激励进一步研究,推动VLMs的发展。
心智理论(Theory of Mind, ToM)——即理解他人心理状态的能力——是人类社交智能的关键方面,然而,聊天机器人和基于大语言模型(LLM)的社交代理通常并未整合这一能力。在本研究中,我们展示了明确运用ToM的LLM在对话中表现更佳,能更有效地达成目标。通过证明仅需在对话轮次间提示模型生成心理状态即可带来显著益处后,我们进一步引入了ToMAgent(ToMA),一个专注于ToM的对话代理。ToMA通过将ToM与对话前瞻相结合进行训练,以生成对实现对话目标最为有用的心理状态。在Sotopia互动社交评估基准上的实验表明,我们的方法相较于一系列基线模型具有显著优势。综合分析显示,ToMA展现出更具策略性、目标导向的推理行为,这不仅支持了长期适应性,还保持了与对话伙伴更良好的关系。我们的研究成果为整合ToM以构建具备社交智能的LLM代理迈出了重要一步。
我们研究秘密诱导:揭示人工智能拥有但未明确表达的知识。作为实验平台,我们训练了三个系列的大型语言模型(LLMs),使其具备特定知识并在下游任务中应用,但在被直接询问时却否认知晓。例如,在一种情境下,我们训练一个LLM生成与用户为女性这一知识相符的回复,而在被直接询问时却否认知晓。随后,我们设计了多种黑盒与白盒秘密诱导技术,并基于它们能否帮助LLM审计者成功猜出秘密知识来评估其效果。我们的许多技术相较于简单基线方法有所提升。最有效的技术(在2/3的情境中表现最佳)基于预填充攻击,这是一种黑盒技术,LLM在从预定义前缀生成补全时泄露秘密知识。在剩下的情境中,基于logit lens和稀疏自编码器(SAEs)的白盒技术最为有效。我们公开了模型与代码,为评估秘密诱导方法建立了一个公共基准。
大型语言模型正越来越多地被部署为执行复杂现实任务的自主代理,然而现有系统往往专注于孤立的改进,缺乏统一的设计来确保鲁棒性和适应性。我们提出了一种通用型代理架构,该架构整合了三大核心组件:一个结合规划与执行代理并通过评审模型投票的集体多代理框架,一个涵盖工作记忆、语义记忆和程序记忆的分层记忆系统,以及一套用于搜索、代码执行和多模态解析的精细化工具集。在全面基准测试中,我们的框架持续超越开源基线,并接近专有系统的性能。这些结果证明了系统级集成的重要性,并为构建能够跨领域和任务操作的可扩展、强韧且自适应的AI助手指明了一条路径。
扩散变换器在生成高保真视频方面展现了卓越的能力,能够提供视觉连贯的帧序列和丰富的细节,且持续时间长。然而,现有的视频生成模型在处理指定复杂空间关系、时间逻辑及多主体间交互的提示时,仍难以实现主体一致性视频生成。为解决这一问题,我们提出了BindWeave,一个统一框架,能够处理从单一主体到包含异质实体的复杂多主体场景的广泛主体到视频生成任务。为了将复杂的提示语义绑定到具体的视觉主体上,我们引入了一个MLLM-DiT框架,其中预训练的多模态大语言模型执行深度跨模态推理,以锚定实体并解耦角色、属性及交互,生成主体感知的隐藏状态,这些状态作为扩散变换器的条件,从而实现高保真的主体一致性视频生成。在OpenS2V基准测试上的实验表明,我们的方法在生成视频的主体一致性、自然度及文本相关性方面均取得了优异性能,超越了现有的开源和商业模型。
大型语言模型(LLMs)的兴起正在重塑多模态模型,其中语音合成是一个显著的应用领域。然而,现有方法往往未能充分利用这些模型的语言智能,通常未能发挥其强大的指令跟随能力。这一局限阻碍了模型在可控文本到语音(TTS)中遵循文本指令的能力。为解决这一问题,我们提出了一种受“操作主义”启发的新范式,将指令理解与语音生成解耦。我们引入了BatonVoice框架,其中LLM充当“指挥”,理解用户指令并生成一个文本“计划”——明确的声学特征(如音高、能量)。随后,一个独立的TTS模型,即“乐团”,根据这些特征生成语音。为实现这一组件,我们开发了BatonTTS,一个专门为此任务训练的TTS模型。实验表明,BatonVoice在可控和情感语音合成方面表现出色,超越了强大的开源和闭源基线。值得注意的是,我们的方法实现了显著的零样本跨语言泛化能力,能够准确地将特征控制能力应用于后训练期间未见过的语言。这表明,将语音对象化为文本声学特征能更有效地释放LLMs的语言智能。
视觉语言模型(VLMs)在高层场景理解方面表现出色,但在需要精确定位的细粒度感知任务上却表现欠佳。这一缺陷源于根本性的不匹配,因为生成精确的数值坐标对于以语言为中心的架构而言是一项挑战性任务。本文提出VLM-FO1,一种新颖的框架,通过将对象中心感知从脆弱的坐标生成问题重构为稳健的特征检索任务,从而克服了这一局限。我们的方法作为一个即插即用模块,可与任何预训练的VLM集成。它利用混合细粒度区域编码器(HFRE),配备双重视觉编码器,生成富含语义和空间细节的强大区域标记。基于标记的引用系统随后使大型语言模型能够无缝地推理并将语言锚定到这些特定的视觉区域。实验表明,VLM-FO1在多样化的基准测试中实现了最先进的性能,展示了在对象定位、区域生成理解和视觉区域推理方面的卓越能力。关键在于,我们的两阶段训练策略确保了这些感知能力的提升不会损害基础模型的通用视觉理解能力。VLM-FO1为构建感知敏感的VLMs确立了一个有效且灵活的范式,弥合了高层推理与细粒度视觉定位之间的鸿沟。
我们提出了ImitSAT,一种基于模仿学习的布尔可满足性问题(SAT)冲突驱动子句学习(CDCL)求解器的分支策略。与以往通过预测实例级信号间接改进CDCL分支的方法不同,或依赖强化学习和不充分的CDCL信息来增强分支,ImitSAT从专家KeyTrace中学习,后者将完整运行过程压缩为一系列存续决策序列。在同一实例上重放KeyTrace几乎无冲突,提供了密集的决策级监督,并直接减少了传播——这是实际运行时间的主要贡献者。这种前缀条件监督使ImitSAT无需探索即可重现高质量分支,实现了更快的收敛、稳定的训练以及与CDCL的无缝集成。大量实验表明,ImitSAT减少了传播次数和运行时间,超越了最先进的学习方法。我们在https://github.com/zewei-Zhang/ImitSAT上公开了源代码和训练模型。
基于基础模型(FM)的AI智能体正在多个领域迅速普及,但其固有的非确定性和不可复现性给测试和质量保障带来了挑战。尽管近期基准测试提供了任务层面的评估,但开发者如何在开发过程中验证这些智能体内部正确性的理解仍然有限。 为填补这一空白,我们首次对AI智能体生态系统中的测试实践进行了大规模实证研究,分析了39个开源智能体框架和439个智能体应用。我们识别出十种不同的测试模式,发现如DeepEval等新颖的、专为智能体设计的测试方法使用率极低(约1%),而传统的负面测试和成员测试等模式则被广泛采用以应对FM的不确定性。通过将这些模式映射到智能体框架和智能体应用的典型架构组件上,我们发现了一个根本性的测试投入倒置现象:确定性组件如资源构件(工具)和协调构件(工作流)占据了超过70%的测试投入,而基于FM的计划主体却仅获得不到5%的关注。尤为关键的是,触发组件(提示词)几乎被忽视,仅出现在约1%的测试中,这揭示了一个严重的盲点。 我们的研究首次为基于FM的智能体框架和应用提供了实证测试基准,揭示了在应对非确定性方面虽理性但不全面的适应策略。为解决这一问题,框架开发者应增强对新型测试方法的支持,应用开发者需采纳提示词回归测试,而研究者则应探索阻碍这些方法采用的障碍。强化这些实践对于构建更健壮、更可靠的AI智能体至关重要。
分布匹配是众多视觉与图形处理任务的核心,其中广泛应用的Wasserstein距离在高维分布计算中成本过高。切片Wasserstein距离(SWD)提供了一种可扩展的替代方案,但其蒙特卡洛估计器存在高方差问题,导致梯度噪声大且收敛速度慢。我们提出了Reservoir SWD(ReSWD),它将加权蓄水池采样融入SWD中,在优化步骤中自适应地保留信息丰富的投影方向,从而在保持无偏性的同时获得稳定的梯度。在合成基准测试及色彩校正、扩散引导等实际任务中的实验表明,ReSWD始终优于标准SWD及其他方差缩减基线方法。项目页面:https://reservoirswd.github.io/
课程学习在提升大语言模型(LLMs)于推理任务上的训练效率中扮演着关键角色。然而,现有方法往往未能充分考虑提示难度的变化,或依赖于简单的筛选机制在狭窄的标准范围内选择提示数据集,导致显著的计算资源浪费。本研究中,我们从强化学习梯度优化的视角切入,系统且理论地探讨了如何提升LLMs的训练效率。我们识别出影响训练效率的两大关键因素:训练提示的选择以及不同提示间rollout数量的分配。理论分析表明,提示的采样分布决定了梯度下降的收敛速度,而rollout数量的分配则影响整体梯度更新的一致性与稳定性。基于这些洞见,我们提出了CurES,一种高效训练方法,它加速了收敛过程,并采用贝叶斯后验估计以最小化计算开销。实验结果显示,CurES在1.5B和7B模型上分别比组相对策略优化(GRPO)高出+3.30分和+4.82分。此外,与包括GRPO在内的基线方法相比,CurES展现了更快的收敛速度。
大型语言模型(LLMs)在多轮推理场景中的研究日益增多,其中模型会根据用户提供的反馈迭代优化其输出。此类场景对于需要复杂推理的任务至关重要,然而现有的反馈范式通常依赖于发送新消息。LLMs在可靠整合这些反馈方面存在困难,导致改进效果不一致。在本研究中,我们引入了原位反馈这一新颖的交互范式,用户直接编辑LLM的先前响应,模型则基于这一修改后的响应生成修订版本。在多种推理密集型基准上的实证评估表明,原位反馈相较于传统的多轮反馈实现了更优的性能,同时减少了79.1%的token使用量。在受控环境中的补充分析进一步证实,原位反馈解决了多轮反馈的一个核心局限:模型往往无法精确地将反馈应用于响应中的错误部分,导致错误未被纠正,有时甚至会在原本正确的内容中引入新的错误。这些发现表明,原位反馈为引导LLMs在推理密集型任务中提供了更为自然且有效的机制。
学习复杂、长期任务的控制策略是机器人与自主系统领域的一项核心挑战。信号时序逻辑(STL)为此类任务提供了一种强大且表达丰富的规范语言,但其非马尔可夫特性及固有的稀疏奖励使得标准强化学习(RL)算法难以直接求解。以往的RL方法仅局限于处理有限的STL片段,或将STL鲁棒性评分作为稀疏的终端奖励。本文提出TGPO(时序基础策略优化),旨在解决一般性的STL任务。TGPO将STL分解为时序子目标与不变约束,并构建了一个层次化框架来应对这一问题。TGPO的高层组件为这些子目标分配具体的时间,而低层的时间条件策略则利用密集的阶段奖励信号学习达成序列化的子目标。在推理阶段,我们采样多种时间分配方案,并选择最有潜力的分配让策略网络展开解决方案轨迹。为促进包含多个子目标的复杂STL任务的高效策略学习,我们利用已学习的评论家通过Metropolis-Hastings采样指导高层时序搜索,将探索集中于时间上可行的解决方案。我们在五个环境中进行了实验,涵盖低维导航、操作、无人机及四足机器人运动。在广泛的STL任务下,TGPO显著超越了现有最先进的基线方法(特别是在高维与长期任务场景中),任务成功率平均提升了31.6%。代码将发布于https://github.com/mengyuest/TGPO。
在本研究中,我们提出了一种将预训练视觉编码器对齐作为潜在扩散模型在图像生成中的分词器的方法。与从头训练变分自编码器(VAE)主要关注低层次细节不同,我们的方法充分利用了基础编码器丰富的语义结构。我们引入了一种三阶段对齐策略:(1)冻结编码器并训练适配器和解码器,以构建语义潜在空间;(2)通过引入额外的语义保持损失联合优化所有组件,使编码器在捕捉感知细节的同时保留高层次语义;(3)优化解码器以提升重建质量。这种对齐过程产生了语义丰富的图像分词器,为扩散模型带来了显著优势。在ImageNet 256×256数据集上,我们的分词器加速了扩散模型的收敛,仅用64个周期就达到了1.90的gFID,并在有无分类器自由引导的情况下均提升了生成效果。扩展到LAION数据集,一个使用我们分词器训练的20亿参数文本到图像模型,在相同训练步数下持续优于FLUX VAE。总体而言,我们的方法简洁、可扩展,并为连续分词器设计确立了语义基础的新范式。
尽管大型语言模型(LLMs)能力强大,但其内部表征仍显晦涩难懂。现有的可解释性方法,如直接对数归因(DLA)和稀疏自编码器(SAEs),因受限于模型的输出词汇表或特征命名不明确,提供的洞察力有限。本研究引入了一种新颖的解码范式——高维探针,旨在从LLM向量空间中解码信息。该探针融合了符号表征与神经探测的思想,通过向量符号架构(VSAs)将模型的残差流投射为可解释的概念。这一探针结合了SAEs与传统探针的优势,同时克服了它们的关键局限。我们通过控制输入完成任务验证了我们的解码范式,在涵盖句法模式识别、键值关联及抽象推理的输入上,探测模型在下一词预测前的最终状态。此外,我们还在问答场景中评估了该探针,考察了模型在文本生成前后的状态。实验表明,我们的探针能够可靠地提取跨不同LLMs、嵌入大小及输入领域的有意义概念,并有助于识别LLM的失败案例。本研究推动了LLM向量空间中的信息解码,使得从神经表征中提取更具信息性、可解释性和结构化的特征成为可能。