每日精选AI研究论文及翻译
现代图像生成要求单个模型能够统一多种能力,包括文生图、局部编辑和全局编辑。然而,这些能力往往难以自然对齐,甚至相互冲突。例如,编辑操作会降低文生图性能,而全局编辑与局部编辑之间也会相互干扰。因此,如何有效整合这些能力已成为图像生成模型训练的核心挑战。为解决这一问题,我们提出DanceOPD——一种面向流匹配模型的在线生成场蒸馏框架。该框架将每个样本路由至特定能力场,查询一个低噪声的学生生成状态,并通过简单的速度均方误差目标进行训练。当每个能力源被定义为共享流状态空间上的速度场时,学生模型通过查询其自身滚动状态下的场来学习整合专家能力。该框架还能吸收算子定义场,如无分类器引导。在文生图、编辑、真实性场吸收及CFG吸收任务上的全面实验表明,我们的方法改进了多能力整合效果,在增强目标能力的同时保持锚定生成质量。我们相信这项工作为流匹配模型中的生成场蒸馏建立了一条实用路径。
对文本与视觉的统一表征是自然的研究追求,因为它能实现更简洁的多模态建模和更高效的训练。然而,以与文本相同的方式将图像表示为离散信号不可避免地会导致严重的信息损失。现有研究在平衡离散表示中的低层细节与高层语义时面临困境:面向重建的表示往往缺乏语义信息,而语义更强的特征则通常遭受严重的细节丢失。我们提出ViQ(视觉量化表示框架),旨在离散表示中平衡语义与细节,同时支持原生分辨率输入,从而使其能够作为任意视觉输入的统一通用离散表示。我们的方法将量化学习划分为两个阶段:文本对齐预训练和特征离散化。通过文本对齐预训练,我们利用预训练语言模型增强视觉编码器的语义丰富监督,并使其能够处理原生分辨率视觉输入。在离散化过程中,我们提出一种近端表示学习策略以逐步压缩特征空间,同时引入位置感知的头级量化机制,使其能够灵活处理任意分辨率。多模态任务的广泛实验表明,与采用连续高维视觉特征的最先进多模态视觉编码器相比,ViQ在保持低层重建高精度的同时实现了具有竞争力的性能。我们还证明,使用视觉量化表示进行多模态训练可大幅提升效率,在不同基础大语言模型和训练策略下可实现20%至70%的加速。
基于结果的强化学习为语言智能体提供了稳定的优化基础,但其稀疏的轨迹级奖励难以对中间决策的强化或抑制提供有效指导。在线策略自蒸馏能提供密集的令牌级监督,然而现有技能条件变体通常依赖外部技能记忆库或检索到的特权上下文,这些方法不仅维护成本高昂,在多轮交互中还可能偏离当前策略所引发的状态分布。我们提出OPID(在线策略技能蒸馏)框架,该框架直接从已完成的在线策略轨迹中提取技能监督信息。OPID将轨迹事后分析表示为分层技能:回合级技能捕获全局工作流程或故障规避规则,而步骤级技能则捕获关键时间步的局部决策知识。关键优先路由机制在检测到关键决策时启用步骤级技能,否则默认使用回合级技能作为指导。将所选技能注入交互历史后,旧策略可在原始上下文与技能增强上下文下对同一采样响应进行重新评分。由此产生的对数概率偏移形成令牌级自蒸馏优势,并与结果优势结合用于策略优化。因此OPID既保持了强化学习作为主要训练目标,又引入了密集且与分布匹配的事后监督。在ALFWorld、WebShop和基于搜索的问答上的实验表明,与仅使用结果的强化学习和现有技能蒸馏基线相比,OPID普遍提升了智能体性能、样本效率和鲁棒性。我们的代码已开源在 https://github.com/jinyangwu/OPID/tree/main。
尽管文本到图像(T2I)模型已取得显著进展,但在处理现实场景中那些表述模糊、隐含或依赖最新知识的复杂请求时仍显不足。我们将这一挑战定义为“上下文鸿沟”:即用户上下文与T2I模型所需的充分生成上下文之间的不匹配。为弥合这一鸿沟,我们提出了Qwen-Image-Agent——一个以上下文为中心的统一代理框架,集成了规划、推理、搜索、记忆和反馈机制。该框架将用户输入视为部分上下文,并通过“上下文感知规划”与“上下文锚定”逐步构建完整的生成上下文。具体而言,上下文感知规划负责识别缺失的上下文并规划其获取与使用方式,而上下文锚定则通过推理、搜索、记忆和反馈机制收集这些上下文信息。为评估代理式图像生成能力,我们进一步引入了Image Agent Bench(IA-Bench)基准测试,涵盖代理图像生成的四大核心能力:规划、推理、搜索与记忆。在IA-Bench、Mindbench和WISE-Verified上的实验结果表明,Qwen-Image-Agent显著超越强基线模型,达到了当前最佳性能水平。
一种经典直觉认为,验证解决方案比生成解决方案更容易。然而对于当今的编码智能体而言,这种直觉正在被颠覆:随着基础模型推理能力不断增强、工程体系日益成熟,生成复杂的候选方案已不再是难题——而可靠地验证这些方案反而成了更具挑战性的问题。我们所能构建的任何验证器都只是人类意图的代理,而非意图本身。这使得验证面临双重困难:其一,意图本质上具有不充分指定性,导致难以忠实地检验其是否被实现;其二,在模型训练过程中,优化会扩大代理与意图之间的差距——表现为奖励破解或信号饱和。针对这一问题,我们从三个维度——可扩展性、忠实性和鲁棒性——来刻画验证信号的质量,并指出同时实现这三者才是核心挑战。我们进一步研究了四种奖励构建方式:面向通用编码任务的测试验证器、面向前端任务的评分标准验证器、面向真实世界智能体任务的用户验证器,以及面向长周期任务的自动化智能体验证器。针对不同任务类型和策略能力水平,我们对奖励设计的核心挑战以及如何更有效地利用奖励信号进行了深入分析与实验。实验表明,针对性的验证设计能够有效抑制奖励破解、提升任务完成质量,并在多个内部和公开基准上取得显著提升。这些经验共同指向一个核心观察:没有固定的奖励函数能够随着策略能力的持续提升而始终保持有效;验证必须与生成器协同进化。
推测解码通过草拟多个令牌并并行验证,加速自回归大语言模型,但其面临扩展瓶颈:仅在接受率保持较高且草拟开销较低时,增加草拟预算才能提升速度。这一天花板难以突破,因为此前基于头部的推测解码方法面临因果-效率困境。自回归草拟器生成的路径条件候选令牌适用于树形推测解码,可获得更高的接受长度,但其草拟成本随树深度增长。双向模块扩散草拟器可一次生成所有位置,但其与分支无关的边缘分布可能形成单个合理但相互矛盾的树形结构,浪费预算并降低接受率。我们提出JetSpec,一种基于头部的推测解码框架,将单次前向草拟效率与分支级因果条件结合。JetSpec在冻结目标模型的融合隐状态上训练因果并行草拟头,生成的候选树得分与目标模型的自回归因式分解对齐。这使得JetSpec能够将更大的草拟预算转化为更长的接受前缀和更高的端到端加速比。在密集与MoE Qwen3模型的数学、编程和对话基准测试中,JetSpec持续优于双向头部和树形推测解码基线。在H100 GPU上,JetSpec在MATH-500上实现最高9.64倍加速,在开放式对话工作负载上实现4.58倍加速,并通过vLLM集成在真实服务负载下进一步降低延迟。我们的代码和模型可在https://github.com/hao-ai-lab/JetSpec获取。
计算机使用型智能体能够通过图形界面或程序化命令界面执行软件任务,但现有评估体系混淆了交互模态与任务、初始状态、验证器及允许操作之间的差异。我们引入了一个包含18款应用程序、12个工作流类别、共440项桌面任务的匹配执行层基准测试,在该测试中,纯屏幕GUI智能体与技能中介型CLI智能体接收完全相同的目标、状态和最终状态验证器,并严格限制使用其模态原生操作。在这种受控条件下,最强的GUI智能体达到59.1%的完全通过率,优于最强原始技能CLI智能体的48.2%;然而,经验证器引导的技能增强使CLI成功率提升至69.3%,这表明CLI的缺陷主要源于技能覆盖不全,而非单纯模型能力不足。这些结果表明,GUI与CLI暴露出不同的执行瓶颈:GUI智能体受限于长周期工作流中可靠的实体交互能力,而CLI智能体则受限于其技能界面的覆盖范围与可扩展性。
联合嵌入预测架构(JEPAs),包括近期的LeWorld模型(LeWM),已成为无重建视觉世界模型的有力基础。然而,在视觉规划中,LeWM通过重复应用局部单步潜在状态转移模型来评估候选动作序列。这种自回归展开使得规划计算成本高昂,并且随着规划步长的增加,预测轨迹会累积潜在误差。我们提出快速LeWorld模型(Fast-LeWM),这是一种快速潜在世界模型,它用动作前缀预测替代了重复的局部展开。给定当前潜在状态和候选动作序列,Fast-LeWM对其前缀进行编码,并并行预测执行这些前缀后所达到的未来潜在状态。通过将动作前缀作为基本预测单元,Fast-LeWM直接建模不同动作前缀在不同规划步长下累积的动作效果。这种前缀级别的监督迫使模型学习状态如何在不同动作前缀下连续演化,而不仅仅是拟合单步状态转移。在规划过程中,预测器可以利用编码动作序列中的最后一个前缀标记来评估相应的未来潜在状态,而无需显式遍历每个中间想象状态。在多个任务中,Fast-LeWM相比LeWM提升了平均成功率,同时大幅减少了规划时间,并实现了更低的开环潜在损失,且其增长随规划步长增加而显著减缓。
工具使用使得大型语言模型(LLMs)能够执行复杂任务,而近期基于智能体的强化学习(RL)方法在提升模型能力方面展现出潜力。然而,在工具使用任务中,单独使用强化学习往往会导致训练不稳定或性能提升有限。我们的实验发现,部分模型会出现灾难性崩溃,表现为性能突然下降且工具调用结构失效。分析表明,这些失败源于特定控制令牌中出现意外概率尖峰,破坏了结构化执行流程,但底层工具使用能力并未丧失,仅因特定格式问题而受到遮蔽。针对这一问题,我们系统研究了多种监督信号,包括离策略监督、提示引导、错误示例监督等,并在同步与交错两种训练方案下进行应用。研究发现,将监督微调(SFT)与强化学习交替进行能显著提升稳定性,但在格式与内容均出现分布外(OOD)的评估场景中性能有所下降。我们还分析了学习率的影响及不同设置下的泛化表现。这些结果凸显了理解强化学习失败机理的重要性,并展示了多样化的监督信号如何引导探索性学习,从而实现对复杂多步工具使用任务的鲁棒训练。我们的代码已开源:https://github.com/hypasd-art/Tool-RL-Box。
随着智能体系统不断发展并在现实场景中广泛部署,对其实力的忠实评估需求日益增长。然而,当前的基准测试通常基于任务相对简单的热门应用,且聚焦于狭窄的能力维度而忽略了更广泛的方面,导致现代智能体在这些测试中表现趋于饱和,难以探知其局限性。为此,我们推出了GauntletBench——一个基于Web的基准测试,旨在评估智能体在挑战性场景中的泛化能力。该测试聚焦于三个未被充分探索的能力维度(时间感知、图形理解与3D推理),涵盖五个覆盖较少的专业应用领域(视频编辑器、工作流构建器、3D建模器、飞行分析器与电路设计器),每个领域包含20个视觉密集型任务(共100项)。我们的基准测试提供了一套模块化流水线,包括兼容开源与闭源智能体框架的环境、受控的Web应用、结构完善的任务套件,以及集成多种指标的自动化评估引擎。与普遍预期相反,实验结果表明,前沿智能体系统远未达到人类水平。即使是最先进的智能体,在GauntletBench上的成功率也仅为19.1%,凸显了其在被忽视的能力与泛化性方面的局限。相比之下,非专业的人类标注者在我们充满挑战性但切实可行的任务中实现了超过80%的成功率,揭示了当前智能体能力与复杂现实场景所需能力之间的显著差距。
当前主流的双分支范式,即通过训练侧网络编码视觉条件,并将其中间层特征融合到冻结的预训练主网络中,已在视觉条件可控生成任务中取得了显著成功。尽管这一方法被广泛采用,但侧分支的作用及其训练效率仍未被充分探索。本文首先从基于分数的生成建模视角重新审视这一主流范式:1) 主网络通过提供先验无条件分数来保持视觉感知质量;2) 侧网络通过隐式贡献似然分数来引导条件控制。基于此视角,我们提出似然分数对齐(LISA),一种有效的正则化方法,通过显式地将侧网络的中间层特征与近似的似然分数目标对齐。具体而言,我们首先从侧网络的指定层钩取特征,并通过轻量级解码器将其投影到分数隐空间。随后,我们构建近似的似然分数目标,计算解码器输出与该目标之间的距离作为额外正则化损失。最后,我们联合优化侧网络和解码器,同时使用标准扩散损失与正则化损失。在多种图像/视频任务、架构以及扩散/流模型上的实验表明,LISA不仅能持续加速训练收敛、提升最终合成结果质量,还能促使侧网络特征在条件建模中更具解耦性,且仅增加极小的训练成本,推理阶段则无额外开销。
视频推理语言模型隐含地假设每一帧输入都具有相同的可靠性。这导致了我们称之为“盲目信任问题”的现象:在运动模糊、眩光或遮挡等现实扰动下,前沿视频推理模型在真实世界具身基准测试中准确率可能下降15-30个百分点,且模型本身对视觉证据已退化的事实毫无察觉。为解决这一挑战,我们提出Robust-TO(鲁棒性工具组织框架),这是一种智能体化的视频理解框架,将逐帧可信度显式融入推理的每个阶段。Robust-TO将异构的视觉感知工具组织在统一证据接口下。每个工具接收从原始问题中派生出的子查询,以及一组由“可靠性-相关性”评分筛选出的可信帧。工具返回格式统一的证据:包含具体预测结果(如边界框、运动轨迹、识别文本或动作标签)、时间定位信息以及经校准的可信度评分。在推理过程中,这些经校准的评分会引导一个三级综合处理过程(高/中/低)中的证据加权,并定义一种置信-成本GRPO奖励函数,该函数联合优化正确性、证据可靠性和效率。在涵盖八个任务的两种视频推理基准测试上,Robust-TO在干净输入上达到56.4%的平均准确率,超过最强的开源基线模型10.6个百分点,并优于Gemini-2.5-Pro(46.2%)。在五种现实扰动的条件下,Robust-TO保持54.3%的平均准确率,比最强开源基线高5.8个百分点,同时在所有对比方法中展现出最小的从干净输入到受损输入的准确率下降幅度。
现代视觉-语言-动作(VLA)模型通常难以泛化到新环境,例如改变相机视角或机器人形态,因为这些模型往往仅依赖当前的观测和语言指令。由于将底层系统配置视为不变因素,这些模型隐含地假设了训练时遇到固定执行环境,因而针对任何新环境都需要进行数据密集型的微调。在本工作中,我们提出了上下文世界建模(ICWM)框架,将系统辨识视为一个上下文自适应问题。ICWM使机器人策略能够从短期的、自生成且与任务无关的交互历史中自主推断出关键的系统变量。与传统上下文学习利用示范来指定要执行的任务不同,ICWM利用上下文窗口来理解系统如何运作。通过在任务执行前处理这些交互,模型隐式地捕获了当前系统的世界动态,从而能够在无需更新参数的情况下适应新的配置。在仿真和真实机器人平台上进行的广泛实验表明,ICWM在应对新相机视角方面显著优于标准的VLA基线模型。
随着LLM智能体能够处理越来越长期的任务,评估其在经济系统中的表现变得日益重要。与主要评估单一智能体与被动环境交互的现有基准不同,经济系统本质上是多智能体系统,要求自主智能体在长期内追求自身目标的同时,进行沟通、协商和交易。我们推出了CoffeeBench,这是一个用于评估LLM智能体在由异构企业构成的长期多智能体经济中表现的基准。在CoffeeBench中,两名农民、两名烘焙师和两名零售商在90天的模拟中自主经营业务,每位参与者通过沟通和交易追求累计净收入最大化,同时管理现金、库存和定价。被评估的模型控制一家咖啡烘焙商,而其余企业由固定参考智能体控制。在多个近期开源的专有LLM中,所有模型均优于不采取任何行动的被动基线,大多数模型实现了正净收入。对智能体行为的分析揭示了长期经济互动中的显著差异:表现更好的模型与其他企业沟通更积极,而Claude Haiku 4.5则表现出“空闲漂移”的失败模式,尽管能生成连贯的评估和计划,却反复选择不作为。我们公开了代码和智能体轨迹,以支持未来研究。
现代生成式世界模型能够渲染出越来越逼真的、可动作控制的未来场景,但它们经常产生幻觉:生成的画面在视觉上保持流畅,却偏离了真实的动力学特性。我们假设幻觉集中在状态-动作空间的低覆盖区域,而轻量级的数据中心信号既能检测到它,也能指导缓解措施。为了验证这一假设,我们引入了MMBench2——一个包含427小时、210个任务的视觉世界建模数据集,带有真实动作、奖励和实时模拟器,并在其上训练了一个3.5亿参数的世界模型。我们识别出三种不同的幻觉模式:感知幻觉、动作边缘化幻觉和场景发散幻觉——每种模式分别对应于流程的不同阶段——并开发了三种能够准确预测模型将在何处失败的信号。为了在训练时弥合覆盖度差距,我们开发了一种覆盖度感知的采样技术;为了在线弥合差距,我们的幻觉预测器作为好奇心奖励用于针对性数据收集,从而产生一种数据高效的微调方案,使预训练的世界模型仅需少至50条真实环境轨迹就能适应完全未见过的环境。总体而言,我们的发现表明,世界模型中的幻觉本质上是一个数据覆盖度问题,而用于检测它的相同信号也可以用于缓解。 论文的交互式网页版可在 https://www.nicklashansen.com/mmbench2 查阅。
我们提出了PhysiFormer,这是一种用于物理可信的3D物体运动的扩散变换器。与在视角相关的像素空间中操作的视频世界模型不同,PhysiFormer将物体表示为以世界坐标表达的3D网格。给定初始顶点位置和速度,以及物体材质类型(刚体或弹性体),模型采样未来的顶点轨迹。虽然相关的神经物理方法基于临时设计的潜在空间或显式强制刚性和因果性,但PhysiFormer表明,通过将顶点轨迹预测直接作为世界坐标中的单一去噪扩散过程,无需任何此类归纳偏置即可获得出色的结果。该概率公式捕捉了所学动力学中的不确定性,使得从初始条件出发能够生成多样化的合理未来,使该框架可能适用于存在未观测到不确定性的应用。模型的特征是注意力在时间、空间和物体上分解以提高效率,无需显式的物体编码即可实现排列不变的多物体推理。在超过10万个模拟轨迹上训练后,PhysiFormer能够生成刚体和弹性力学,并推广到混合材质设置、未见过的真实世界几何形状以及更多物体数量。在轨迹精度、刚性保持和基于动量的物理一致性方面,它大幅优于自回归基线模型。我们的结果将坐标空间扩散定位为通往视角不变、几何感知的世界建模的有希望的步骤,适用于机器人、图形学和物理设计。可视化、代码和模型可在https://yimingc9.github.io/physiformer获取。
尽管奖励模型被广泛使用,但其在强化学习中的作用仍未被充分理解。这类模型提出了一项颇具诱惑力的承诺:在没有验证器或人类评审者的情况下,自动评估响应质量。与通常产生二元分数的“可验证奖励”不同,奖励模型通常生成连续分数,从而能够捕捉响应中的细微差异。然而,我们证明这一看似优势实则是严重缺陷:许多流行的奖励模型过度敏感,对同样优秀的响应给出不同分数。理论上,我们表明看似完美的奖励模型可能高度过度敏感;实证上,这种过度敏感可能导致糟糕的策略。针对现有的“奖励模型准确性”概念,我们提出使用独立的“区分能力”和“特异性”(过度敏感的补集)指标来评估奖励模型。作为解决方案,我们描述了一种无需训练的算法,该算法通过对任何神经奖励模型应用蒙特卡洛丢弃法,生成离散奖励簇。理论上,我们证明存在以最小化区分能力损失为代价降低过度敏感性的离散化方法;实证上,我们展示在受控及自然强化学习环境中,对奖励进行离散化处理比基于原始奖励进行训练更能减少奖励破解并获得更优策略。
近年来,大语言模型(LLMs)的推理能力取得了显著进展,这导致其在预填充和解码阶段的键值(KV)缓存规模日益增大。现有KV缓存压缩方法主要依赖注意力权重来估计令牌重要性。虽然注意力机制能有效捕捉上下文相关性,但它忽略了与预测不确定性和令牌信息量相关的互补信息论信号。本文从前瞻性视角重新审视令牌重要性,并提出一种名为“Forward Influence”的度量指标,用于衡量压缩后的令牌对后续上下文的影响程度。我们的分析表明:由注意力分数选中的令牌主要影响邻近上下文,而高预测不确定性相关的令牌则对较远的未来上下文展现出显著更强的影响力。基于这一发现,我们提出InfoKV——一种融合信息论信号的熵感知KV缓存压缩框架。该框架将令牌级预测不确定性与逐层表示演化相结合,并在推理过程中将由此产生的熵分数与注意力分数进行整合。在基于Llama-3.1、Llama-3.2和DeepSeek-R1的长上下文推理基准测试中,实验结果表明:无论是长预填充还是长解码场景,InfoKV均持续优于现有基于注意力的KV压缩方法。
过程奖励模型能够对大型语言模型进行细粒度的分步评估,然而在智能体场景下构建此类模型仍极为困难:长程交互、不可逆操作以及随机环境反馈,使得人工标注和蒙特卡洛估计在大规模应用中均不可行。在本文中,我们证明强化学习后训练本身已具备实现有效步骤级评分所需的要素,从而完全无需额外训练专门的奖励模型。具体而言,我们推导出通用随机马尔可夫决策过程中的隐式优势——我们将之称为“进步优势”:经过强化学习训练的策略与其参考策略之间的对数概率比,恰好能够还原最优优势函数。这一形式使得所获信号无需标注、无关领域,且是标准强化学习后训练流程的副产品。我们通过五项基准测试和四个模型系列,在测试时扩展、不确定性量化以及失败归因三种不同应用中验证了进步优势的有效性。在所有设置下,它均持续优于基于置信度的基线方法,且尽管无需针对特定任务进行训练,却超越了专门训练的奖励模型。我们进一步结合对进步优势特性的深入分析,为实际智能体系统的应用提供实践指导。
尽管生成式人工智能在解决具有可验证答案的问题方面取得了显著成功,但生成既满足严格几何约束又符合主观视觉美感的实体艺术仍然是一项挑战。本文提出了一种方法,以应对计算折纸这一领域中的这些难题——计算折纸是一种数学上严谨的环境,将艺术设计植根于平面可折叠性的方程之中。我们提出了COrigami,这是一个端到端的人工智能驱动流水线,通过从自然语言生成折痕图案来辅助设计流程。该流水线包括生成语义简笔画、计算基础排布、求解可平面折叠的折痕图案、塑造折叠后的折痕图案,以及通过基于自主审美评估循环的强化学习优化生成模型。我们的系统充当了高度有效的协作助手,能够生成结构化的起点,供人类艺术家进一步扩展和塑造。通过将算法优化与自主审美批判相结合,这项工作展示了人工智能系统如何满足多目标物理约束,从而实现可靠且具有数学基础的协同创造力。
多模型大语言模型系统(如路由、投票、级联、融合与混合代理)常用于超越单模型准确率。本文表明,这些系统的增益受限于该领域鲜有报告的一个量:对于输出为某个成员模型答案的任何策略,其准确率不能超过 1 减去 β,其中 β 是每个模型在同一查询上都出错的比率。相比之下,常用诊断指标——平均成对误差相关性 ρ——无法识别 β:具有相同边际分布和成对相关性的误差定律可能对应不同的全错率。对 β 的 Clopper-Pearson 界限给出了一个有限样本保证,即在训练路由之前,任何路由器、投票或级联所能带来的最大增益。 在来自 21 个提供商的 67 个模型中,一个经四分相关校准的单因子模型仍低估了全错尾部:在开放式数学问题上,观测到的 β 为 0.052,而在完整 67 模型高斯 copula 下为 0.023,低估约 2.5 倍,90% 置信区间为 1.7 至 3.4,且 k = 17。该效应在执行评分代码的任务上重现,β 为 0.079。将相同的 GPQA-Diamond 问题以自由作答而非多项选择形式重新提问,尾部再次张开,β 为 0.127,由五位评委组成的评审团(卡帕系数 0.73 至 0.92)将共失败归因于答案格式而非主题。在质量对等时,低 ρ 的异质集成优于高 ρ 的 Self-MoA,但在我们的可检查任务池中,若无强有力的查询级路由信号,组合模型很少能超越单一最佳模型。增益来自模型在不同问题上失败,而非增加更多模型。
一个有效的引文看似是证据,但链接可解析并不意味着被引论文确实支持该论断。我发现当前的智能体模型极少捏造引文(解析率超过99%),但约有15.9%的引文指向了错误的论文。现有基准测试遗漏了这一失效模式:当问题存在固定答案密钥时,模型可以从该密钥中复现预期来源,而非独立验证该来源是否支持论断。为此,我提出了\openbiorq{}——一个基于检索驱动的智能体基准测试,涵盖12个领域中的12,553个未解决的生物医学研究问题,将开放性问题作为忠实性与弃权探针。据我所知,这是首个将智能体场景(模型必须执行多次工具调用)与无答案密钥的未解决问题相结合的生物医学基准测试。开放性的验证基于真实的后续证据,而非模型的参数化知识。难度是经验性的:我以三个开放权重参考模型未能回答的问题作为难度锚点,而非依赖主观难度标签。在这一最难子集上,与难度锚点同源的保留模型仅能解决约17%的问题,而三个独立的前沿智能体(Gemini-3-Pro、Opus-4.7、GPT-5.5)的解决率跨度达29-60%。因此,该基准测试难度高、未饱和(最优智能体仍有约33-40%的问题未解决),并能有效区分能力层级。除难度外,我观察到在最难问题上出现了智能体崩溃现象,即智能体停止使用工具。对于最容易崩溃的模型,完全禁用工具后其得分几乎没有变化——因此工具在最需要它们的地方却失去了效用。采用每个问题固定化的检查清单后,评审者间的一致性从斯皮尔曼相关系数0.35提升至0.82。
地球观测(EO)预测旨在根据卫星观测在变化的气象条件下预测未来的地球表面动态。本文将这一任务视为一个部分观测的、天气驱动的世界建模问题,其中天气作为条件信号,但由于观测稀疏和未观测的地表状态,预测仍存在不确定性。然而,现有方法并未完全捕捉这一设定:确定性模型将不确定性压缩为单一未来预测,而基于扩散的方法通常将天气变量视为无差别的条件信号,现有基准主要关注重建精度,而非预测是否对变化的天气强迫做出正确响应。我们提出EO-WM,一种用于多光谱地球观测预测的视频扩散Transformer。EO-WM采用物理信息条件框架,通过气候基线、天气异常和累积物理胁迫信号来表示气象强迫。具体而言,它通过不同的条件路径分离基线与异常,并随时间累积异常强迫以捕捉持续的热胁迫和干旱胁迫。为了在标准指标之外评估天气响应行为,我们引入两个诊断基准:极端夏季基准(用于极端天气下植被退化的严重程度感知预测)和季节配对基准(用于测试在变化的天气强迫下的响应保真度)。实验表明,EO-WM在预测归一化植被指数(NDVI)下降幅度上的误差相对降低5.63%,方向命中率相对提升7.80%,同时在标准像素级指标上保持竞争力。该基准和模型将在https://github.com/Luo-Z13/EO-WM开源。
生物学科学推理模型将语言模型与基于多模态生物数据(包括DNA、RNA和蛋白质)训练的基础模型相结合。这些模型通过后训练构建,然而每个阶段如何塑造推理与泛化能力仍知之甚少。我们研究了后训练何时提升性能、何时引发过度专业化。在基因组学、转录组学和蛋白质组学领域,我们通过控制骨干网络、继续预训练(CPT)、监督微调(SFT)和强化学习(RL)等变量,训练并评估了超过100个生物学推理模型,同时测量其域内(ID)和域外(OOD)性能。研究发现,每个后训练阶段并非带来均匀的性能增益,而是以独特方式重塑泛化能力。CPT通过使模型与生物语言对齐来提升下游性能;SFT持续提高域内性能,但导致域外性能过早达到峰值,随后因模型拟合训练分布而下降;将RL应用于具备对齐奖励的强SFT检查点时,能提升域外性能并部分恢复泛化能力。这些结果表明,生物学推理并非随额外监督或计算投入而单调提升,相反,其性能取决于训练阶段的组合方式。在固定后训练预算下,实现最强域内-域外性能权衡的关键在于:短时SFT、更大的RL资源分配,以及各阶段间不对称的适应能力。