每日精选AI研究论文及翻译
尽管科学AI取得了进展,但科学通用智能(SGI)——即跨科学领域自主构思、探究和推理的能力——仍缺乏统一框架。我们提出基于实践探究模型(PIM:审议、构思、行动、感知)的可操作SGI定义,并通过四项与科学家工作对齐的任务实现其操作化:深度研究、创意生成、干/湿实验及实验推理。SGI-Bench包含受《科学》杂志125个重大议题启发而构建的千余个专家跨学科样本,可系统评估前沿大语言模型。结果揭示多重差距:深度研究步骤对齐但精确匹配率低(10-20%);创意缺乏可行性与细节;干实验代码可执行性高但结果准确率低;湿实验流程序列保真度不足;多模态比较推理挑战持续存在。我们进一步提出测试时强化学习(TTRL),通过在推理阶段优化检索增强的新颖性奖励,无需参考答案即可提升假设新颖性。基于PIM的定义、以工作流为核心的基准测试及实证洞察,共同为真正参与科学发现的AI系统奠定了基石。
机器人泛化能力依赖于物理智能:即在具身感知与行动中,推理状态变化、密集接触交互和长时序规划的能力。然而,大多数视觉语言模型主要基于第三人称数据训练,导致人形机器人存在根本性的视角错配。由于成本高昂和多样性有限,规模化采集机器人本体视角数据仍不现实,而大规模人类第一人称视频自然包含了丰富的交互情境与因果结构,可作为可扩展的替代方案。核心挑战在于如何将原始第一人称视频转化为结构化、可靠的具身训练监督信号。为此,我们提出Egocentric2Embodiment转换框架,通过证据锚定与时序一致性约束,将第一人称视频转化为多层级、模式驱动的视觉问答监督数据,从而规模化构建E2E-3M数据集。基于该数据集训练得到的具身智能模型PhysBrain,在EgoThink任务中展现出显著增强的第一人称理解能力,特别是规划方面。该模型提供的本体感知初始化权重,可实现更高效的视觉语言动作模型微调,并在SimplerEnv环境中获得53.9%的成功率,证明了人类第一人称监督信号向下游机器人控制的有效迁移。
尽管大型推理模型(LRMs)展现出卓越性能,但其推理行为常违背直觉,导致推理能力未达最优。为从理论层面形式化描述理想推理行为,本文提出推理定律(Laws of Reasoning, LoRe),这一统一框架可刻画LRMs的内在推理模式。我们首先提出计算定律,其核心假设是推理计算量应与问题复杂度呈线性增长。除计算量外,我们通过补充精度定律扩展了LoRe框架。由于问题复杂度在实践中难以量化,我们通过定律的单调性与组合性这两个特性来验证假设。据此推出LoRe-Bench基准测试,系统化衡量大型推理模型在这两个可量化特性上的表现。评估表明,大多数推理模型具备合理单调性但缺乏组合性。为此,我们开发了一种强制实现计算定律组合性的高效微调方法。大量实证研究证明,更好遵循计算定律能持续提升模型在多个基准测试中的推理性能,并揭示特性与定律间的协同效应。项目页面:https://lore-project.github.io/
近期,大型语言模型在生成严谨数学证明方面取得显著进展。然而,利用LLM进行形式化语言(如Lean)的定理证明仍具挑战性且计算成本高昂,尤其在处理本科及以上难度的问题时。本研究提出Seed-Prover 1.5模型——一个通过大规模智能体强化学习训练的形式定理证明模型,并配套高效测试时扩展工作流。该模型通过与Lean等工具的持续交互,在强化学习过程中不断积累经验,显著提升了形式化定理证明的能力与效率。此外,基于自然语言证明的最新进展,我们的测试时扩展工作流有效弥合了自然语言与形式化语言之间的鸿沟。相比现有最优方法,Seed-Prover 1.5以更小的计算预算实现了更优性能:在PutnamBench(本科难度)中解决88%问题,在Fate-H(研究生难度)中解决80%问题,在Fate-X(博士难度)中解决33%问题。值得注意的是,使用本系统仅用9小时就解决了2025年普特南数学竞赛12道题目中的11道。我们的研究表明,基于高质量形式化反馈的经验学习规模化扩展,将为形式化数学推理的未来发展开辟巨大潜力。
现代潜在扩散模型(LDM)通常运行在低层级变分自编码器(VAE)的潜在空间中,这些空间主要针对像素级重建进行优化。为统一视觉生成与理解任务,新兴趋势是采用表征编码器的高维特征作为生成潜变量。然而我们通过实验发现该范式存在两个根本性障碍:(1)判别性特征空间缺乏紧凑正则化,导致扩散模型易产生偏离流形的潜变量,进而引发物体结构失真;(2)编码器固有的弱像素级重建能力阻碍生成器学习精确的细粒度几何结构与纹理。本文提出系统化框架,将面向理解任务的编码器特征适配于生成任务。我们引入语义-像素双重重建目标来正则化潜在空间,将语义信息与细粒度细节共同压缩至高度紧凑的表征(96通道且空间下采样16倍)。该设计既确保潜在空间保持语义丰富性并实现最优图像重建,又维持足够紧凑性以支持精确生成。基于此表征,我们设计了统一的文本到图像(T2I)与图像编辑模型。通过与多种特征空间对比实验表明,本方法在T2I和编辑任务中均实现最优重建质量、更快收敛速度及显著性能提升,验证了表征编码器可有效转化为鲁棒的生成组件。
尽管多模态大语言模型(MLLMs)取得了进展,但其在三维结构和时序动态推理方面的能力仍受限于薄弱的四维感知与时序理解。现有3D/4D视频问答基准同样侧重于静态场景且缺乏区域级提示机制。为解决这些问题,我们提出:(a)4D-RGPT——专为从视频输入中捕捉四维表征而设计的MLLM,具备增强的时序感知能力;(b)感知四维蒸馏(P4D)训练框架,将冻结专家模型的四维表征迁移至4D-RGPT以实现全面四维感知;(c)R4D-Bench——通过人机协同验证流程构建的深度感知动态场景基准,支持区域级提示。实验表明,我们的4D-RGPT在现有4D VQA基准及新提出的R4D-Bench基准上均取得显著提升。
LLM即评委(LLM-as-a-Judge)作为一种评估方法已被广泛采用,并在模型训练中充当监督奖励信号。然而,现有的LLM即评委基准主要依赖人工标注的基准真值,这不仅引入了人为偏差、削弱了可靠性评估,还带来了可扩展性限制。为突破这些局限,我们推出Sage——一种无需任何人工标注即可评估LLM评委质量的新型评估套件。受理性选择理论公理启发,Sage引入两个全新维度来衡量LLM即评委的表现:局部自一致性(成对偏好的稳定性)与全局逻辑一致性(完整偏好集的传递性)。我们通过结合结构化基准问题与真实用户查询,构建了包含650个问题的数据集。实验证明,我们的指标不仅具有稳定性,且与LLMBar、RewardBench2等监督式基准保持高度相关性,证实了Sage作为评估LLM即评委鲁棒性与准确性的可靠性。基于Sage评估,我们发现当前最先进的LLM在评分和成对比较两种场景下担任评委时均存在显著可靠性问题:即使是表现最佳的Gemini-2.5-Pro和GPT-5模型,在近四分之一的高难度案例中仍无法保持偏好一致性。我们将此归因于一种称为“情境偏好”的新现象,该现象解释了为何明确的评分标准或准则能帮助模型在答案对之间保持判断一致性。进一步分析表明,微调LLM即评委是一种有效的性能提升手段,而委员会制评委机制与深度推理能力均可增强判断一致性。我们还发现人类判断存在显著不一致性,这表明人工标注可能并非可靠的黄金标准。
我们提出RadarGen——一种基于多视角摄像头图像生成真实汽车雷达点云的扩散模型。该模型通过鸟瞰图形式表征雷达测量值(包含空间结构、雷达散射截面和 Doppler 属性),将高效的图像潜空间扩散技术适配到雷达领域。轻量级重建模块可从生成的特征图中恢复点云。为实现生成结果与视觉场景的精准对齐,RadarGen 融合了从预训练基础模型提取的 BEV 对齐深度、语义和运动线索,引导随机生成过程形成物理可信的雷达模式。基于图像的条件生成机制使该方法原则上能广泛兼容现有视觉数据集与仿真框架,为多模态生成式仿真提供了可扩展路径。大规模驾驶数据评估表明,RadarGen 能准确捕捉雷达测量值的特征分布,并缩小与真实数据训练的感知模型之间的差距,标志着跨传感模态统一生成式仿真迈出重要一步。
视觉定位技术旨在通过自然语言描述实现物体定位,是连接语言与视觉理解的关键桥梁。尽管多模态大语言模型(MLLMs)在现有基准测试中表现优异,但核心问题依然存在:它们究竟是真正实现了类人水平的语言-视觉关联能力,还是仅仅在简化数据集上进行了模式匹配?现有基准未能涵盖人类能轻松应对模糊指代、识别不可定位场景的真实世界复杂性。为严格评估MLLMs的真实能力,我们提出GroundingME基准,从四个关键维度系统化挑战模型性能:(1)区分性——辨别高度相似物体;(2)空间性——理解复杂关系描述;(3)局限性——处理遮挡或微小物体;(4)拒斥性——识别不可定位查询。通过自动化生成与人工验证相结合的方式,我们精心构建了1,005个反映真实世界复杂性的挑战性样本。对25个前沿MLLMs的评估揭示了显著的能力鸿沟:最佳模型准确率仅达45.1%,而多数模型在拒斥任务中得分为0%,它们会反射性地幻觉出不存在物体而非承认其缺失,这为实际部署敲响安全警钟。我们探索了两种改进策略:(1)通过测试时思维轨迹缩放策略选择最优响应,将复杂场景定位准确率提升2.9%;(2)采用混合数据训练使模型学会识别不可定位查询,将拒斥准确率从0%提升至27.9%。GroundingME既可作为揭示MLLMs当前局限性的诊断工具,也为实现人类水平视觉定位提供了发展路线图。
理解语言模型的架构差异颇具挑战性,尤其在学术级预训练规模下(例如13亿参数、1000亿词元),结果往往被噪声和随机性主导。为突破此局限,我们引入受控合成预训练任务,以隔离并评估模型的核心能力。在此框架中,我们发现了CANON层——以音乐术语"卡农"命名的轻量级架构组件,可促进相邻词元间的横向信息流动。该层通过计算邻近词元表征的加权和,能无缝集成至Transformer、线性注意力、状态空间模型或任何序列架构中。 我们展示了12项关键成果:卡农层如何将推理深度提升2倍、拓展推理广度、增强知识操纵能力等。它们能使NoPE等弱架构达到RoPE水平,令线性注意力模型比肩Mamba2/GDN等前沿线性模型——这些结论均通过合成任务与真实学术级预训练验证。该合成实验场为隔离学术规模下常被掩盖的核心模型能力提供了经济且规范的研究路径。借助无限高质量数据,它甚至能预测未来架构在训练流程优化(如改进数据策展或基于强化学习的训后优化)后的行为表现,从而解锁更深层次的推理与层级推断能力。
视觉-语言-动作(VLA)模型正推动机器人技术革命,使机器能够理解指令并与物理世界交互。该领域不断涌现新模型与数据集,既令人振奋又难以全面追踪。本综述为VLA领域提供了清晰的结构化指南:我们按照研究者的自然学习路径设计内容,从基础模型模块入手,追溯关键发展里程碑,进而深入剖析定义前沿研究的核心挑战。我们的主要贡献在于系统梳理了五大挑战方向:(1)表征学习(2)动作执行(3)泛化能力(4)安全保证(5)数据集与评估体系。这一框架呼应通用智能体的发展路线图——建立感知-动作基础循环,跨载体与环境扩展能力,最终实现可信部署——所有环节均以数据基础设施为支撑。针对每个方向,我们既评述现有方法又展望未来机遇。本文兼具面向初学者的基础指南与服务于资深研究者的战略路线图双重属性,旨在加速具身智能领域的学习进程并激发创新思路。本综述的动态版本将持续更新于https://suyuz1.github.io/Survery/{项目页面}。
强化学习(RL)已成为在真实环境中训练交互式大语言模型(LLM)智能体的天然方法。然而,直接将广泛使用的组相对策略优化(GRPO)算法应用于多轮次任务时,会暴露出明显局限性,尤其在需要长程推理的场景中。为解决这些挑战,我们研究了更稳定有效的优势估计策略,特别针对多轮交互设置。我们首先探索了近端策略优化(PPO)作为替代方案,发现其比GRPO更具鲁棒性。为进一步增强PPO在多轮场景中的表现,我们提出了轮次级PPO(turn-PPO)——一种基于轮次级马尔可夫决策过程(MDP)建模的变体,与常用的令牌级MDP形成对比。在WebShop和Sokoban数据集上的实验结果表明,无论是否包含长推理组件,轮次级PPO均表现出卓越效能。
视频大语言模型(Video-LLMs)发展迅猛,但现有视频问答(VideoQA)基准测试常允许仅凭单一显著线索回答问题,未能充分检验需要整合多个时间分散视觉证据的推理能力。我们推出HERBench——一个专为评估跨时间多证据整合能力构建的VideoQA基准。每个问题需聚合至少三个分布于不同视频片段的非重叠证据线索,使得语言先验或单帧快照均无法解题。该基准包含2.6万个五选一选择题,划分为十二项组合式任务,涵盖身份绑定、跨实体关系、时序排序、共现验证及计数等维度。为量化证据需求,我们提出"最小必需帧集"(MRFS)指标,即模型正确答题必须融合的最小帧数,并证明HERBench的MRFS要求显著高于现有数据集(平均MRFS为5.5,对比2.6-4.2)。对13个前沿Video-LLMs的评估揭示普遍缺陷:31-42%的准确率仅略高于20%的随机猜测基线。我们将失败归因于两个关键瓶颈:(1)检索缺陷——帧选择器遗漏关键证据;(2)融合缺陷——即使提供全部必要证据,模型仍无法整合信息。通过使跨时间证据成为不可回避且可量化的评估要素,HERBench为推进鲁棒的组合式视频理解确立了原则性目标。
世界模型的最新进展显著提升了交互式环境模拟能力。现有方法主要分为两类:一是静态世界生成模型,可构建不含主动智能体的三维环境;二是可控实体模型,允许单一实体在不可控环境中执行有限动作。本研究提出的AniX框架,既保持了静态世界生成的真实感与结构基础,又将可控实体模型扩展至支持用户指定角色执行开放式动作。用户只需提供三维高斯散射场景与角色,即可通过自然语言指令引导角色完成从基础移动到处物交互的多样化行为,并自由探索环境。AniX通过条件自回归视频生成框架,合成具有时间连贯性的视频片段,确保与原始场景及角色的视觉保真度。基于预训练视频生成器,我们的训练策略在保持动作与角色泛化能力的同时,显著提升了运动动力学表现。评估体系涵盖视觉质量、角色一致性、动作可控性及长时序连贯性等多维度指标。
我们推出Bolmo——首个在10亿和70亿参数规模上具备竞争力的全开放字节级语言模型系列。与以往主要关注从头训练的字节级语言模型研究不同,我们通过对现有子词级语言模型进行字节化改造来训练Bolmo。字节化技术能够突破子词分词的局限性(如字符理解能力不足、固定子词词表导致的效率约束),同时保持与领先子词级语言模型相当的性能。Bolmo专为字节化设计:我们的架构解决了以往字节级架构与子词级语言模型在表达能力上的错配问题,使得Bolmo与源子词模型之间可采用精确蒸馏目标。这种方法能以低于典型预训练1%的令牌预算实现子词级语言模型向字节级模型的转换。Bolmo在同等规模字节级模型中表现显著优于所有前人工作,并在字符理解及部分代码任务上超越源子词模型,其他任务性能也接近原始模型。此外,我们通过更高令牌压缩比训练使Bolmo实现与子词级模型相当的推理速度,并能依托源子词模型的现有生态进行低成本高效的后训练。我们的研究成果最终使字节级语言模型成为跨多种应用场景下可与子词级模型竞争的实用选择。
诸如SWE-bench等基准测试已实现了大语言模型在仓库级软件工程任务评估上的标准化。然而,这些尝试仍受限于人工标注、静态数据集以及对Python错误修复的单一关注。我们推出SWE-Bench++——一个从开源GitHub项目自动生成仓库级编程任务的框架。与合成方法不同,我们的流水线通过采集实时拉取请求,覆盖11种编程语言的错误修复与功能需求。该框架通过四个阶段将GitHub拉取请求转化为可复现的、基于执行的任务:程序化采集、环境合成、测试预言提取与质量保证。最后的提示引导轨迹合成步骤可将强模型失败案例转化为训练轨迹。我们的初始基准包含来自3,971个仓库的11,133个任务实例,涵盖11种语言。在1,782个实例的子集测试中,当前最强模型表现为:claude-sonnet-4.5达成36.20%的pass@10,gpt-5-2025-08-07为34.57%,gemini/gemini-2.5-pro为24.92%,gpt-4o为16.89%。我们进一步通过实验证明,基于SWE-Bench++实例的微调能在SWE-bench多语言基准上带来显著提升。该框架为评估和改进仓库级代码生成提供了可扩展的多语言基准。
强化学习(RL)已能训练大语言模型(LLM)智能体与环境交互,以解决多轮次长周期任务。然而,经过RL训练的智能体在需要主动探索的任务中往往表现不佳,且难以通过试错经验实现高效适应。本文提出LaMer——一种通用元强化学习框架,使LLM智能体能在测试阶段主动探索并学习环境反馈。该框架包含两个核心组件:(i)跨轮次训练机制,以激励探索并优化长期回报;(ii)基于反思的上下文策略自适应,使智能体无需梯度更新即可根据任务反馈信号调整策略。多环境实验表明,LaMer在推箱子、扫雷和在线购物三类任务中分别以11%、14%和19%的性能提升显著优于基线RL方法。此外,相较于RL训练的智能体,LaMer在应对更具挑战性或未见任务时展现出更优的泛化能力。总体而言,我们的研究证明元强化学习为语言智能体提供了诱导探索的理论框架,通过习得的探索策略实现对新环境更强大的适应能力。
视觉自回归(VAR)建模通过下一尺度预测突破了传统自回归(AR)模型的下一令牌预测范式,实现了高质量图像生成。然而,VAR范式在大尺度步骤下存在计算复杂度和运行时间急剧增加的问题。现有加速方法虽能缩减大尺度步骤的运行时耗,但依赖人工步骤选择且忽视了生成过程中不同阶段的重要性差异。为此,我们提出StageVAR——针对VAR模型的系统性研究与阶段感知加速框架。分析表明:早期步骤对保持语义和结构一致性至关重要,应保持完整;而后期步骤主要进行细节优化,可通过剪枝或近似处理实现加速。基于此发现,StageVAR提出即插即用的加速策略,利用后期计算中的语义无关性与低秩特性,且无需额外训练。所提方法在GenEval基准上仅损失0.01分、DPG基准上下降0.26分的情况下,最高可实现3.4倍加速效果,持续优于现有加速基线。这些结果证明了阶段感知设计作为高效视觉自回归图像生成核心原则的有效性。
多模态大语言模型在极端现实视觉退化场景下难以保持稳定性能,这阻碍了其实际应用的鲁棒性。现有鲁棒性MLLM主要依赖仅关注视觉编码器泛化的隐式训练/适应方法,存在可解释性有限与孤立优化的问题。为突破这些局限,我们提出Robust-R1新型框架,通过结构化推理链显式建模视觉退化过程。该方法融合三大核心机制:(一)基于监督微调的退化感知推理基础构建;(二)面向退化参数精准感知的奖励驱动对齐策略;(三)适配退化强度的动态推理深度缩放。为支撑该方法,我们构建了包含11K样本的专业数据集,涵盖现实世界中四个关键视觉处理阶段合成的真实退化类型,每个样本均标注有连接退化参数、感知影响、原始语义推理链与结论的结构化链条。全面实验表明该方法实现顶尖鲁棒性:在真实退化基准R-Bench上,Robust-R1超越所有通用及鲁棒基线模型;同时在MMMB、MMStar和RealWorldQA的多强度对抗性退化测试中保持卓越的抗退化性能。
尽管三维场景生成技术近期取得了视觉上令人瞩目的成果,但现有表征方式难以满足视觉特效和游戏开发领域艺术家对可编辑纹理化三维网格场景的工作流需求。当前纹理网格场景重建方法虽进步显著,却因存在物体分解错误、空间关系失准及背景缺失等问题,尚无法达到艺术创作实用标准。我们提出3D-RE-GEN组合框架,能够从单张图像重建包含纹理化三维物体与背景的场景。研究表明,通过整合特定领域的前沿模型,可实现当前最优的场景重建效果,满足艺术创作需求。 我们的重建管线集成了资源检测、重建与布局模型,推动部分模型突破其原有应用领域。通过将遮挡物体获取视为图像编辑任务,利用生成模型在统一光照和几何条件下进行场景级推理重建。与现有方法不同,3D-RE-GEN能生成完整背景,在优化过程中对物体进行空间约束,并为视觉特效和游戏中的真实光照与模拟任务提供基础。为实现物理合理的布局,我们采用新颖的四自由度可微分优化方法,使重建物体与估计地平面精确对齐。 3D-RE-GEN在单图像三维场景重建中达到业界领先水平,通过精确相机标定与空间优化指导的组合生成,创造出具有一致性且可编辑的场景。
长模态视频理解需要将视觉、语音与环境音频相结合,并进行连贯的长程推理。现有基准测试要么侧重时序长度,要么强调多模态丰富性,但鲜少兼顾二者。尽管部分基准引入了开放式问题和高级评估指标,它们仍主要依赖单一分数制准确率,这掩盖了失败模式。我们推出LongShOTBench诊断基准,其特点包括:开放式意图驱动问题、单轮及多轮对话、需要跨视频/音频/语音的多模态推理与智能体工具使用的任务。每个测试项均附有参考答案和分级评分标准,实现可解释、可追溯的评估。该基准通过可扩展的人工验证流程生成,确保覆盖范围与可复现性。所有样本均经过人工核验修正。我们还提出LongShOTAgent智能体系统,通过预处理、搜索和迭代优化实现长视频分析。在LongShOTBench上,前沿MLLMs表现存在显著差距:Gemini-2.5-Flash达到52.95%,开源模型低于30%,而LongShOTAgent取得44.66%的成绩。这些结果凸显了现实场景长视频理解的挑战性。LongShOTBench为评估和改进MLLMs提供了实用可复现的基础框架。所有资源已发布于GitHub:https://github.com/mbzuai-oryx/longshot。
文本到图像生成模型根据文本提示生成图像,但提示内容常使预期图像的某些方面存在模糊性。面对这些模糊描述时,TTI模型已表现出解释性偏差。这类偏差可能产生社会影响,例如在描述某种职业时仅呈现特定种族形象;当生成图像组内出现冗余而非多样化可能性时,也会影响用户体验。本文提出MineTheGap方法——一种能自动挖掘引发TTI模型产生偏差输出的提示词的技术。我们的方法不仅限于检测给定提示词的偏差,还利用遗传算法迭代优化提示词池,寻找那些能暴露偏差的提示词。该优化过程由新颖的偏差评分驱动,该评分根据偏差严重程度进行排序(我们在已知偏差数据集上验证了其有效性)。针对特定提示词,该评分通过对比生成图像的分布与基于提示词变体的大语言模型生成文本分布来计算。代码及示例详见项目网页。