每日精選AI研究論文及翻譯
尽管科学人工智能取得了进展,但科学通用智能仍缺乏统一框架——这种能够自主构思、探索和跨领域推理的能力尚未形成体系。我们提出基于实践探究模型的操作性定义,并通过四个与科学家工作对齐的任务实现其操作化:深度研究、创意生成、干湿实验及实验推理。受《科学》杂志125个重大议题启发构建的SGI-Bench包含千余个专家精选的跨学科样本,可系统评估前沿大语言模型。研究揭示多重差距:深度研究虽具步骤匹配性但精确匹配率低;创意缺乏可行性与细节;干实验代码可执行性高但结果准确率低;湿实验流程序列保真度不足;多模态比较推理挑战持续存在。我们进一步提出测试时强化学习技术,通过在推理阶段优化检索增强的新颖性奖励,在无参考答案情况下提升假设创新性。基于实践探究模型的定义、以工作流为核心的基准测试及实证发现,共同为真正参与科学发现的人工智能系统奠定了基础。
機器人泛化能力依賴於物理智能:即在自我中心感知與行動框架下,進行狀態變化推理、密集接觸交互和長時程規劃的能力。然而,大多數視覺語言模型主要基於第三人稱數據進行訓練,這與人形機器人的視角存在根本性錯配。由於成本高昂和多樣性有限,擴展機器人自我中心數據採集仍不具可行性,而大規模人類第一視角視頻則能自然捕捉豐富的交互情境與因果結構,成為可擴展的替代方案。核心挑戰在於如何將原始第一視角視頻轉化為結構化、可靠的具身訓練監督信號。為此,我們提出Egocentric2Embodiment轉換流程,通過強制證據錨定與時序一致性,將第一視角視頻轉化為多層級、模式驅動的視覺問答監督信號,從而實現大規模Egocentric2Embodiment數據集(E2E-3M)的構建。基於E2E-3M數據集訓練得到的自我中心感知具身大腦PhysBrain,在EgoThink任務中展現出顯著提升的第一視角理解能力,特別是在規劃方面。該模型提供的自我中心感知初始化權重,既能實現更高效的視覺語言動作模型微調,又在SimplerEnv環境中獲得更高任務成功率(53.9%),證明了人類第一視角監督信號向下游機器人控制的有效遷移。
尽管大型推理模型(LRMs)展现出卓越性能,但其推理行为常违背直觉,导致推理能力未达最优。为从理论层面形式化描述理想推理行为,本文提出推理定律(Laws of Reasoning, LoRe)——一个刻画LRMs内在推理模式的统一框架。我们首先提出计算定律,其核心假设是推理计算量应与问题复杂度呈线性增长。除计算量外,我们通过补充的准确率定律扩展LoRe框架。由于问题复杂度难以实际量化,我们通过定律的两个特性——单调性与组合性——来验证这些假设。据此推出LoRe-Bench基准测试,系统化衡量大型推理模型在这两个可量化特性上的表现。评估表明,大多数推理模型具备合理单调性但缺乏组合性。为此,我们开发了一种强制实现计算定律组合性的高效微调方法。大量实证研究表明,更好遵循计算定律能在多个基准测试中持续提升推理性能,并揭示特性与定律间的协同效应。项目页面:https://lore-project.github.io/
近期,大型语言模型在生成严谨数学证明方面取得显著进展。然而,利用LLM进行形式化语言(如Lean)的定理证明仍具挑战性且计算成本高昂,尤其在处理本科及以上难度的问题时。本研究提出Seed-Prover 1.5——一个通过大规模智能体强化学习训练的形式定理证明模型,并配套高效测试时扩展工作流。该模型通过与Lean等工具的持续交互,在强化学习过程中不断积累经验,显著提升了形式化定理证明的能力与效率。此外,基于自然语言证明的最新进展,我们的测试时扩展工作流能有效弥合自然语言与形式化语言之间的鸿沟。相比现有最优方法,Seed-Prover 1.5以更小的计算预算实现了更优异的性能:在本科难度的PutnamBench中解决88%问题,研究生难度的Fate-H中解决80%问题,博士难度的Fate-X中解决33%问题。值得关注的是,该系统在9小时内完成了2025年普特南数学竞赛12道题目中的11道。我们的研究表明,基于高质量形式化反馈的经验学习规模化拓展,将为形式化数学推理的未来发展开辟巨大潜力。
现代潜在扩散模型(LDM)通常在低级变分自编码器(VAE)的潜在空间中运行,这类空间主要针对像素级重建进行优化。为统一视觉生成与理解任务,新兴趋势是采用表征编码器的高维特征作为生成潜变量。然而我们通过实证研究发现该范式存在两个根本性障碍:(1)判别性特征空间缺乏紧凑正则化,导致扩散模型易产生流形外潜变量,进而引发物体结构失真;(2)编码器固有的弱像素级重建能力阻碍生成器学习精确的细粒度几何结构与纹理。本文提出系统化框架,将面向理解任务的编码器特征适配于生成任务。我们引入语义-像素联合重建目标以正则化潜在空间,使语义信息与细粒度细节能共同压缩至高度紧凑的表征(96个通道,16×16空间下采样)。该设计既确保潜在空间保持语义丰富性并实现最优图像重建,又维持足够紧凑性以支持精确生成。基于此表征,我们设计了统一的文生图(T2I)与图像编辑模型。通过多特征空间基准测试表明,本方法在重建质量上达到最优水平,具有更快的收敛速度,并在T2I与编辑任务中实现显著性能提升,验证了表征编码器可有效转化为鲁棒的生成组件。
尽管多模态大语言模型(MLLMs)取得了进展,但其在三维结构和时序动态推理方面的能力仍存在局限,这主要受制于薄弱的四维感知与时序理解能力。现有的三维及四维视频问答(VQA)基准也侧重于静态场景,且缺乏区域级提示机制。为解决这些问题,我们提出:(a)4D-RGPT——一种专为从视频输入中捕捉四维表征而设计的MLLM,具备增强的时序感知能力;(b)感知四维蒸馏(P4D)——通过将冻结专家模型的四维表征迁移至4D-RGPT的训练框架,实现全面的四维感知;(c)R4D-Bench——基于混合自动生成与人工验证流程构建的深度感知动态场景基准,支持区域级提示。我们的4D-RGPT在现有四维VQA基准和新建的R4D-Bench基准上均取得了显著提升。
大语言模型即评判员(LLM-as-a-Judge)作为一种评估方法已被广泛采用,并在模型训练中充当监督奖励信号。然而,现有的大语言模型评判基准主要依赖人工标注的真实标签,这不仅引入了人为偏见、削弱了可靠性评估,还带来了可扩展性限制。为突破这些局限,我们推出Sage评估套件,该创新系统无需任何人工标注即可评估大语言模型评判员的质量。受理性选择理论公理启发,Sage引入两个全新维度来衡量大语言模型评判表现:局部自一致性(成对偏好的稳定性)与全局逻辑一致性(全偏好集的传递性)。我们通过整合结构化基准问题与真实用户查询,构建了包含650个问题的数据集。实验结果表明,我们的指标既具有稳定性,又与LLMBar、RewardBench2等监督基准保持高度相关性,证实了Sage作为大语言模型评判员鲁棒性与准确性评估工具的可信度。基于Sage评估,我们发现当前最先进的大语言模型在评分和成对比较场景中担任评判员时存在显著可靠性问题——即使是表现最佳的Gemini-2.5-Pro和GPT-5模型,在近四分之一的高难度案例中仍无法保持偏好一致性。我们将此归因于一种称为"情境偏好"的新现象,这解释了为何明确的评分标准能帮助模型在不同答案对间保持评判一致性。进一步分析表明,微调后的大语言模型评判员是提升性能的可行方法,而小组评审机制与深度推理能增强评判一致性。我们还发现人类判断存在显著不一致性,这表明人工标注可能并非可靠的黄金标准。
我们提出RadarGen——一种基于多视角摄像图像生成逼真汽车雷达点云的扩散模型。该模型通过将雷达测量值表示为鸟瞰图形式,实现对空间结构、雷达散射截面(RCS)及多普勒属性的联合编码,从而将高效的图像潜在扩散技术适配到雷达领域。轻量级的重建步骤可从生成的特征图中恢复点云。为增强生成结果与视觉场景的一致性,RadarGen融合了从预训练基础模型中提取的BEV对齐深度、语义和运动线索,这些线索引导随机生成过程产生物理合理的雷达模式。基于图像的条件生成机制使该方法原则上能广泛兼容现有视觉数据集与仿真框架,为多模态生成式仿真提供了可扩展路径。大规模驾驶数据评估表明,RadarGen能准确捕捉雷达测量的特征分布,并缩小与真实数据训练的感知模型之间的性能差距,标志着跨传感模态统一生成仿真迈出了重要一步。
视觉定位作为通过自然语言描述定位物体的技术,是连接语言与视觉理解的关键桥梁。尽管多模态大语言模型(MLLMs)在现有基准测试中表现优异,但核心问题依然存在:MLLMs究竟能像人类一样精妙地实现语言到视觉的锚定,还是仅仅在简化数据集上进行模式匹配?当前基准测试未能捕捉人类轻松处理模糊指代、识别不可定位情境的真实世界复杂性。为严格评估MLLMs的真实能力,我们推出GroundingME基准测试,从四个关键维度系统性地挑战模型:(1)判别性——区分高度相似物体;(2)空间性——理解复杂关系描述;(3)局限性——处理遮挡或微小物体;(4)拒斥性——识别不可定位查询。通过自动化生成与人工验证相结合的精细构建,我们创建了1,005个反映真实世界复杂性的挑战性样本。对25个前沿MLLMs的评估揭示了显著的能力鸿沟:最佳模型准确率仅达45.1%,而多数模型在拒斥任务中得分为0%,它们会反射性地幻觉出物体而非承认其缺失,这为实际部署敲响安全警钟。我们探索了两种改进策略:(1)测试时思维轨迹缩放通过选择最优响应,将复杂定位准确率提升2.9%;(2)混合数据训练使模型学会识别不可定位查询,将拒斥准确率从0%提升至27.9%。GroundingME既可作为揭示MLLMs当前局限的诊断工具,也为实现人类级视觉定位提供了发展路线图。
理解语言模型的架构差异具有挑战性,尤其在学术规模的预训练场景中(例如13亿参数、1000亿词元量级),实验结果往往受噪声和随机性主导。为突破此局限,我们引入受控合成预训练任务,以隔离并评估模型的核心能力。在此框架下,我们发现了CANON LAYERS:一种以音乐术语"卡农"命名的轻量级架构组件,可促进相邻词元间的横向信息流动。该层通过计算邻近词元表征的加权和,能无缝集成至Transformer、线性注意力、状态空间模型或任何序列架构。 我们展示了12项关键成果:卡农层如何将推理深度提升约2倍、拓展推理广度、增强知识操纵能力等;它能使NoPE等弱势架构达到RoPE水平,令线性注意力模型比肩Mamba2/GDN等前沿线性模型——这些成果均通过合成任务与真实学术规模预训练的双重验证。该合成实验场为隔离常被学术规模噪声掩盖的核心模型能力提供了经济且系统化的路径。借助无限高质量数据,它甚至能预测未来架构在训练流程优化(如改进数据策展或基于强化学习的后训练)下的行为表现,从而解锁更深层次的推理与层级化推断能力。
视觉-语言-动作(VLA)模型正推动机器人技术革命,使机器能够理解指令并与物理世界交互。该领域不断涌现新模型与数据集,既令人振奋又难以全面跟进。本综述为VLA领域提供了清晰的结构化指南:我们按照研究者的自然学习路径设计框架——从基础模型模块入手,追溯关键发展里程碑,进而深入剖析定义前沿研究的核心挑战。我们的主要贡献在于对五大挑战的细致分解:(1)表征学习(2)动作执行(3)泛化能力(4)安全保障(5)数据集与评估体系。这一架构映射出通用智能体的发展路线图:建立感知-动作基础循环,拓展多模态具身能力,最终实现可信部署——所有环节均以数据基础设施为支撑。针对每个维度,我们系统评述现有方法并指明未来机遇。本文兼具双重目标:既为初学者提供基础指南,又为资深研究者呈现战略路线图,以期加速具身智能领域的学习进程并激发创新思路。本综述的动态版本将持续更新于https://suyuz1.github.io/Survery/{项目页面}。
強化學習(RL)在訓練現實環境中的互動式大語言模型智能體時,已重新成為一種自然的研究路徑。然而,直接將廣泛使用的群組相對策略優化(GRPO)算法應用於多輪次任務時,會暴露出明顯的局限性,尤其是在需要長程推理的場景中。為應對這些挑戰,我們研究了更穩定有效的優勢估計策略,特別針對多輪次設定。我們首先探索近端策略優化(PPO)作為替代方案,發現其相比GRPO具有更強的魯棒性。為進一步提升PPO在多輪次場景中的表現,我們提出了輪次級PPO(turn-PPO)——這種變體算法基於輪次級馬爾可夫決策過程(MDP)建模,而非常用的詞元級MDP框架。我們在WebShop和Sokoban數據集上的實驗結果表明,無論是否包含長推理組件,輪次級PPO均能展現卓越效能。
视频大语言模型(Video-LLM)正快速发展,但现有视频问答基准测试常允许仅凭单一显著线索作答,未能充分检验需要整合多个时间分散视觉证据的推理能力。我们推出HERBench——一个专门用于评估跨时间多证据整合能力的视频问答基准。该基准每个问题均需整合至少三个分布于不同视频片段的非重叠证据线索,使得语言先验或单帧快照均无法满足答题需求。HERBench包含2.6万个五选一选择题,划分为十二项组合式任务,涵盖身份绑定、跨实体关系、时序排序、共现验证及计数等维度。为量化证据需求,我们提出"最小必需帧集"(MRFS)指标,即模型正确作答所需融合的最小帧数,并证明HERBench的MRFS要求(均值5.5帧)显著高于现有数据集(均值2.6-4.2帧)。对13个前沿视频大语言模型的评估显示普遍性失效:31-42%的准确率仅略高于20%的随机猜测基线。我们将此失效归因于两个关键瓶颈:(1)检索缺陷——帧选择器遗漏关键证据;(2)融合缺陷——即使提供全部必要证据,模型仍无法有效整合信息。通过使跨时间证据成为不可回避且可量化的评估要素,HERBench为推进鲁棒性组合式视频理解确立了原则性目标。
世界模型的最新进展显著提升了交互式环境模拟能力。现有方法主要分为两类:静态世界生成模型(构建无主动智能体的三维环境)和可控实体模型(允许单一实体在不可控环境中执行有限动作)。本研究提出的AniX框架,在保留静态世界生成真实感与结构基础优势的同时,将可控实体模型扩展至支持用户指定角色执行开放式动作。用户可提供三维高斯溅射场景与角色,通过自然语言指令引导角色完成从基础移动到以物体为中心的多样化交互行为,并自由探索环境。AniX通过条件自回归视频生成框架,合成具有时间一致性的视频片段,确保与原始场景和角色的视觉保真度。基于预训练视频生成器,我们的训练策略在保持动作与角色泛化能力的同时,显著提升了运动动力学表现。评估体系涵盖视觉质量、角色一致性、动作可控性及长时序连贯性等多维度指标。
我们推出Bolmo——首个在10亿和70亿参数规模上具有竞争力的全开放字节级语言模型家族。与先前主要关注从头训练的字节级语言模型研究不同,我们通过对现有子词级模型进行字节化改造来训练Bolmo。字节化技术既能突破子词分词的局限性(如字符理解能力不足、固定子词词表导致的效率制约),又能保持与领先子词级模型相当的性能。Bolmo专为字节化改造而设计:我们的架构解决了传统字节级架构与子词级模型在表达能力上的错配问题,使得Bolmo与源子词模型之间可采用精确蒸馏目标进行高效转化。通过投入不到典型预训练1%的token预算,即可将子词级模型转换为字节级模型。Bolmo在同等规模字节级模型中表现显著优于所有前人工作,在字符理解及部分代码任务上甚至超越源子词模型,同时在其他任务上接近原始模型性能。此外,我们通过采用更高token压缩比的训练方案,使Bolmo实现与子词级模型相媲美的推理速度,并能依托源子词模型的现有生态体系进行低成本高效的后训练。我们的研究成果最终使字节级语言模型成为跨多种应用场景下可与子词级模型竞争的现实选择。
诸如SWE-bench等基准测试已实现了大型语言模型在仓库级软件工程任务评估的标准化。然而,这些尝试仍受限于人工标注、静态数据集及对Python错误修复的单一关注。我们推出SWE-Bench++——一个从开源GitHub项目自动生成仓库级编程任务的框架。与合成方法不同,我们的流水线通过采集实时拉取请求,覆盖11种编程语言的错误修复与功能需求。该框架通过四个阶段将GitHub拉取请求转化为可复现的、基于执行的任务:程序化采集、环境合成、测试预言提取与质量验证。最后通过提示引导的轨迹合成步骤,将强模型失败案例转化为训练轨迹。我们的初始基准包含来自3,971个仓库的11,133个任务实例,涵盖11种语言。在1,782个实例的子集测试中,当前最强模型表现为:claude-sonnet-4.5达成36.20%的pass@10,gpt-5-2025-08-07为34.57%,gemini/gemini-2.5-pro为24.92%,gpt-4o为16.89%。我们进一步通过微调实验证明,基于SWE-Bench++实例的训练能在SWE-bench多语言基准上带来显著提升。该框架为仓库级代码生成的评估与改进提供了可扩展的多语言基准。
强化学习(RL)已能训练大型语言模型(LLM)智能体与环境交互,并完成多轮次长周期任务。然而,经过RL训练的智能体在需要主动探索的任务中往往表现不佳,且难以通过试错经验实现高效适应。本文提出LaMer——一种通用元强化学习框架,使LLM智能体能够在测试阶段主动探索并学习环境反馈。该框架包含两个核心组件:(i)跨轮次训练机制,以激励探索并优化长期回报;(ii)基于反思的上下文策略自适应,使智能体无需梯度更新即可根据任务反馈信号调整策略。多环境实验表明,LaMer在推箱子、扫雷和在线购物三类任务中分别以11%、14%和19%的性能提升显著优于基线RL方法。此外,与RL训练智能体相比,LaMer在应对更具挑战性或未经预训练的任务时展现出更优的泛化能力。本研究结果表明,元强化学习为语言智能体提供了一种诱导探索的机制化方法,通过习得的探索策略实现对新颖环境的更强适应能力。
视觉自回归(VAR)建模通过"下一尺度预测"突破了传统自回归(AR)模型的下一标记预测范式,实现了高质量图像生成。然而,VAR范式在大尺度步长下存在计算复杂度和运行时间急剧增加的问题。现有加速方法虽能减少大尺度步长的运行时间,但依赖人工步长选择且忽视了生成过程中不同阶段的重要性差异。针对这一挑战,我们提出StageVAR——一个针对VAR模型的系统性研究与阶段感知加速框架。分析表明,早期步骤对保持语义和结构一致性至关重要,应保持完整;而后期步骤主要进行细节优化,可通过剪枝或近似实现加速。基于这些发现,StageVAR引入即插即用的加速策略,利用后期计算中的语义无关性和低秩特性,且无需额外训练。所提方法在GenEval基准上仅下降0.01分、DPG基准上下降0.26分的情况下,最高可实现3.4倍加速,持续优于现有加速基线。这些结果证明了阶段感知设计作为高效视觉自回归图像生成的有效原则。
多模态大语言模型在极端现实世界视觉退化场景下难以保持稳定性能,这严重制约了其实际应用的鲁棒性。现有鲁棒性MLLM主要依赖仅关注视觉编码器泛化的隐式训练/适配方法,存在可解释性有限与孤立优化的问题。为突破这些局限,我们提出Robust-R1创新框架,通过结构化推理链显式建模视觉退化过程。该框架整合三大核心机制:(一)基于监督微调的退化感知推理基础构建;(二)面向退化参数精准感知的奖励驱动对齐机制;(三)适配退化强度的动态推理深度缩放。为支撑该方法,我们专门构建包含11K样本的数据集,其模拟现实世界四个关键视觉处理阶段生成的逼真退化效果,每个样本均标注连接退化参数、感知影响、原始语义推理链及结论的结构化链条。全面实验表明:Robust-R1在真实退化基准R-Bench上超越所有通用及鲁棒性基线模型,同时在MMMB、MMStar和RealWorldQA基准的多强度对抗性退化测试中保持卓越的抗退化性能,实现了当前最先进的鲁棒性表现。
尽管三维场景生成技术近期取得了视觉上令人瞩目的成果,但现有表征方式难以满足视觉特效和游戏开发领域艺术家对可编辑纹理化三维网格场景的工作流需求。当前纹理网格场景重建方法虽进展显著,但存在物体分解错误、空间关系失准及背景缺失等问题,尚无法达到艺术创作实用标准。我们提出3D-RE-GEN组合框架,能够从单张图像重建包含纹理化三维物体与背景的场景。研究表明,通过整合特定领域的前沿模型,我们的方法在满足艺术创作需求的同时实现了最先进的场景重建性能。 该重建管线集成了资源检测、重建与布局模型,并将部分模型的应用范围拓展至原设计领域之外。针对被遮挡物体的获取,我们将其视为基于生成模型的图像编辑任务,通过在一致光照和几何条件下进行场景级推理来实现推断与重建。与现有方法不同,3D-RE-GEN能生成完整背景:既在优化过程中为物体提供空间约束,又为视觉特效和游戏中的真实光照与模拟任务奠定基础。为实现物理合理的布局,我们采用新颖的四自由度可微分优化方法,使重建物体与估计地平面精确对齐。3D-RE-GEN通过精确相机标定与空间优化引导的组合生成方式,在单图像三维场景重建中达到业界最优性能,生成具有一致性的可编辑场景。
长模态多模态视频理解需要将视觉、语音与环境音频相结合,并进行连贯的长程推理。现有基准测试要么侧重时序长度,要么强调多模态丰富性,但鲜少兼顾二者。尽管部分基准引入了开放式问题和高级评估指标,它们仍主要依赖单一分数制的准确率,从而掩盖了失败模式。我们推出LongShOTBench诊断基准,包含开放式意图驱动问题、单轮及多轮对话,以及需要跨视频/音频/语音进行多模态推理和智能体工具使用的任务。每个测试项均配有参考答案和分级评分标准,实现可解释、可追溯的评估。该基准通过可扩展的人工验证流程生成,确保覆盖范围与可复现性。所有样本均经过人工核验修正。此外,我们提出LongShOTAgent智能体系统,通过预处理、搜索和迭代优化实现长视频分析。在LongShOTBench上,前沿MLLMs表现存在显著差距:Gemini-2.5-Flash达到52.95%,开源模型低于30%,而LongShOTAgent获得44.66%。这些结果凸显了现实场景中长模态视频理解的挑战性。LongShOTBench为评估和改进MLLMs提供了实用可复现的基础框架。所有资源已在GitHub开源:https://github.com/mbzuai-oryx/longshot。
文本到图像生成模型根据文本提示生成图像,但提示内容常使预期图像的某些方面存在模糊性。面对这些模糊描述时,研究表明TTI模型在解读过程中会表现出特定偏好。这种偏好可能产生社会影响,例如当模型仅展示特定种族从事某种职业时;在生成图像集合中产生冗余而非呈现多样性可能时,也会影响用户体验。本文提出MineTheGap方法——一种能自动挖掘引发TTI模型产生偏好性输出的提示文本的技术。我们的方法不仅限于检测给定提示的偏差,还通过遗传算法迭代优化提示池,主动寻找能暴露模型偏好的提示。该优化过程由新颖的偏好严重度评分驱动(我们在已知偏好数据集上验证了其有效性),该评分通过对比生成图像的分布与基于提示文本生成的LLM文本变体分布来计算。相关代码和示例已发布于项目网页。