每日精选AI研究论文及翻译
多模态大语言模型(MLLMs)显著推进了文档理解能力,然而当前文档视觉问答(Doc-VQA)评估仅对最终答案进行评分,却忽略了对支撑证据的核查。这种仅关注答案的评估模式掩盖了一个关键失效模式:模型可能给出正确答案,却将依据建立在错误段落上——这在法律、金融和医学等高风险领域尤为危险,因为这些领域的每个结论都必须可追溯至特定来源区域。为解决这一问题,我们提出了CiteVQA基准,该基准要求模型在给出答案的同时返回元素级边界框引用,并对二者进行联合评估。CiteVQA包含1,897个问题,覆盖711份PDF文档,横跨七个领域和两种语言,平均每份文档40.6页。为确保真实性和可扩展性,其真实引用通过自动流水线生成——该流水线利用掩码消融技术识别关键证据——并随后经专家审核验证。我们评估的核心指标是严格归因准确率(SAA),仅当答案和引用区域均正确时,才判定预测有效。对20个多模态大语言模型的审计揭示了一种普遍存在的归因幻觉:模型经常给出正确答案,却引用了错误区域。最强系统(Gemini-3.1-Pro-Preview)的SAA仅为76.0,而最强开源多模态模型仅达22.5。最终,为迈向可信赖的文档智能,CiteVQA暴露了仅关注答案的评估所忽视的可靠性差距,并提供了弥合这一差距所需的工具。我们的代码仓库位于https://github.com/opendatalab/CiteVQA。
视觉-语言-动作模型近年来取得了快速进展,但仅依赖机器人轨迹数据难以覆盖广泛物理理解所需的学习范围。PhysBrain 1.0探索了一条互补路径:在机器人适配之前,将大规模人类第一人称视频转化为结构化的物理常识监督信号。我们的数据引擎提取场景元素、空间动态、动作执行及深度感知关系,进而生成问答监督数据用于训练PhysBrain视觉-语言模型(VLMs)。所得物理先验知识通过一种保持能力且对语言敏感的适配设计,进一步迁移至VLA策略。在包括ERQA、PhysBench、SimplerEnv-WidowX、LIBERO和RoboCasa在内的多模态问答基准和具身控制基准上,PhysBrain 1.0取得了最优结果,并在SimplerEnv上展现出尤为出色的域外性能。这些结果表明,从人类交互视频中规模化提取物理常识,可为多模态理解向机器人动作的迁移提供有效桥梁。
可复用技能已成为提升智能体能力的核心基础,然而现有的大多数技能包主要将可复用行为编码为文本提示、可执行代码或学习得到的例程。但对于视觉智能体而言,程序性知识本质上是多模态的:复用不仅取决于要执行何种操作,还依赖于识别相关状态、理解代表进展或失败的视觉证据,以及决定下一步行动。我们将这一需求形式化为多模态程序性知识,并应对三个实际挑战:(I)多模态技能包应包含哪些内容;(II)这类技能包能从哪些公开交互经验中提取;(III)智能体在推理时如何参考多模态证据,同时避免过多图像上下文或过度锚定于参考截图。我们提出MMSkills框架,用于表示、生成和使用可复用的多模态程序来支持运行时视觉决策。每个MMSkill是一个紧凑的、基于条件状态的包,将文本化程序与运行时状态卡片及多视图关键帧相结合。为构建这些技能包,我们开发了一种基于智能体轨迹到技能的生成器,通过工作流分组、程序归纳、视觉定位和元技能引导审核,将公开的非评估轨迹转换为可复用的多模态技能。在使用方面,我们引入了一种分支加载式多模态技能智能体:在临时分支中检查选定的状态卡片和关键帧,与实时环境对齐,并提炼为结构化指引供主智能体使用。在GUI和游戏类视觉智能体基准测试上的实验表明,MMSkills能持续提升前沿及较小规模的多模态智能体性能,暗示外部多模态程序性知识与模型内部先验知识形成互补。
以人为中心的视频定制,特别是在服装层面,已展现出显著的商业价值。然而,现有方法无法支持低延迟、交互式的服装控制,而这对于电子商务和内容创作等应用至关重要。本文研究如何仅利用单件服装视频数据,在保持运动一致性的同时实现交互式多服装视频定制。我们提出FashionChameleon,一种面向自回归视频生成的实时交互式人物服装定制框架,用户可在生成过程中交互切换服装。FashionChameleon包含三项关键技术:(i) 我们不在多服装视频数据上训练,而是通过上下文学习在单参考服装对的基础上训练教师模型。通过保留图像到视频的训练范式,同时强制参考图像与服装图像不匹配,鼓励模型在单件服装切换中隐式保持一致性。(ii) 为实现生成过程的一致性与高效性,我们引入基于上下文学习的流式蒸馏技术,通过上下文教师强制微调模型,并利用梯度重加权分布匹配蒸馏改善外推一致性。(iii) 为将模型扩展至交互式多服装视频定制,我们提出免训练的KV缓存重调度方法,包括服装KV刷新、历史KV撤销和参考KV解耦,在保持运动一致性的同时实现服装切换。我们的FashionChameleon独特地支持交互式定制与一致的长视频外推,在单GPU上以23.8 FPS实现实时生成,比现有基线快30-180倍。
在线策略蒸馏(OPD)已成为大语言模型的一种高效后训练范式。然而,现有研究大多将其优势归因于更密集、更稳定的监督信号,而OPD效率背后的参数级机制仍未被充分理解。本研究提出,OPD的高效性源于一种“前瞻性”特性:它在训练早期就为最终模型建立了稳定的更新轨迹。这种前瞻性体现在两个层面:首先,在模块分配层面,OPD能够识别边际效用较低的区域,并将更新聚焦于对推理更关键的模块上;其次,在更新方向层面,OPD展现出更强的低秩集中性,其主导子空间在训练早期便与最终更新子空间高度对齐。基于这些发现,我们提出了EffOPD——一种即插即用的加速方法,通过自适应选择外推步长并沿当前更新方向移动来加速OPD。EffOPD无需额外可训练模块或复杂超参数调优,在保持相当最终性能的同时,实现了平均3倍的训练加速。总体而言,我们的研究为理解OPD的高效性提供了参数动力学视角,并为设计更高效的大语言模型后训练方法提供了实践洞见。
实现人类级操作需要具备复杂物体交互能力的灵巧机械手。为进一步推进此类能力发展,需要建立标准化基准进行系统评估。然而,现有灵巧操作基准既缺乏能体现灵巧手相较于平行夹爪独特操作能力的任务,也缺少完整的评估流程。本文提出DexJoCo——面向任务导向型灵巧操作的基准与工具包,包含11项功能型任务,评估工具使用、双手协调、长时域执行及推理能力。我们开发了低成本数据采集系统,收集了涵盖这些任务的1100条轨迹,并支持域随机化以评估鲁棒性。我们在多样化设置下对现代模型进行基准测试,包括视觉与动力学随机化、多任务训练及动作头适配。通过广泛实验分析,我们揭示了当前灵巧操作策略中若干重要发现与常见局限,指出了灵巧手机器人学习领域未来研究的关键挑战。项目页面:https://dexjoco.github.io
蒸馏大型推理模型对于实现长链思维推理的实际应用至关重要,因为全规模推理的计算成本仍然过高。现有的基于筛选的方法事后选择完整的推理痕迹,忽略了异构教师模型之间的协作,且缺乏动态探索,从而导致冗余采样和互补推理的遗漏。我们提出CoRD,一种协作式多教师解码框架,通过基于预测困惑度的评分和束搜索执行逐步推理合成。这使得异构大型推理模型能够共同构建连贯的推理轨迹,同时有效保留多样且高潜力的假设。实验表明,CoRD生成更高质量的推理数据,并以更少的结构化监督信号实现接近教师水平的学生性能,且无需显著增加效率开销。CoRD在域外和开放式场景中也具有良好的泛化能力。数据集和模型可在https://github.com/DISL-Lab/CoRD获取。
文本和人脸是视觉生成中最具感知显著性且应用最广泛的模式之一,然而对于基于离散分词化的自回归生成器而言,它们仍构成挑战。核心瓶颈在于分词器:激进的下采样和量化过程往往会丢失保持清晰字形和独特面部特征所需的细粒度结构。我们将这一差距归因于标准离散分词器目标与文本可读性和面部保真度之间关联薄弱——这些目标通常优化通用重建,同时对多样化内容进行统一压缩。为解决此问题,我们提出InsightTok,这是一种简单而高效的离散视觉分词框架,通过局部化且内容感知的损失函数增强文本和人脸的保真度。凭借紧凑的16k码本和16倍下采样率,InsightTok在文本和面部重建方面显著优于此前分词器,且不牺牲通用重建质量。这些优势持续迁移至InsightAR的自回归图像生成中,使其能生成文本更清晰、面部细节更逼真的图像。总体而言,我们的研究结果凸显了在分词器训练中引入专门监督对推进离散图像生成的潜力。
组相对策略优化已成为使视频扩散模型与人类偏好对齐的关键技术,但面临一个关键的计算瓶颈:训练一个140亿参数的模型通常每个实验需要数百个GPU天。现有效率方法通过滑动窗口子采样训练时间步来降低计算成本,但根本上损害了优化效果,表现出严重的不稳定性,无法达到完整轨迹性能。我们提出Flash-GRPO,一种单步训练框架,在低计算预算下实现对完整轨迹训练的超越,不仅在对齐质量上更优,同时大幅提升训练效率。Flash-GRPO解决了两个关键挑战:等时分组通过强制提示维度的时序一致性消除时间步混杂方差,将策略性能与时间步难度解耦;时间梯度修正则中和了导致不同时间步梯度幅度极度不一致的时间依赖性缩放因子。在13亿到140亿参数模型上的实验验证了Flash-GRPO的有效性,展示了显著的训练加速、一致的稳定性以及最先进的对齐质量。
基于可验证奖励的强化学习(RLVR)已成为提升大语言模型推理能力的可扩展范式。然而,其有效性从根本上受限于探索环节:策略只能在已采样的轨迹上实现改进。虽然增加轨迹采样数量可缓解这一问题,但这种暴力扩展方式计算成本高昂,且现有通过修改优化目标的方法对探索过程的控制十分有限。本文提出NudgeRL框架,这是一种面向RLVR的结构化多样性驱动探索方法。我们的方法引入"策略引导"机制,通过为每条采样轨迹附加轻量级策略级上下文条件,在无需昂贵 oracle 监督的情况下生成多样化推理轨迹。为有效学习这种结构化探索,我们进一步提出统一目标函数,将奖励信号分解为上下文间与上下文内组件,并融入蒸馏目标将发现的策略行为迁移回基础策略。实验表明,NudgeRL在五个具有挑战性的数学基准测试中,平均性能优于采用最高8倍采样预算的标准GRPO,且超越基于oracle引导的RL基线。这些结果证明,结构化、上下文驱动的探索可作为暴力扩展采样与基于特权信息的可行性导向方法的有效且可扩展替代方案。我们的代码已开源:https://github.com/tally0818/NudgeRL。
当前游戏世界模型从主观的玩家中心视角模拟环境。然而,由于将非玩家角色(NPC)仅视为背景像素,这些模型无法捕捉玩家与NPC之间的交互。在此意义上,它们充当被动的视频渲染器而非真正的模拟引擎,缺乏对动作引发NPC反应所需的物理理解。我们提出ReactiveGWM——一种反应式游戏世界模型,能够合成玩家与NPC之间的动态交互。ReactiveGWM并非将所有交互动力学纠缠在一起,而是明确地将玩家控制与NPC行为解耦。玩家动作通过轻量级加性偏置注入扩散骨干网络,而高层NPC响应(如攻击、控制、防御)则通过交叉注意力模块进行锚定。关键在于,这些模块学习了一种与具体游戏无关的交互逻辑表示,从而实现了零样本策略迁移:我们的学习模块可直接插入不同游戏现成的、无标注的世界模型中,立即解锁可控的NPC交互,无需任何领域特定重训练。在《街头霸王》两款游戏上的评估表明,ReactiveGWM在保持精细玩家可控性的同时,实现了稳健的、与提示对齐的NPC策略遵循,为可扩展的、富含策略的NPC交互铺平了道路。
群体相对策略优化(Group Relative Policy Optimisation, GRPO)通过估计采样轨迹组内部的优势值来增强大语言模型。然而,将这些轨迹级优势映射到策略更新时,需要聚合每个序列内的词元级概率。在此步骤中依赖固定的聚合机制从根本上限制了算法的适应性。实验表明,存在关键性权衡:某些固定聚合方法频繁导致训练崩溃,而另一些则无法产生满意的性能。为解决这一问题,我们提出HölderPO——一个通过赫尔德均值统一词元级概率聚合的通用策略优化框架。通过显式调节参数p,该框架能够持续控制梯度集中度与方差界之间的权衡。理论证明,较大的p值会集中梯度以放大稀疏学习信号,而较小的p值则严格约束梯度方差。由于静态配置无法普遍解决这种集中度-稳定性权衡,我们基于该框架设计了一种动态退火算法,在训练过程中逐步调整p值。大量评估表明,相较于现有基线方法,该方法具有更优的稳定性和收敛性。具体而言,我们的方法在多个数学基准测试中实现了54.9%的平均准确率(当前最优水平),相较标准GRPO获得7.2%的相对提升,并在ALFWorld任务中取得了93.8%的卓越成功率。
大语言模型(LLMs)在应对高难度竞争性编程所需的严密推理方面仍存在困难。尽管近期多智能体框架尝试弥合这一可靠性差距,但其本质上是无状态的:它们依赖静态检索,并丢弃了先前任务中积累的有价值的问题求解与调试经验。为解决这一问题,我们提出Solvita——一种无需对底层LLM进行权重更新即可实现持续学习的智能体进化框架。Solvita将问题求解重构为策略选择、程序合成、认证监督与定向黑客攻击的闭环系统,由四个专门智能体执行:规划器、求解器、预言器与黑客。关键在于,每个智能体都与一个可训练的图结构知识网络配对。当系统运行时,结果信号——如通过/失败判定、测试认证质量以及黑客发现的对抗性漏洞——被转化为对这些网络权重的强化学习更新。这使得智能体能够根据过往成功与失败动态路由未来查询,从而有效积累具有迁移性的推理经验。在CodeContests、APPS、AetherCode及实时Codeforces轮次上的评估表明,Solvita在代码生成智能体中达到了最新最优水平, outperforms现有多种多智能体流程,并将单次基线方法的准确率近乎翻倍。
现代图像编辑模型能够生成逼真的结果,但在处理抽象的多步骤指令(例如“让这张广告看起来更符合素食主义风格”)时仍存在困难。以往的基于智能体的方法虽然能分解此类任务,但依赖于手工设计的流程或通过模仿教师模型,这限制了其灵活性,并使学习过程与实际编辑效果相脱离。我们提出了一种用于长期图像编辑的经验性框架,其中规划器生成结构化的原子分解步骤,协调器则选择工具和区域来执行每个步骤。视觉语言裁判会根据指令遵循度和视觉质量提供基于结果评估的奖励。协调器通过训练来最大化这些奖励,而成功的轨迹被用于优化规划器。通过将规划与基于奖励的执行过程紧密结合,我们的方法相比单步骤或基于规则的多步骤基线,能够生成更连贯、更可靠的编辑结果。
大型视觉语言模型显著推动了GUI代理的发展,使其能够在网页、移动和桌面界面中执行可交互操作。然而,这些进步很大程度上依赖于一种宽容的区域容忍范式——同一组件内邻近的像素点均被视为有效。精确几何构建打破了这一假设:动作必须落在连续画布空间中的特定点上,而非容忍区域内。由于几何基元具有本体论依赖关系,局部坐标误差会引发级联拓扑失效,从而扭曲下游对象并最终导致构建无效。我们将此任务定义为精度敏感型GUI任务,要求点级精度、几何感知验证以及对依赖驱动的错误传播的鲁棒性。为进行基准测试,我们引入了PAGE Bench,包含4,906个问题及超过22.4万条过程监督的像素级GUI动作。我们进一步提出PAGER,一种拓扑感知代理,将构建过程分解为依赖结构化的规划和像素级执行。基于像素级监督调优建立了可执行动作语法,而精度对齐的强化学习通过状态条件化的几何反馈缓解了 rollout 带来的暴露偏差。实验揭示了显著的语义-执行鸿沟:通用多模态模型的动作类型准确率可超过88%,但任务成功率仍低于6%。PAGER弥合了这一差距,在任务成功率上比最强通用基线高出4.1倍,并将步骤成功率从GUI专用代理的不足9%提升至62%以上,为点精确GUI控制树立了新的最优水平。
现代三维视觉学习依赖于从度量三维资产中采样的观测数据,然而现有的扫描、网格、点云、仿真和重建数据并未直接提供稀疏、可比较且几何一致的训练接口。密集轨迹会重复邻近视角,不同数据源的渲染策略会产生异构标注,而稀疏启发式方法可能遗漏关键区域或引入深度不一致的观测。本研究探讨如何将三维资产转化为稀疏全景RGB-D-姿态数据,在保持完整场景覆盖的同时实现低冗余和可追溯性。我们提出COVER(基于覆盖度的视点筛选与等矩形投影范围深度变换),这是一种无需训练的等矩形投影视点筛选器,它将选定视点观测到的几何信息投影到候选等矩形投影探针中,对增量覆盖进行评分,并对深度冲突进行惩罚。在有界代理误差条件下,其贪婪覆盖代理能保留标准覆盖式近似行为,仅存在附加误差项。基于COVER,我们构建了CM-EVS(覆盖度筛选的度量等矩形投影视图集),这是一个包含36,373个经筛选的等矩形投影帧的全景RGB-D-姿态数据集,涵盖来自Blender indoor、HM3D和ScanNet++的1,275个室内场景,以及来自TartanGround和OB3D(重新编码为相同模式)的室外全景图。每个帧提供全球面RGB、度量范围深度和标定姿态;COVER生成的室内帧包含每步的可追溯性日志。CM-EVS的室内场景中位数仅为25帧,覆盖全部13种统一房间类型,同时保持紧凑的场景级覆盖。实验表明,COVER改善了覆盖-冲突权衡,使CM-EVS成为用于几何一致全景三维学习的稀疏、紧凑且可追溯的RGB-D-姿态资源。
视觉-语言模型(VLMs)在二维任务(如定位与描述)中表现出色,但在三维理解方面仍存在局限。其关键限制在于仅依赖文本监督的范式,这种约束不足的模式限制了细粒度视觉感知,并阻碍了密集几何结构的恢复。现有方法要么通过外部视觉模型提取几何特征(导致误差累积),要么采用低效的逐像素查询或粗粒度的词元级输出进行直接预测。本文提出DepthVLM——一个简洁而高效的框架,可将单一的VLM转化为原生密集几何预测器,同时保留其多模态能力。通过在LLM骨干上附加轻量级深度头,并在统一视觉-文本监督范式下采用两阶段训练策略,DepthVLM可在单次前向传播中同步生成全分辨率深度图与语言输出。我们还引入了一种统一室内外度量深度基准数据集,采用与VLM兼容的格式。实验表明,DepthVLM在推理效率上显著超越现有VLM,领先于领先的纯视觉模型,并提升了复杂三维空间推理能力,向着真正统一的基石模型迈进。所有代码和模型检查点将公开发布。
自动多智能体系统旨在实例化智能体工作流,而无需依赖手动设计或固定的编排方式。然而,现有的自动多智能体方法仅具有部分自适应性:它们要么执行无训练的测试时搜索,要么优化元级设计器同时保持下游执行智能体不变,这造成了执行器固化的上限,并导致对自设计与自执行智能体模型的端到端训练尚未被探索。为解决这一问题,我们提出MetaAgent-X,一个端到端强化学习框架,联合优化自动多智能体系统的设计与执行。MetaAgent-X支持基于脚本的多智能体系统生成、执行轨迹收集,以及设计器和执行器轨迹的信用分配。为实现稳定且可扩展的优化,我们提出执行器-设计器分层回滚和阶段式协同进化,以提升训练稳定性并揭示设计器与执行器协同进化的动态过程。MetaAgent-X持续优于现有自动多智能体基线方法,性能提升高达21.7%。全面的消融实验表明,设计器和执行器在训练过程中均得到改进,且有效的自动多智能体系统学习遵循阶段式协同进化过程。这些结果将端到端可训练的自动多智能体系统确立为构建自设计与自执行智能体模型的实用范式。
激活引导是一种流行的白盒控制技术,通过修改模型激活来引发其行为的抽象变化。它已成为可解释性(例如探测真实性、将激活转化为人类可读的解释)和安全研究(例如越狱可能性)中的标准工具。然而,被引导的行为是否能够通过任何文本提示实现仍不明确。在本研究中,我们将这一问题归结为满射性问题:对于固定模型,是否每个被引导的激活都在模型自然前向传播下存在原像?在实用假设下,我们证明激活引导会将残差流推离从离散提示可达到的状态流形。几乎必然地,没有任何提示能复现由引导引起的相同内部行为。我们还在三个广泛使用的LLM上通过实验验证了这一发现。我们的结果确立了白盒可引导性与黑盒提示之间的形式化分离。因此,我们提醒不应将激活引导的简便性和成功解读为基于提示的可解释性或脆弱性的证据,并主张采用明确区分白盒和黑盒干预的评估协议。
监控复杂工业资产依赖于工程师编写的符号化规则,这些规则根据传感器条件触发,并提示技术人员执行纠正操作。瓶颈不在于检测而在于响应:将规则转化为维护步骤需要多年实践积累的特定资产知识。我们探究大语言模型能否为这种从规则到行动步骤的决策提供支持,并由此提出一个包含16种资产类型中118组规则-行动对生成的6,690道专家验证多选题的基准数据集。本文贡献包括:(i) 将符号化规则转换为析取范式的题干规范化流程,结合基于嵌入的干扰项采样方法构建多选题;(ii) 针对不同失效模式设计的五种变体(专业版、扰动版、详细版、增强版、推理版);(iii) 对29个大语言模型和4种嵌入基线模型的基准测试。人类评估(9名从业者,平均准确率45.0%)证实该基准需要超越操作经验的专家知识。三项关键发现尤为突出:前沿模型差距已关闭——前三名大语言模型宏观F1值相差不超过1个百分点, Bradley-Terry Elo评分将claude-opus-4-6置于次优模型之上30分;然而专业版暴露出脆弱性——在干扰项扩展条件下所有模型相对准确率下降13%-60%;增强版暴露了模式匹配问题——在条件反转情境下,前沿模型仍以49%-63%的概率选择原始答案。部署瓶颈不在于能力而在于校准:前沿模型能处理模板式故障检测,但在结构扰动下则表现失灵。
近年来,视觉-语言-动作(VLA)模型的快速发展催生了对大规模自我中心数据集的迫切需求。然而,现有数据集通常受限于短时长的片段——往往仅持续数分钟——无法捕捉复杂机器人任务执行所需的长程时间依赖关系。为填补这一空白,我们提出了MobileEgo Anywhere框架,该框架旨在利用商用移动硬件,便捷地收集鲁棒的、时长超过一小时的自我中心轨迹。我们借助现代智能手机普遍配备的传感器套件,实现高保真、长时段的相机位姿跟踪,有效消除了传统机器人数据采集的高硬件门槛。我们的贡献体现在三方面:(1)发布了一个包含200小时多样、长程自我中心数据的新数据集,并实现持久化状态追踪;(2)开源了一款移动应用,使任何用户都能录制自我中心数据;(3)提供了一套完整的处理流程,将原始移动端采集数据转化为标准化、可训练格式,用于视觉-语言-动作模型及基础模型研究。通过将数据采集过程民主化,这项工作实现了跨多样化全球环境下大规模长程数据的获取,从而加速了通用化机器人策略的开发。
少步图像生成近期取得了快速进展,基于一致性和均值流的方法显著减少了采样步数。尽管推理成本较低,但这些方法常面临训练不稳定和可扩展性有限的问题。Sphere Encoder是近期提出的替代方案,能够在仅需几步的情况下生成高质量图像;然而,该模型在推理过程中需要在像素空间和潜在空间之间反复切换,同时在同一架构内联合优化重建与生成。这种设计导致计算效率低下,且重建与生成目标之间存在冲突。为解决这些局限,我们将框架解耦为固定的预训练图像编码器和独立的潜在去噪模型,后者完全在球形潜在空间中进行训练。我们的方法消除了训练和推理过程中反复的像素空间操作,提升了效率,使重建与生成能够各自独立专精。在Animal-Faces、Oxford-Flowers和ImageNet-1K数据集上,本方法在生成质量和推理速度上均显著优于Sphere Encoder,同时在与强基线少步及多步模型的对比中取得了具有竞争力的结果。
像CLIP这样的大规模预训练视觉语言模型在多种任务中展现出显著的零样本性能。然而,通过微调这些模型来提升下游性能往往会削弱其对分布偏移的鲁棒性。近期方法试图缓解这种权衡,但通常依赖计算成本高昂的文本引导。我们提出一种新颖的鲁棒微调方法——SAE-FT,该方法仅作用于模型的视觉表征。SAE-FT通过惩罚基于预训练模型训练的稀疏自编码器所识别的语义特征被添加或移除的行为,来约束表征变化。这种约束既防止了灾难性遗忘,又使微调过程具备可解释性,从而能够直接分析语义变化。SAE-FT兼具机制透明性与计算高效性,在ImageNet及其相关分布偏移基准测试中达到或超越当前最优性能。代码开源地址:https://github.com/Fabian-Mor/sae-ft。
传统头像重建方法通常依赖逐主体优化,需要耗费数小时的计算时间,或者依赖代价高昂的预处理流程,限制了可扩展性。我们提出FFAvatar——一种可泛化的前馈框架,能够在数秒内从少量非摆拍肖像图像中重建高质量、可驱动的3D高斯头部头像。FFAvatar通过多视角查询变换器(Multi-View Query-Former)将多张源图像的信息融合为统一的规范高斯表示,并通过直接从像素端到端预测的FLAME参数进行驱动,消除了离线FLAME提取的额外开销。我们进一步提出了三阶段训练课程,同时实现了广泛的泛化能力和高保真重建:(i)在包含超过100万个身份的大规模单目视频数据上进行可扩展预训练,学习强大的可泛化先验;(ii)在小规模但高质量的360度采集数据集上进行多视角微调,增强几何保真度和极端视角感知能力;(iii)可选个性化适配,在500步优化内实现对特定身份的最大保真度。大量实验表明,FFAvatar在身份保持、几何一致性及动画保真度方面树立了新标准。在NeRSemble基准上,其PSNR比当前最先进的LAM方法显著高出5.5 dB。此外,FFAvatar支持实时部署:无需个性化时在2秒内重建头像,包含个性化时仅需10秒,并在单个NVIDIA A100 GPU上支持49 FPS的动画渲染。
基于大语言模型的智能体在陌生环境中常因过早开发而失败,即倾向于在获取足够环境特定信息前依赖先验知识采取行动。我们认为自主探索是构建自适应智能体的关键但尚未充分研究的能力。为形式化并量化该能力,我们引入可验证指标"探索检查点覆盖率",用于衡量智能体发现关键状态、物体及可供性(affordances)的广度。系统评估表明,经标准面向任务的强化学习训练的智能体始终表现出狭窄且重复的行为模式,这阻碍了下游任务性能。为解决该局限,我们提出一种训练策略,将任务执行轨迹采样与探索轨迹采样交错结合,每类轨迹采样通过相应的可验证奖励进行优化。基于此训练策略,我们提出"先探索后行动"范式,将信息收集与任务执行解耦:智能体首先利用交互预算获取具身环境知识,随后将其用于任务求解。结果表明,学会系统性探索对构建可泛化且具备现实应用能力的智能体至关重要。
最新基于生成式场景合成的3D世界建模系统(如Marble)能够生成连贯且可探索的三维环境,但其输出通常为静态单体资产,编辑性与物理交互能力有限。这限制了它们在沉浸式内容创作与具身仿真中的应用——此类场景要求生成的世界能够被主动修改和操控。为应对这一挑战,我们提出WorldAct框架,将静态生成的3D世界转化为可编辑且支持交互的场景。WorldAct利用多模态智能体引导场景分解、识别可交互物体、重建几何对齐的物体级网格以支持交互操作,并通过3D修补恢复残留背景。生成的场景支持物体级编辑、碰撞感知操控以及具身任务执行,同时保持全局场景一致性。实验表明,相较于原始生成场景,WorldAct能够实现更丰富的交互场景,为迈向可编辑与可交互的3D世界模型提供了可行路径。
基于可验证奖励的强化学习(RLVR)已成为提升大型语言模型推理能力的有效范式。然而,RLVR训练常因稀疏二元奖励和弱信用分配而受阻,导致优化信号模糊,且未能充分利用失败轨迹中蕴含的有用信息。为解决这一挑战,我们提出面向纠正的策略优化(CIPO)——一种简单有效的RLVR扩展方法,可将同策略失败轨迹转化为面向纠正的监督信号,无需依赖任何外部信号。通过联合优化源自模型自身失败尝试的纠正样本与标准RLVR目标,CIPO在提高学习效率的同时,明确增强了模型自我纠错的能力。在涵盖数学推理和代码生成的11个基准上的大量实验表明,CIPO在推理和纠错性能上持续且显著地优于强基线方法。此外,CIPO实现了更强的pass@K增益,表明它提升了模型的内在推理能力,而不仅仅是重新分配现有正确答案上的概率质量。
为实现递归自我改进,我们研究LLM智能体如何自主设计超越标准Transformer的基础模型。我们提出一种双框架方法:AIRA-Compose用于高层架构搜索,AIRA-Design用于底层机制实现。AIRA-Compose在24小时预算内利用11个智能体探索基础计算原语。这些智能体评估百万参数级候选模型,并将最优设计外推至3.5亿、10亿和30亿参数规模,最终产生两个家族共14种架构:AIRAformer(基于Transformer)和AIRAhybrid(Transformer-Mamba混合)。在10亿参数规模预训练后,这些模型持续优于Llama 3.2和Composer发现的基线模型。在下游任务中,AIRAformer-D和AIRAhybrid-D相比Llama 3.2分别提升2.4%和3.8%的准确率。此外,AIRA-Compose发现了具有高效扩展前沿的模型:AIRAformer-C的扩展速度比Llama 3.2快54%、比Composer最优Transformer快71%,而AIRAhybrid-C比Nemotron-2快23%、比Composer最优混合模型快37%。AIRA-Design则指派20个智能体为长程依赖关系编写新型注意力机制及高性能训练脚本。在长程竞技场基准测试中,智能体设计的架构在文档匹配和文本分类任务上分别达到人工最优水平的2.3%和2.6%差距内。在自动研究基准中,Greedy Opus 4.5在固定时间预算下达到0.968验证比特每字节,超越已发表的最低值。综合来看,这些框架表明AI智能体能够自主发现可媲美或超越人工设计基线的架构与算法优化,为发现下一代基础模型建立了强大范式,标志着迈向递归自我改进的明确一步。
无论是导航建筑、操控机器人还是玩游戏,要在环境中有效行动的智能体必须首先学习该环境运作的内在模型。部分可观测马尔可夫决策过程(POMDP)为此类内部世界模型提供了灵活建模框架,但仅凭观测-行动轨迹学习这些模型极具挑战性,通常需要大量环境交互。我们探究语言模型先验能否通过利用先验知识减少昂贵的交互成本,并提出了Pinductor(POMDP诱导器):通过少量观测-行动轨迹,大语言模型生成候选POMDP模型,并基于信念似然得分迭代优化这些模型。尽管使用了严格更少的信息,Pinductor在性能和样本效率上均能与假设可访问隐状态的基于LLM的POMDP学习方法相媲美,同时显著优于表格型POMDP基线方法的样本效率。进一步结果表明,其性能随LLM能力提升而扩展,且在隐藏环境语义信息时性能呈优雅退化。这些结果共同表明,语言模型先验可作为部分可观测环境下样本高效世界模型学习的实用工具,并朝着通用智能体在现实环境中的应用迈进一步。代码已开源:https://github.com/atomresearch/pinductor。
稀疏混合专家(MoE)层将令牌路由至少数专家,对此类层进行免学习压缩可在无需重新训练的情况下降低推理成本。然而,现有该系列压缩方法均面临一个隐蔽的阻碍:三个专家可能两两兼容,但合并时却形成不可约环,因此任何基于成对信号对专家进行排序的评分机制,在结构上都无法识别哪些三元组可联合合并。我们证明该阻碍是一个精确的数学对象——定义在二维复形上的单纯拉普拉斯算子的调和核:该复形的顶点对应专家,边携带KL散度合并障碍,面携带三元组障碍;对边障碍信号进行霍奇分解可精确分离此核。我们将该诊断转化为选择目标:霍奇覆盖(HodgeCover)算法贪心地覆盖调和关键边与关键三角形,其混合变体进一步将霍奇覆盖与现成的幸存者权重剪枝相结合。在三个开放权重的稀疏MoE主模型上进行激进专家缩减实验时,霍奇覆盖在专家缩减维度上达到与最先进免学习基线相当的性能,在混合维度的激进压缩前沿上领先,并独特地在所有四个霍奇分量上实现保留质量的平衡。这些结果表明,揭示学习型MoE结构的调和核,能够改变在最关键场景中表现最佳的压缩方法。
跨具身视频生成旨在在不同的人形具身形态之间迁移运动,例如从人类到机器人以及机器人之间的运动迁移,从而为具身智能实现可扩展的数据生成。该领域的一个主要挑战在于,运动动力学在不同具身形态之间部分可迁移,而外观和形态则保持具身特异性。现有方法往往将这些因素纠缠在一起,且许多方法需要针对每个目标具身形态提供配对数据,这限制了向新型机器人的可扩展性。我们提出OmniHumanoid框架,将可迁移运动学习与具身特异性适配进行分解。该方法从跨多个具身形态的运动对齐配对视频中学习共享的运动迁移模型,同时仅通过未配对视频和轻量级具身特异性适配器适应新具身形态。为减少运动迁移与具身适配之间的干扰,我们进一步引入分支隔离注意力设计,将运动条件化与具身特异性调制相分离。此外,我们构建了一个合成跨具身数据集,其中包含跨不同人形资产、场景和视点渲染的运动对齐配对视频。在合成和真实世界基准上的实验表明,OmniHumanoid实现了强大的运动保真度和具身一致性,同时无需重新训练共享运动模型即可实现对未见人形具身形态的可扩展适配。
遥感变化检测(RSCD)旨在定位同一地理区域两幅图像之间的变化。实际应用中,变化掩膜通常遵循区域级注释约定而非纯粹的局部外观差异,这使得其具有上下文依赖性且偶尔存在歧义。当前主流方法多采用逐像素判别式分类,这种策略为每个输入生成单一预测,无法将变化区域显式建模为连贯的整体。生成式公式作为一种自然替代方案,能够对合理掩膜的分布进行建模,通过采样捕捉歧义性并促进全局一致性。然而,现有生成式RSCD方法因像素空间生成的高计算成本及条件机制的复杂性,其性能通常落后于强判别式基线。为克服判别式与生成式方法的各自局限,我们提出ChangeFlow——一种生成式框架,通过修正流将变化检测重新表述为潜在空间中变化掩膜的合成过程。ChangeFlow由结构化且轻量级的条件信号引导,其随机设计天然支持基于采样的预测集成。具体而言,聚合多个预测变化掩膜可提升鲁棒性,而样本一致性则提供实用的置信度估计,突出显示歧义区域。在四个基准数据集上,ChangeFlow的平均F1达到80.4%,相比此前最优方法平均提升1.3个百分点,同时推理速度与近期强基线方法相当。项目页面:https://blaz-r.github.io/changeflow_cd
LLM智能体越来越多地在执行框架内运行,这些框架调度工具、分配资源,并在专门组件之间路由消息。然而,执行框架可能生成一个正确、无风险的答案,但其执行轨迹可能访问了未经授权的资源,或将上下文泄露给了错误的智能体。输出级评估无法发现这些失败,然而大多数安全基准测试仅对最终输出或终止状态进行评分,尽管许多违规行为发生在轨迹中途而非终止时刻。核心问题在于执行框架是否在整个执行过程中尊重用户意图、权限边界和信息流约束。为弥补这一空白,我们提出了HarnessAudit框架,该框架从边界合规性、执行保真度和系统稳定性三个维度对完整执行轨迹进行审计,重点关注这些风险最为突出的多智能体执行框架。我们进一步引入了HarnessAudit-Bench基准测试,涵盖八个真实世界领域的210个任务,在单智能体和多智能体两种配置下实例化,并嵌入了安全约束。我们在前沿模型和三个多智能体框架上评估了十种执行框架配置,发现:(i) 任务完成度与安全执行存在错位,违规行为随轨迹长度累积;(ii) 安全风险因领域、任务类型和智能体角色而异;(iii) 多数违规行为集中于资源访问和智能体间信息传输;(iv) 多智能体协作扩大了安全风险面,而执行框架设计决定了安全部署的上限。
我们对多模态物理评估流程进行了端到端审计,并记录了三种未被检测到的构建实践,这些实践扭曲了该领域衡量视觉-语言推理的方式:训练-评估污染、翻译漂移和多项选择题(MCQ)饱和。(1) 公开训练池(UGPhysics-Train、SciInstruct、MMK12)在所有六个公开物理评估中通过单阶段5-gram-Jaccard审计时零命中;而三阶段审计(Jaccard -> mxbai-embed-large余弦 -> Haiku-4.5大语言模型评判)在SciInstruct中仅发现了134个近似重复项和4846个释义候选。(2) 在59道配对的爱沙尼亚语-英语奥林匹克竞赛题目上,Sonnet 4.5模型表现出现17个百分点的差异(30.5%对13.6%;符号检验p=0.011,McNemar检验p=0.021,配对自助法95%置信区间[+5.1, +28.9]个百分点)。(3) 在相同Sonnet权重的MCQ(PhyX上79.7%)与开放式奥林匹克评估(PhysOlym-A上33.4%)之间,存在46个百分点的格式和新颖性梯度。我们发布了四项成果以应对这些差距:PhysCorp-A(6432条记录的三阶段审计多模态语料库)、PhysR1Corp(2268条记录的封闭式强化学习池)、PhysOlym-A(500道题目、99.8%来自新颖来源的留出奥林匹克评估,带有原生难度标签及英/爱沙尼亚语双语子集),以及Physics-R1——一种从Qwen3-VL-8B-Thinking冷启动的参考GSPO+DAPO方案。在3个随机种子下,Physics-R1将经过审计的语料库在8B基础模型上提升了:PhysOlym-A宽松版+18.3个百分点(8.0 -> 26.3 ± 1.7;落后Sonnet 4.5模型7.1个百分点)、PhysReason +15.7个百分点(23.9 -> 39.6 ± 6.4;超越Qwen3-VL-32B和Gemini 2.5 Pro)、OlympiadBench-Physics +6.9个百分点(46.2 ± 1.5),以及PhyX MCQ +4.1个百分点(77.8 ± 0.3)。
多头潜注意力(MLA)是DeepSeek-V2/V3采用的注意力机制,它将键和值联合压缩为低秩潜在表示,并与H100的roofline模型几乎完美匹配。然而,其训练后的权重仅暴露出一条解码路径——即吸收式MQA形式——这使得高效推理依赖于H100级别的计算带宽比,牺牲了沿注意力头维度的张量并行性,并且在面向出口限制型H20等商用推理GPU时,无法获得多令牌预测(MTP)的增益。我们提出分组查询潜注意力(GQLA),这是对MLA的最小修改,其训练后的权重在相同参数上暴露出两条代数等价的解码路径:一条是与MLA相同的MQA吸收路径,另一条是带有每分组扩展缓存的GQA路径。运行时根据目标硬件选择路径——无需重新训练,无需自定义核——因此一组GQLA权重即可同时锁定H100(MQA吸收路径,s_q=1)和H20(GQA + MTP路径,s_q=2)的roofline,同时在GQA路径上支持最多8路零冗余张量并行。为避免从头预训练,我们将TransMLA扩展为TransGQLA,可将预训练的GQA检查点转换为GQLA模型;在LLaMA-3-8B上,该方法在MQA吸收路径上将每令牌KV缓存压缩至GQA基线的28.125%,同时在每分组路径上结构性地保留GQA级别的流量。
标准的遗忘评估在完全精度下测量行为抑制,且仅在训练后立即进行,而所有部署的语言模型却必须先经过量化。近期研究表明,4位训练后量化(PTQ)能够逆转机器遗忘;我们证明这并非调参伪影,而是系统性双重失效:基于梯度的方法在实现有效遗忘后会在压缩下丧失效果,而能够抵抗量化的方法则几乎不改变模型。这两种失效均源于同一根本原因:在所有基线方法中,每个参数更新的幅度比NF4量化箱宽度低47至828倍;分散在数十亿参数中的更新无法跨越量化箱边界,我们将这一后果形式化为稀疏-持久性权衡。我们提出MANSU(机制对齐零空间遗忘),该方法通过结合因果电路归因以隔离最小遗忘子图、基于对角Fisher保留界的电路受限零空间投影,以及保证量化存活性的逐参数幅度下限,从根本上解决了这两种失效模式。此外,我们引入电路归因散度(CAD),这是一种机制验证指标,能够区分结构性擦除与行为抑制——现有指标无法做出这一区分。在多种模型族和安全基准上,MANSU是首个在所有四项属性上同时满足且各项均有裕度的方法(即有效遗忘、保留保持、非正PTQ差距以及结构性擦除),而基于梯度的基线方法在压缩后精度最高恢复0.05。
现有可控生成方法通常依赖于微调、辅助网络或测试时搜索。我们证明流匹配提供了一种不同的控制接口:通过示例进行适应。对于确定性插值,速度场完全由条件端点均值控制;偏移该均值即可改变流本身。这引出了一个简单的可控生成原则:通过改变预训练模型所遵循的参考集来引导其生成。我们以两种形式实现这一思想。参考均值引导无需训练:它从参考库中计算封闭形式的端点均值校正,并将其应用于冻结的FLUX.2-klein(4B)模型,在保持提示词、随机种子和权重不变的情况下,实现对颜色、身份、风格和结构的控制。半参数引导通过显式均值锚点和学习的残差优化器将同一思想进行摊销,在AFHQv2上达到无条件DiT-B/4质量,同时允许在推理时切换参考集。这些结果指向一个更广泛的方向:生成模型通过数据而非参数更新来适应。
从栅格化的平面图图像中重建结构化的矢量图形表示,通常是涉及平面图的计算任务(如自动理解或CAD工作流程)的重要前提。然而,现有技术在准确生成描述大型室内空间、包含众多房间和变化多边形角点的复杂平面图所传达的结构与语义方面仍存在困难。为此,我们提出Raster2Seq,将平面图重建定义为序列到序列任务,其中平面图元素(如房间、窗户和门)被表示为联合编码几何与语义的带标签多边形序列。我们的方法引入自回归解码器,通过可学习锚点的引导,学习基于图像特征和先前生成角点来预测下一个角点。这些锚点表示图像空间中的空间坐标,从而有效引导注意力机制聚焦于信息丰富的图像区域。通过采用自回归机制,我们的方法在输出格式上具备灵活性,能够高效处理包含众多房间和多样化多边形结构的复杂平面图。本方法在Struc3D、CubiCasa5K和Raster2Graph等标准基准上取得了最先进性能,同时在更具挑战性的数据集(如包含多样房间结构和复杂几何变化的WAFFLE)上也展现出强大的泛化能力。
Segment Anything Model 2 (SAM2) 在视频片段的可提示分割中展现出强大的泛化能力,但其与音频模态的集成仍未被充分探索。现有方法要么通过基础模型将音频转换为视觉提示(例如边界框),要么向图像编码器注入适配器以实现音视频融合。然而,由于提示精度有限且推理开销增加,这两种方法在人机交互场景中均表现不足。尤其是基于适配器的方法常受音频提示稀释问题困扰——信号在网络传播过程中逐渐衰减。本文提出AuralSAM2,在基本保持SAM2可提示分割能力的前提下集成音频信息。其核心模块AuralFuser融合音频与视觉特征,生成稀疏与密集提示。这些提示以音频为引导,基于SAM2的特征金字塔将听觉线索传播至各视觉层,强化跨模态交互。为进一步对齐模态,我们引入音频引导的对比损失函数,强化主导视觉特征中的听觉相关性。该方法在公开基准测试中取得显著精度提升,同时对可提示分割的交互效率影响极小。代码已开源:https://github.com/yyliu01/AuralSAM2。
我们提出ProofGrid,这是一个通过机器可检验证明而非仅依据最终答案来评估大语言模型推理能力的基准测试套件。ProofGrid包含15项任务,涵盖证明书写、证明检查、证明掩码及证明补全。这些任务以极简形式化符号表述,尤其采用NDL——一种紧凑的自然演绎语言,可嵌入短提示中,并支持精确、可审计的验证。由此实现机械化、可复现且细粒度的评估,而非依赖人类或大语言模型判断。ProofGrid覆盖校准的难度梯度,从基础推理测试到结构复杂的挑战性任务(当前模型均无法解决),同时最大程度降低对领域知识、求解器代理及长上下文伪影的依赖。我们还开发了一套用于推理基准的对比框架,并以此从表示方式、验证保障及推理深度三个维度,将ProofGrid定位至现有相关工作之中。 在方法论上,我们引入了一套带检测的证明验证流程,该流程能容忍细微的表面差异,同时定位首次实质性推理失败点,从而提升测量分辨率,并将证明规划与低层次执行噪声相分离。利用此流程,我们评估了广泛的开源与闭源模型。结果表明,模型进展迅速但仍有显著局限:前沿模型在若干基础任务上表现良好,但困难任务——尤其是需要全局组合推理或低层次证明综合的任务——仍远未解决。我们还识别出一种认知不稳定性现象:模型能生成有缺陷的证明,却能正确拒绝那些局部推理步骤;我们通过认知稳定性指数将其形式化。最后,我们以双参数项目反应理论分析、赖特图及基于Fisher信息的标准化任务区分度指标,对准确性评估进行了补充。
随着基于大语言模型(LLM)的代理越来越多地代表用户浏览网页,一个自然的问题随之产生:网站能否被动识别驱动代理的底层模型?若能实现,则意味着显著的安全风险——攻击者可针对已知模型漏洞发起定向攻击。在涵盖信息检索与购物任务的14个前沿LLM及四个网络环境中,我们证明:通过被动JavaScript追踪器捕获的代理行为与交互时序,足以将底层模型识别准确率(F1分数)提升至96%。我们通过证明基于代理行为训练的分类器可跨模型规模与系列泛化,从而系统化界定这一攻击面。进一步研究表明,少量交互轨迹即可训练出强分类器,且代理身份可在单次任务早期被推断。在行为间注入随机延时虽会显著降低分类器性能,但无法提供稳健防护:对延时后的交互轨迹重新训练分类器,其性能基本恢复。我们已在https://github.com/KabakaWilliam/known_actions 开源实验框架与标注后的代理轨迹语料库。
地理空间基础模型(GFMs)已被提议作为适用于灾害响应、土地覆盖制图、粮食安全监测及其他高风险地球观测任务的通用骨干模型。然而,关于这些模型的已发表研究成果并未为评审者或用户提供足够信息,以判断哪种模型适用于特定任务。我们认为,目前无人知晓地理空间基础模型领域的最新最优技术状态。这些方法或许有用,但GFM文献在标准化评估、训练与测试协议、权重发布机制及预训练控制方面缺乏足够的统一性,导致无法对模型进行比较或排序。在对152篇论文的审查中,我们发现同一模型、基准测试和协议存在46处跨论文分歧,差异至少达10个百分点;在可提取预训练数据的126篇论文中,有94篇使用了其他论文未采用的配置;39%的GFM论文未发布任何模型权重。这种社区标准的缺失是可以解决的。我们提出六项具体期望:采用命名许可协议的权重发布、共享核心评估体系、标注基线方法的复制与重新运行、报告方差、统一评估框架、以及数据-架构-算法控制。这些问题源于协调失败,而非任何单个实验室的过失;本文作者与GFM社区众多成员一样,也曾对此有所贡献。我们并非仅仅批判社区,而是旨在提供具体步骤,促进对如何创新GFM形成共识。
多语言信息检索在实际搜索场景中日益重要,用户经常在混合语言语料库上发起查询。现有评估主要奖励语言无关的语义相关性,将相关段落同等对待而不考虑语言差异。然而,检索效用还取决于检索到的段落的语言:用户可能更倾向于能阅读并以查询语言进行验证的结果,而查询-段落语言不匹配可能会使检索增强生成系统中的下游基础验证和答案验证复杂化。为了评估这一语言感知维度,我们提出了MLAIRE,一种多语言语言感知信息检索评估协议,它将跨语言语义检索与查询语言偏好分离开来。MLAIRE通过构建包含跨语言平行段落的受控语料池,使得在存在等效翻译时能够测量语义检索准确率和查询语言偏好。我们提出了语言感知指标,包括语言偏好率(LPR)和Lang-nDCG,以及一种将语义和查询语言偏好失败区分的四路分解方法。通过评估31种密集、稀疏和延迟交互检索器,我们表明标准指标掩盖了不同行为:语义强的检索器可能以非查询语言返回正确内容,而查询语言偏好更强的检索器可能检索到语义相关性较低的段落。