每日精选AI研究论文及翻译
将多模态基础模型部署为闭环策略时,越来越需要根据不再可见的观测结果来调节动作。然而,现有基准要么暴露完整状态、混淆了隐藏状态重建与其他智能体能力的区别,要么仅在回合结束后测试记忆恢复能力。我们提出RNG-Bench(重建性非马尔可夫博弈),这是一个旨在隔离基础模型重建过去观测结果并在多步交互中据此行动能力的基准测试套件。该套件包含两个互补博弈:匹配对游戏——需在特定位置短暂展示的卡片身份在后续被回忆;以及3D迷宫游戏——需将第一人称视角整合为空间地图。两个博弈均在同一框架下评估,包含三个受控的难度维度:网格尺寸、视觉模式及观测模态。该基准进一步引入了头对头对决协议以控制实例级方差,并提出了"记忆缺口"指标,用于区分遗忘与不良动作选择。最难的配置要求每个回合约128K个token和350张图像输入,前沿多模态大语言模型尚未达到饱和。记忆缺口分析表明,大部分残差错误源于对早期观测的遗忘,而非次优决策。最后,在最优策略轨迹及筛选后的模型演示上微调Qwen3.5-9B,不仅能提升RNG-Bench性能,还能迁移至现有基准,且不损害通用多模态能力。
运动预测是视觉智能的核心:智能体必须预测物体将如何运动,以便规划行动、推理物理交互以及合成逼真的未来场景。我们认为,世界坐标系中的三维点提供了一种通用表示,这种表示具有类别无关、视角稳定、简洁紧凑且对下游任务直接有用的特性。我们形式化了目标条件三维点运动预测任务:给定一段简短的视觉历史、感兴趣物体上的一组三维查询点,以及意图目标的语言描述,模型需预测每个点的未来三维运动轨迹。我们引入了一套完整的流程来大规模研究这一任务:(1)MolmoMotion-1M 是一个大型语料库,包含来自116万段无约束视频的动作描述与物体锚定的三维点轨迹标注;(2)PointMotionBench 是一个经人工验证的基准,涵盖111个物体类别和61种运动类型;(3)MolmoMotion 是一个通用运动预测模型,支持自回归坐标预测和基于流匹配的轨迹生成。MolmoMotion 能根据不同的语言指令准确预测多样化的运动模式,并在 PointMotionBench 上显著优于现有运动预测基线。最后,我们证明了所学习的三维运动先验能有效迁移至下游应用:它提升了机器人操作的训练效率与泛化能力,其预测的轨迹还能为生成模型提供有效的运动引导,从而合成物体运动更逼真的视频。
世界模型正在从被动的视觉生成器,转变为具身智能的基础性、可运行基础设施:它必须能够自然地从异构经验中获取世界知识,在长时程上维持持久状态,并在真实的部署约束下高效执行。为此,我们提出Kairos,一个围绕这些需求设计的原生世界模型技术栈。(1)Kairos通过首创的**原生预训练范式**来学习世界,该范式由**跨具身数据课程表**驱动,将开放世界视频、人类行为数据和机器人交互组织成一条渐进式发展路径。(2)Kairos通过**原生统一架构**(配备**混合线性时间注意力**)维持世界——该架构同时实现统一的世界理解、生成与预测:滑动窗口注意力捕捉局部动态,扩张滑动窗口捕捉中程依赖,而门控线性注意力维持持久的全局记忆。我们建立了形式化的理论界限,证明这种时间分解严格限制了误差累积,从数学上保证了状态在扩展时域上的传播。(3)Kairos通过集成**部署感知系统协同设计**来运行世界,支持在服务器级和消费级硬件上生成低延迟的轨迹,服务于真实世界的观测-行动-反馈循环。在具身世界模型、长时程基准和行动策略基准上的实验表明,Kairos在达到顶尖性能的同时,展现出强大的效率-能力权衡优势。综合这些结果,Kairos定位为未来自演化物理智能的一个有机运行基础。
在大规模视觉-语言数据上训练的语言模型已展现出作为具身智能体的强大潜力。通过工具使用来驾驭模型,将高层推理与感知、规划和控制等外部模块相结合,为端到端的视觉-语言-动作系统提供了一种有前景的替代方案。然而,目前尚不清楚何种工具套件能有效支持具身操作,以及此类工具套件能在多大程度上解锁各类推理模型的具身能力。为此,我们提出了Guava——一种通过系统探索智能体工作流、动作空间和观测空间设计空间而开发的具身工具使用框架。研究识别出有效具身智能体的三大关键要素:迭代感知-推理-动作循环、语义动作抽象以及多模态观测。为探究这些设计原则是否对小型模型同样具有普适性,我们构建了一套端到端训练流程,利用完全在仿真环境中采集的不足2000条轨迹,将具身操作能力蒸馏至一个40亿参数的开源模型中。在仿真与真实环境中的实验结果表明,该模型性能可与前沿专有模型相媲美,同时在未见物体、新颖指令及长时域任务上展现出强大的泛化能力。研究提示,精心设计的工具套件可作为具身操作的可扩展、模型无关接口,以极少量训练数据驱动紧凑型开源模型涌现出强大的具身能力。
评分匹配与流匹配模型通常依赖基于偏好的强化学习以实现两个目标:与主观偏好对齐,以及令人惊讶地,恢复诸如视觉真实感和连贯物体结构等属性——而基于匹配的训练本应直接从数据本身学习这些属性。我们认为这反映了一种结构性失配:匹配损失在训练时的边缘分布下测量速度场或评分场的ℓ₂回归误差,这一代理指标与决定推理时样本质量的视觉和语义属性对齐不佳。当存在与这些属性对齐的奖励时,强化学习通过在其自身生成样本上评估模型并直接沿奖励地形优化,从而规避了这种失配。挑战在于如何在不依赖人类偏好(成本高昂且将数据真实性与标注者倾向混为一谈)的情况下获得此类奖励。 为此,我们提出判别器引导强化学习(DRL)。DRL训练一个判别器,在预训练表示空间中区分真实数据与基础模型样本,并将其logit值用作KL正则化强化学习中的奖励。预训练空间将判别器约束在具有感知意义的方向上,而logit值则估计数据与模型之间的对数似然比——这正是以数据分布为目标的理想奖励。在SiT、JiT、REPA和RAE等模型上,DRL显著降低了无引导FID(例如,SiT上从9.38降至2.62)和语义空间FD(例如,SiT在DINOv3特征上从88.2降至19.3),在所有骨干网络上均取得一致改进,并且在不使用人类偏好数据训练的情况下提升了人类偏好奖励。此外,在后续基于偏好的后训练中,DRL在偏好奖励与图像保真度之间实现了更优的帕累托前沿,既增强了对齐度,又减少了过饱和、过度亮度等低层级伪影。
强化学习(RL)已成为大型语言模型(LLM)代表性的后训练范式,使其具备强大的推理和智能体能力。然而,rollout生成仍是主要的延迟瓶颈,因为自回归采样需要顺序解码响应,而少数长尾生成往往决定了完成时间。推测解码(SD)自然解决了这一瓶颈——作为一种成熟的服务固定LLM的技术,它通过快速草拟令牌并通过并行验证接受令牌来降低延迟,同时保持目标模型分布。然而,其实际加速效果无法直接迁移到RL rollout中:(i)不断演化的目标策略使得任何固定草拟器与策略输出分布之间的不匹配加剧;(ii)rollout解码过程中活跃批量大小逐步缩小,使解码从计算受限状态转向内存受限状态,此时并行验证可充分利用未利用的计算资源。因此,加速RL rollout需要一种能在演化策略的长序列、高温度生成中保持有效的草拟器,以及一种系统感知的SD使用方式,以避免陷入计算受限状态。我们提出EfficientRollout,一个系统感知的自推测解码框架,旨在填补这一空白。EfficientRollout从目标模型中诱导出一个量化草拟器(即自推测解码),使其与演化策略紧密耦合,无需单独预训练草拟器或进行在线适配。它还协调了一种系统感知的SD切换策略与接受感知的草稿长度调整机制,仅在有利状态下启用推测,同时将草拟预算与演化中的草拟器质量相匹配。与加速的自回归rollout基线相比,EfficientRollout将rollout延迟和端到端延迟分别降低高达19.6%和12.7%,同时保持最终模型质量。
稀疏自编码器(SAE)将残差流激活分解为可解释特征。近期基于潜在空间的防御方法日益依赖于这种分解,假设被识别为“不安全”的SAE特征可作为可操作的监视与干预把手。在此范式下,预期通过钳制特定有害特征即可可靠地防止模型不当行为。然而,我们表明这种成功可能隐藏着一个可恢复的失效模式:钳制可能阻断通向某种行为的某条可见路径,却并未消除行为本身。我们将这一脆弱性形式化为“干预后恢复”——一个约束残差空间优化问题。从干预后的残差状态出发,我们优化残差扰动,以恢复干预前的行为,同时保持目标SAE特征在干预后的取值。即使在强威胁模型下(干预在优化和生成过程中始终生效),恢复仍然可能实现。为排除恢复仅仅是撤销干预的可能性,我们在单层干预中使用编码器正交更新,在跨层设置中使用对应的特征图雅可比矩阵。在TPP、遗忘学习、IOI及拒绝指导实验中的压力测试表明,尽管在特征层面干预成功,但行为依然可恢复。尤其是在安全关键的拒绝指导场景中,我们在有效样本上实现了95.8%的恢复率,同时将被防御特征的相对漂移控制在0.131,显著低于基于后缀的基线。进一步的恢复路径归因分析将这种恢复定位到SAE重构残差——即SAE未能解释的成分。这些结果揭示了特征层面控制与行为完备性之间的差距:SAE特征能够支持因果干预,但控制它们并不能保证对底层行为的控制。
用于大语言模型训练的强化学习流水线,往往需要在不同训练阶段之间手动重新设计环境,迫使从业者通过启发式推断哪种配置最能改进当前策略。为自动化这一过程,我们提出"LLM即环境工程师"框架——在该框架中,当前策略模型会分析故障轨迹与情境信息,并提出下一阶段训练环境配置的修改建议。我们还引入MAPF-FrozenLake这一可控测试平台,其生成器暴露了多维环境配置,适合用于研究与基准测试环境重设计工作。在此测试平台上,我们基于策略行为的结构化摘要、失败案例与环境统计数据,为环境工程师提供条件信息,使其生成下一训练阶段的配置。以Qwen3-4B为骨干模型,我们的框架在基准测试中取得了最强的综合表现,超越了更大的专有LLM(如GPT、Gemini)以及固定环境的训练基线。我们进一步分析了哪种情境信息最为有效,发现成功的环境更新依赖于失败证据,并会保留已有的有效配置。有趣的是,当前的强化学习检查点作为环境工程师的表现优于原始基础模型,这表明策略学习提升了模型诊断自身剩余弱点的能力。
空间视觉语言模型在几何感知方面取得了显著进展,但涉及深度、距离和场景关系的多步推理仍具挑战。此外,不同类型的空间查询需要根本不同的策略:有些最适合通过纯语言逐步演绎,而另一些则需先进行显式三维定位再进行定量推理。我们提出基于强化学习的空间视觉语言模型双路径空间推理框架(SR-REAL),该统一框架为空间视觉语言模型配备两条互补推理路径:纯语言推理路径(LOR),执行逐步语言演绎;以及检测-再推理路径(DTR),通过区域令牌检测三维几何线索(如中心点或包围框),再进行显式几何推理。SR-REAL首先通过冷启动监督微调阶段构建LOR和DTR的思维链监督,并暴露区域到三维接口;随后采用强化学习,通过准确率和格式奖励优化策略模型;对于DTR,离散中心检测奖励进一步细化几何对齐。在多个空间基准测试中,SR-REAL显著超越空间视觉语言模型基线:(i)单个强化学习训练模型支持两条推理路径,DTR通过精确三维定位在区域感知任务中表现优异,LOR则增强通用空间推理;(ii)联合训练两条路径促进相互强化;(iii)高质量混合冷启动数据对稳定强化学习优化至关重要;(iv)模型无需逐任务调整即可跨数据集和领域泛化,展现LOR与DTR之间的正向迁移能力。
图形用户界面(GUI)定位要求视觉语言模型(VLM)在高分辨率截图中识别微小目标元素并预测精确的屏幕坐标。在策略自蒸馏(OPSD)是一种有前景的后训练方法,适用于这种坐标敏感任务,因为它能提供超出硬坐标标签的密集令牌级教师信号。然而,朴素OPSD并不完全适合GUI定位:OPSD在学生生成的前缀上评估教师,当前缀已偏离目标坐标时,坐标令牌教师信号的质量可能下降,导致不可靠的教师信号。为缓解这一问题,我们提出了一种面向VLM的GUI定位的质量感知自蒸馏方法,通过软正确性感知门控和教师概率缩放来提升坐标令牌教师信号的质量。软正确性感知门控检查:在当前学生生成的前缀下,教师的坐标令牌预测是否仍能完成真实边界框。若不能,则对应的教师信号被降低权重。随后,教师概率缩放利用教师的置信度作为轻量级因子,进一步校准门控监督的强度。一个关键实验发现是:单独使用任意一个组件均无法提升整体性能,而两者组合则能持续改进性能。这表明两种机制发挥互补作用:正确性感知门控抑制不可靠的坐标令牌监督,教师概率缩放则校准剩余信号的强度。在六个GUI定位基准上的实验表明,我们的方法能持续改进基础模型,并优于强基线方法。
长视频理解的被动模型通常依赖“全量观看”范式,无论查询难度如何都统一处理所有帧,导致计算成本随视频时长增长。尽管交互式框架已经出现,但它们往往依赖于全局预扫描,其上下文成本仍随视频长度线性增长。我们提出OmniAgent,这是首个原生全模态智能体,将视频理解建模为基于POMDP的迭代观察-思考-行动循环。OmniAgent执行按需行动,将音视频线索选择性提炼为持久化的文本记忆,从而有效解耦推理复杂度与原始视频时长。为实现这一目标,我们引入了:(1) 智能体监督微调——通过最佳轨迹合成与双阶段质量控制,引导原生主动感知能力; (2) 智能体强化学习中的TAURA(轮次感知自适应不确定性重缩放优势函数),利用轮次层级熵引导信用分配聚焦于关键发现轮次。关键在于,OmniAgent展现出积极测试时间扩展特性:推理轮次增加时性能持续提升,验证了主动感知的有效性。在十个基准测试(如VideoMME、LVBench)上的实证结果表明,OmniAgent在开源模型中达到最优性能。值得注意的是,在LVBench上,我们的7B智能体以50.5%对47.3%的成绩超越了规模大10倍的Qwen2.5-VL-72B。
基于可验证奖励的强化学习算法(如GRPO)已成为大语言模型复杂推理的后训练主导范式,但在训练过程中普遍存在策略熵崩塌问题。我们对GRPO下词元级熵动态进行一阶梯度分析,发现了一个词元级信用分配失配现象:每个词元的熵变化可分解为轨迹级优势与下一词元分布上的熵敏感度函数的乘积,由此形成优势-惊奇四象限结构及近临界特性。受此启发,我们提出STARE(基于惊奇的词元级优势重加权策略熵稳定性方法),该方法通过批内惊奇分位数识别熵关键词元子集,选择性重加权其有效优势,并引入目标熵闭环门控以实现稳定熵调节。在1.5B至32B的模型规模以及三个任务族(短思维链、长思维链、多轮工具使用)上,STARE能够在数千步训练中维持稳定的强化学习过程,同时将策略熵保持在目标范围内。在AIME24和AIME25上,STARE的平均准确率比DAPO及其他竞争基线高出4%-8%,且反思词元与响应长度同步增长,表明其维持了持续的探索-利用平衡,进一步释放了强化学习训练潜力。代码已开源至 https://github.com/hp-luo/STARE。
扩散模型已成为自回归模型的一种有前景的替代方案。其中,均匀扩散语言模型(UDLM)允许在任何步骤更新任意令牌,原则上可实现更灵活的生成。然而,目前尚未有UDLM在参数量级和令牌预算都较大的情况下从零开始预训练。自回归建模和掩码扩散建模在较大规模上已有可供社区研究和构建的模型,而均匀扩散模型则缺少此类模型。一个从零开始在大规模上预训练的UDLM,将为研究其缩放行为、生成动态、可控性以及与现有自回归和掩码扩散模型的权衡提供清晰的参考点。为此,我们推出了Sumi(日语中意为“墨水”),这是一个完全开源的70亿参数均匀扩散语言模型,从零开始使用1.5T个令牌进行预训练。在知识、推理和编程基准测试中,Sumi与使用相当令牌预算训练的自回归模型表现相当,但在常识基准测试中表现略逊一筹,这可能与我们所采用的重教育类数据混合策略有关。我们公开了模型权重、检查点以及完整的训练方案,包括基于公开语料库的数据混合详细说明。希望这一开源能够推动社区对原生均匀扩散在规模上的研究,并促进对其尚不明确特性的探索。
随着全球视频内容越来越多地以社交互动为目的在社交平台上消费,专为社交世界构建的视频生成模型虽至关重要,却在以往研究中被严重忽视。在本工作中,我们界定了社交世界模型的定位,并构建了一个原型模型作为实现这一目标的第一步。尽管以往的世界模型成功模拟了物理环境或游戏世界探索,但它们本质上仍与以人为中心的社交动态相脱节。为填补这一空白,我们提出首个实时音视频自回归模型MaineCoon,该模型拥有220亿参数,能够实现实时流式生成和亚秒级交互,在单块GPU上创下了高达47.5 FPS的帧率纪录。据我们所知,MaineCoon也是首个专为社交互动应用优化的实时音视频生成模型。为实现高效稳定的训练,我们在MaineCoon中引入了多项创新技术,包括自重采样、跨模态表征对齐、领域感知偏好优化以及强化在线策略蒸馏。我们还设计了首个智能体流式推理框架,支持千秒级甚至更长时间的生成,并通过智能体缓存管理和提示规划来缓解漂移问题。这些创新显著加速了训练过程,同时优化了实时推理性能。我们相信,这项工作不仅为高质量、低延迟、长时域音视频自回归模型树立了新的最佳性能基准,更指出了下一代AI原生社交平台所需的范式转变方向。
多文化多智能体系统正日益部署于全球多样化的场景中,其中不同智能体植根于不同文化背景。现有文化评估聚焦于价值对齐:即单个智能体与目标文化的契合程度。然而,对齐本质上是单一智能体属性,无法揭示系统作为一个整体是否保留了其本应代表的文化多元性。我们提出将价值多样性作为多文化智能体系统的系统级评估维度,其定义基于文化条件化的智能体在共享价值调查中回答的差异性。借助世界价值观调查,我们在广泛的系统配置下评估了19种文化与18个基础模型。研究发现,多样性与对齐在很大程度上不相关,表明两者捕捉了互补的系统属性,且当前多文化智能体系统在价值多样性上显著低于人类社会。混合基础模型系统缩小了这一差距但并未完全弥合,该差距在不同文化组合与智能体规模下持续存在。社会互动进一步通过驱使智能体趋向共识而削弱多样性,参与式预算案例研究表明,这种同质化缩小了集体决策的广度。综上所述,我们的研究将价值多样性确立为多文化多智能体系统的独立评估维度,并揭示了当前基于大语言模型的社会中持续存在的同质化趋势。我们的代码与数据已公开于 https://github.com/iNLP-Lab/MultiAgent-Diversity。
语言模型代理正逐渐成为软件工程和客户服务等孤立、短周期任务的熟练执行者。然而,现实世界中的挑战需要多种复杂技能的有机结合,而这些技能在代理中仍鲜有验证:(1)在不确定性中驾驭长周期任务;(2)在嘈杂环境中获取信息;(3)适应不断变化的世界;(4)协调多个动态环节以实现连贯目标。为此,我们推出CEO-Bench,通过模拟一个具有代表性的现实任务——运营一家初创公司500天——来综合评估这些能力。代理通过可编程的Python接口管理虚构公司的定价、营销、预算等诸多方面,在相同的环境中面临与人类CEO相同的挑战。成功需要分析嘈杂且相互关联的商业数据库,将信号转化为可靠策略,并通过编程协调众多决策。最强的代理会编写复杂的代码,模拟客户群体以预测未来现金流,并从谈判历史中挖掘隐藏的客户偏好。即便如此,大多数最先进的模型在此环境下仍举步维艰。只有Claude Opus 4.8和GPT-5.5能在起始资金100万美元以上保持正收益,且两者均无法持续盈利。CEO-Bench迈出了衡量驱动持续性、适应性进步所需智能的第一步。
视觉Transformer(ViTs)已成为视觉表示学习的主导架构,能够提供极其强大且可广泛复用的主干特征。然而,由于全局自注意力的二次复杂度,ViTs通常运行在相对较小的分块令牌网格上,这给语义分割和深度估计等密集预测任务带来了持续的性能瓶颈,进而推动了任务无关的特征上采样器的发展。尽管现有最先进方法能生成视觉上锐利的密集表示,但其依赖浅层图像编码器进行引导上采样的方式,可能引发特征泄漏、碎片化与模糊问题。我们提出ViT-Up,一种隐式特征上采样框架,它通过从中间ViT隐藏状态构建逐层查询来替代外部图像引导,从而能够在任意连续的图像坐标上预测特征,同时保持与主干特征空间的对齐。实验表明,在密集预测与语义对应任务中,ViT-Up持续优于最先进的图像引导上采样器。在DINOv3-S+上,ViT-Up在Cityscapes上的mIoU提升最多达+2.07,在SPair-71k上的PCK@0.10提升最多达+4.17。结合更大的DINOv3-B主干,这些增益分别增至+3.36 mIoU和+8.09 PCK@0.10,表明ViT-Up的性能随主干容量提升而可扩展。
世界基础模型(WFMs)是强大的模拟器,但主要运行在单视图场景中,缺乏机器人操作所需的多视图3D一致性。尽管机器人系统依赖多个摄像头(第一人称视角、眼-手协调视角及腕部安装视角)进行策略学习,但当前的多视图世界模型仅简单拼接视图标记,缺乏显式的几何推理,导致跨视图物体偏移、深度不一致及纹理错位。我们将这些问题归因于两个缺陷:缺乏显式的跨视图通信机制,以及缺少3D几何先验。我们认为同时解决这两个缺陷是必要且充分的。为此,我们提出PAIWorld框架,通过三个核心组件增强扩散变换器世界模型:(1)几何感知跨视图注意力模块,在视图间建立显式交互路径;(2)几何旋转位置编码,将相机光线方向与外部位姿编码至注意力机制中;(3)隐式3D-REPA,从冻结的3D基础模型中蒸馏3D感知特征以确保3D一致性。基于DiT世界基础模型,PAIWorld在机器人操作基准测试中实现了最先进的多视图3D一致性,在WorldArena排行榜中位列第一,在AgiBot-Challenge2026排行榜中位列第二,同时支持基于模型的规划、世界动作模型及多视图策略后训练等下游应用。
前沿科学推理仍然是大型语言模型(LLMs)面临的重大挑战,即便是最强大的商业系统也难以达到专家级水平。深入研究模型行为会发现,单模型评估所掩盖的显著互补性:不同前沿模型在不同类型问题上各有优势,没有单一模型能全面把握问题全貌。我们提出SciOrch框架,该框架训练一个轻量级的8B模型来协调前沿LLMs进行科学推理。该调度模型将问题分解,通过API调用将子问题分配至选定的商业模型,并综合生成最终答案。训练这样的调度模型本质上比传统的智能体强化学习更为困难:每个动作都会触发API调用,既产生高昂的经济成本,又带来显著的延迟,使得标准的在线滚动训练不可行。我们采用基于MCTS的方法解决了这一问题,该方法生成多样化的调度轨迹,提取每个节点的单轮样本,并通过GRPO风格的训练来优化调度模型。在涵盖SGI-Reasoning和Scientists' First Exam的240题测试集上,SciOrch达到56.66%的平均准确率,超过最强单一商业模型3.74%,并超越最强多智能体基线3.33%。同时,它在SGI和SFE两项测试上均取得最佳准确率,且API调用成本不到典型多智能体方法的一半。
多轮工具使用强化学习的瓶颈在于静态数据集中信息样本的快速消耗。我们观察到,GRPO中的梯度信号集中在轨迹奖励方差最高的任务上,这一现象源于Popoviciu上界。因此,接近智能体能力边界的样本(即成功与失败大致平衡的样本)贡献了不成比例的大策略梯度。随着训练的进行,该边界持续移动,逐渐耗尽静态数据集中信息样本的池子。我们提出RODS(奖励驱动的在线数据合成)以解决这一消耗问题。RODS通过将进度奖励方差重新用作一种实用的零成本边界检测器(除已为训练计算的轨迹外无需额外推理),闭环了强化学习训练与数据生成之间的循环。它持续识别此类边界样本,通过技能对齐的重采样管道合成与其结构复杂度(例如API拓扑和依赖深度)相匹配的新多轮变体,并管理一个与策略共同进化的动态回放缓冲区。从400个人工种子开始,维持约800个样本的活动训练池,RODS实现了与使用17K样本的离线管线相当的性能,同时所需的轨迹数量减少了约20倍,并在我们的控制环境中优于固定数据强化学习和环境增强方法。
离线强化学习通常在过程级奖励监督下进行分析,但许多序列决策数据集仅记录轨迹级结果。我们针对此类结果级监督下的离线策略优化建立了一套统计理论。首先研究规范设定:目标仍是期望累积奖励,但每条离线轨迹仅提供一个标量标签,其条件均值即为累积回报。我们提出OPAC,一种悲观演员-评论家算法,该算法从轨迹级标签中学习潜在奖励模型并优化策略。我们证明了阶为~O(H^2C_{sa(π^star)/n})的高概率保证及其匹配下界,刻画了以单条轨迹级标签替代过程级奖励所对应的精确统计代价。随后我们将该原理扩展到基于偏好的反馈,保留了主导的深度和集中性依赖关系直至偏好模型常数。最后,我们研究广义基于结果的离线强化学习,其中监督信号和目标均为由潜在每步奖励的非线性聚合所诱导的轨迹级量。该问题通常不可学习:对于全成功目标,即使在确定性转移和恒定集中性条件下,任何离线学习器都可能需要Ω(2^H)条轨迹。我们进一步通过两个结构系数κ_μ(σ)和χ_μ(σ)识别出一个可处理区间,这两个系数捕捉了结果聚合和广义贝尔曼更新中的信息损失,在此条件下广义OPAC实现了多项式样本复杂度。我们的结果共同界定了何时轨迹级监督能够实现样本高效的离线控制,以及何时缺失的过程级奖励会构成根本性统计障碍。
在交互式环境中学习模拟人类用户,可以促进智能体助手的训练、个性化系统的评估、社会科学研究等多个领域的发展。现有方法通常通过训练大型语言模型(LLM)来匹配单一的真实回答,要么最大化对数概率,要么使用相似度奖励。我们提出{Turing-RL}:一种基于图灵测试的强化学习方法,用于训练用户模拟器模型。{Turing-RL} 使用具有判别性的图灵奖励,借助 LLM 评判器,根据用户的历史记录来评判生成回答与真实用户回答的不可区分程度,用户模拟器 LLM 据此学习生成与用户可能表达的内容无法区分的回答。在对话聊天和 Reddit 论坛讨论这两个不同领域,我们发现 {Turing-RL} 在 LLM 评估指标和人工评估指标上均持续优于基准方法。我们的研究表明,优化不可区分性而非回答匹配,是学习用户模拟器的有效途径。
视频生成模型(VGMs)已成为一个新兴前沿领域,不仅可用于视频生成,还能应用于包括世界建模在内的多种下游任务。为了推进这些任务,一个优秀的视频模型必须理解世界的物理现实。评估这种理解能力是一个新兴领域,并催生了Physics-IQ基准测试——该基准通过将模型生成的视频与真实物理实验视频进行对比,明确量化了这一能力。本文中,我们对Physics-IQ基准进行了系统性审查,揭示了其缺陷,并提出了三项改进方案,以更精准地衡量VGMs的物理理解能力。具体而言,我们优化了提示词和真值质量以减少混淆因素的影响,并引入了一种样本级评分系统,对每个样本和指标赋予同等权重。由此得到的改进版基准Physics-IQ Verified,对57.6%的样本进行了精细化调整,并改进了超过34.8%的提示词。在基于六个图像到视频生成模型的对比研究中,我们观察到了中等但具有意义的排名变化(Kendall's τ=0.46)。我们希望Physics-IQ Verified能通过为符合物理规律的VGMs提供更可靠的信号,推动社区发展。该基准的代码可在 https://github.com/google-deepmind/physics-iq-benchmark 获取。
AI系统正日益自动化科学工作流程,但将先前证据、生成的想法、实验与最终结论联系起来的推理过程往往仍隐含在模型内部。本文提出Xcientist——一种将研究综合与实验验证外化为可审查、受合约约束流程的研究框架。Xcientist将文献证据、想法状态、实施方案、消融记录和修正痕迹组织为持久化研究工件,使得生成机制能够在不丢失证据基础的前提下被落地、执行、测试和修订。我们将"声明漂移"识别为自动化研究的一种失效模式,即可运行的工件不再支持最初声称的机制。在免训练记忆系统、图结构交通预测及多尺度物理信息神经网络中,Xcientist保留了从问题定义到机制设计、验证及有限修正的全流程可追溯路径。这些结果表明,评估AI科学家不应仅依据其最终工件,更应考察其综合与验证过程是否保持可归因、可审查且具备科学可问责性。
测试时通过序列修正进行缩放已成为增强大型语言模型推理能力的一种强大范式。然而,标准的后训练方法主要优化单次目标,这与多步推理动态存在根本性不匹配。尽管近期工作将此视为多轮强化学习,但传统方法直接优化多步轨迹,未能进一步利用模型在纠正中间步骤时可以从高质量错误中学习的机会。我们提出了一种两阶段迭代框架,交替进行在线数据/提示增强和策略优化。通过将成功恢复轨迹中的中间步骤("接近正确答案")转换为解耦的修正和验证提示,我们的方法将训练集中在有效的答案转换和错误识别上。与标准多轮强化学习相比,这种方法实现了高效的非策略数据生成,并减少了长程采样的计算开销。在LiveCodeBench上,使用公开可用的测试用例作为反馈,我们观察到比强化学习基线提高了+6.5分,比标准多轮训练提高了+4.0分。在编码之外,我们的方法在圆填充问题上达到了此前报道的最优结果,同时使用了最小的基础模型(4B),且比规模大得多的进化搜索系统所需的采样次数少得多。基于真实验证的数学结果进一步证实了修正能力的提升。该方法还泛化到了分布外的约束满足谜题(如n皇后和迷你数独),其中正确性完全由问题约束定义。代码可在 https://github.com/yxliu02/REVES.git 获取。
当前的计算机使用代理基准在非个人化环境中评估模型。这造成了评估与部署之间的差距,在部署中,个人助手需要跨越用户的整个数字生活,包括其上下文、历史数据和已登录账户。这一差距在网络任务中最为明显,因为实时网络评估无法测试需要登录或个人信息才能使用的网站——而这类网站正是真正的个人助手所必须操作的。我们引入了MyPCBench,该框架在Linux桌面上测试作为个人助手的计算机使用代理,桌面中部署了17个模拟现实世界的网络应用及完整的桌面堆栈,所有内容均为一个标准角色(《办公室》中的迈克尔·斯科特)预填充。我们在该环境中定义了184个任务,每个任务均源自OpenClaw社区的真实请求,并采用统一的计算机+bash工具接口对六个闭源和开源模型进行了基准测试。我们发现,最佳模型Claude Opus 4.6完全解决了55.4%的任务,是唯一超过50%的模型。模型失败集中在涉及多个应用的任务以及长轨迹上,此时个性化对助手的压力最大。我们在https://mypcbench.com发布了该环境、任务集和代理工具。
一个实用的手机智能体需要具备个性化的智能。它应当能够根据用户在设备上的身份、历史记录和偏好进行推理,而不仅仅是在一个非个性化的沙盒环境中执行孤立的指令。现有的移动智能体基准测试缺乏这种个性化特性。我们推出了iOSWorld,这是首个基于持久化用户身份构建的交互式原生iOS模拟器基准测试,涵盖了26个全新构建的iOS应用。这些应用包含相互关联的数据,如交易记录、消息、出行记录、社交关系和财务活动。iOSWorld包含133个任务,分为三个难度递增的类别:单应用任务(27个)测试单个应用,多应用任务(60个)涉及2到8个应用,以及记忆与个性化任务(46个)要求智能体从个人数据中推断模式。我们在纯视觉和特权视觉+XML两种设置下评估了前沿和开源的计算设备使用模型。最佳配置的整体成功率达到了52%,但在多应用任务上仅为37%。特权视觉+XML访问使前沿模型的性能提升了多达26个百分点,而较小的模型并未从增加的辅助功能树输入中受益。我们将iOSWorld作为开源基准测试发布,包含所有应用、预设数据、任务、评分标准和评估代码。
阀门、断路器之类的工业产品,其定义依赖于描述详实的技术规格,这些规格制约着采购、兼容性以及整个供应链的安全性。然而,这些规格分散在多种异构的产品图像中,包括规格表、铭牌和技术图纸;多模态大语言模型(MLLMs)能否可靠地从中提取这些信息,目前尚未得到充分探索。为填补这一空白,我们提出了 IndustryBench-MIPU,这是首个面向多图像工业产品理解的大规模基准测试,其核心任务是结构化属性抽取——从产品图像中恢复属性-值对。该任务同时检验了多方面的能力:在规格表和铭牌上的文本识别、技术图纸上的视觉推理、解码行业术语所需的领域知识,以及跨图像证据整合以汇总分散的规格信息。具体而言,该基准测试包含 4,559 个产品,共 27,652 张图像,囊括 103,703 条标注,覆盖 18 个工业类别;其构建过程融合了多模型共识与三层质量保障。我们对九种 MLLMs 在单图像和产品级多图像两种设定下进行了评估,结果揭示了一个显著的完整性差距:模型达到了较高的精确率(86%–94%),但最佳模型仅能恢复 49.9% 的产品级属性;从单图像提取切换到多图像提取时,召回率下降了 15 到 34 个百分点。因此,核心瓶颈在于多图像环境下的完整性,而非单图像精度。数据集与代码均已公开。
我们展示了Transformer隐藏状态的标准基已提供一种无需训练、架构通用的特征基。单个维度通过其符号(+/-1)编码语义内容,通过其幅度编码置信度,充当独立的二进制寄存器;特征是指具有一致符号模式的维度子集,通过统计符号一致性(无需学习旋转)来读取。我们在七个模型上验证了这一“维度袋”框架,涵盖语言模型(Qwen 3.5-4B、Gemma 3-4B、Mistral 7B、Qwen3-32B)、视觉模型(DINOv2、ViT-Base)和音频模型(AST)。 仅符号本身已携带预测性信息:单位幅度的符号模式通过语言模型头部保留了60-93%的Top-5下一个词元准确率,而无需解码器的汉明评分在Top-4096中达到80-90%准确率。基于单词元缓存(每个词元一次前向传播,无上下文,无标签),我们通过符号一致性检测到175个类别,AUC达到0.97-0.99;一个经过训练的探针仅增加+0.018 AUC,并收敛到轴对齐权重。这些特征具有因果可操作性:它们能通过K/V注意力投影存活下来,可追溯到写入它们的FFN神经元联盟(随机权重控制从未复现此现象),并且在实时前向传播过程中翻转某个特征的符号会抑制其概念,这在四个语言模型上均成立,且幅度匹配并针对特定概念。维度在整个过程中保持独立(成对互信息低于0.006比特)。 这种结构并非语言特有:相同的逐维度符号模式出现在自监督视觉(DINOv2,9/12个ImageNet超类)、监督视觉(ViT-Base,11/12)和音频(AST,50/50个ESC-50类别)中,因此它反映了Transformer训练的普遍性,而非语言建模目标。标准基已足以通过一次前向传播实现特征读取,无需优化,无需GPU天数。开放问题从寻找正确的旋转转向了编录每个维度编码的内容。
创意图像编辑工具(例如Photoshop中的"移除"或"生成式填充"按钮)是用户日常使用的核心功能,占据了Photoshop和Lightroom流量的主要部分。然而,当前的生成式AI模型面临显著的延迟挑战,尤其在从基于卷积的U-Net向扩散变换器(DiT)过渡时,这一问题愈发突出。在对涵盖多种遮罩比例、数百个代表性图像编辑样本的评估中,即使DiT模块已从50步蒸馏至8步,其单独贡献的平均延迟仍占整个模型总延迟的73%。为应对这一挑战,我们提出HiLo-Token——一种输入自适应的令牌压缩框架,用于为高频、富含上下文的区域分配更多令牌预算,同时为低频区域分配更少令牌。具体而言,对于用户遮罩所指定的编辑区域,我们在扩张后的遮罩内保留所有令牌,以保持强局部性和上下文相关性;在编辑区域之外,我们引入一种基于空间频率的简单而高效的高频令牌选择策略,以捕捉重要的局部细节,同时使用来自16倍下采样图像的令牌表示低频成分,保留模糊但全局的结构信息。在生产级评估数据上进行的大量实验验证了该方法的有效性:在A100-80GB上,对于平均遮罩比例分别为6.38%、15.92%和35.36%的小、中、大三类图像编辑任务,DiT模块的加速比分别达到3.13倍、2.59倍和1.67倍,且生成质量无任何下降。
在线策略自蒸馏(OPSD)方法通过让模型基于自身生成路径进行训练,并利用冻结副本提供以参考目标为条件的密集词元级目标。该方法在大语言模型推理中表现良好,但直接扩展到多模态大语言模型(MLLMs)时可能产生捷径:特权目标可能主要依据文本参考目标而非图像引导词元。我们提出ViGOS——一种面向MLLM后训练的视觉引导在线策略自蒸馏框架。学生模型首先撰写视觉描述,继而推理至最终答案。针对有效生成路径,一个仅基于图像的感知教师负责监督描述部分,而一个特权推理教师则在相同学生前缀上监督推理过程与最终答案。仅对无效生成路径使用参考教师以恢复输出格式。在通用视觉语言、专家推理、视觉数学、空间定位及视觉语言先验等基准测试中,ViGOS保留了在线策略自蒸馏的主要优势,并改善了易发生捷径场景下基于图像的行为。
土耳其语是黏着语:意义由词素承载,但驱动现代语言模型的子词分词器却依据语料统计切分词汇,破坏具有语义的后缀——对于WordPiece和基于规则的分析器而言,甚至无法将输出解码回原始文本。本文提出Morpheus,一个针对土耳其语的神经词素边界模型,它同时具备无损、形态感知的分词器与词嵌入生成器的功能。通过可微的泊松-二项动态规划,在训练时将每个字符的边界概率转化为软性词素隶属度,在推理时生成精确分段,无需字符串归一化,因此decode(encode(w)) = w成立。由于模型是神经性的,同一前向传播过程既完成分词又输出结构化的词嵌入。在可逆分词器(唯一适用于生成任务的分词器)中,Morpheus实现了最低的每字符比特数(1.425),将子词家族的金标准形态对齐程度大致翻倍(MorphScore宏F1 0.61对比约0.32),并且相比64K词汇量的子词分词器节省约19%的GPU内存。作为嵌入器,冻结的Morphus向量在词汇检索(词根族MAP 0.85)和同根验证(ROC-AUC 1.00)方面超越多语言检索器BGE-M3和BERTurk;在依赖上下文和屈折变化的任务(命名实体识别、格/数探针)中,更重的上下文编码器仍保持领先——我们将这一权衡归因于Morpheus以词根为中心的几何结构。代码:https://github.com/lonewolf-rd/TurkishMorpheus;模型:https://huggingface.co/lonewolflab/Morpheus-TR-50K;交互式演示:https://huggingface.co/spaces/lonewolflab/morpheus-tr-demo。
尽管兴趣日益增长,但大多数关于大语言模型(LLMs)个性化能力的研究仍依赖于合成数据。目前尚不清楚现有个性化系统对真实用户的效果如何。本文研究了LLM在使用合成数据与人类数据时的个性化表现差距。我们收集了人类对话(550段对话)以及个性化三个阶段的判断:从对话中提取用户属性(5,949次判断)、将相关属性与新提示配对(11,919次判断)、将相关属性融入个性化回应(1,101次判断)。引入人类数据揭示了每个阶段的系统局限性。模型难以从人类对话中提取属性,与人类在相关属性判断上存在分歧,且生成的个性化回应在人类评估中并不优于通用回应(尽管LLM自身评估普遍认为更优)。我们提出了两种轻量级的基于训练的干预措施,在前两个阶段将自动化个性化评估向人类数据靠拢。然而,在第三阶段,我们发现学习到的奖励模型与人类评分的相关性仅达到中等水平,这表明与人类对齐的个性化质量判断难以直接建模。我们收集的数据为研究模型如何以人类认为有用的方式提取、选择及整合用户信息奠定了基础。
预测性代码补全极大地加速了开发者的工作速度。然而,在电子表格这一更为常见的应用场景中,此类自动补全功能几乎不存在。为填补这一空白,我们引入了一个基准测试系统,该系统可观察电子表格中的用户操作序列,并预测后续操作。其中面临两大挑战:(1)公开的电子表格语料库缺少编辑历史记录;(2)电子表格操作(包括空间、时间及复合操作)的复杂空间。针对挑战(1),我们手动整理了52个包含1.2万次操作的序列,这些序列以参数化启发式算法和大型语言模型(LLM)优化为基础,重现了公开语料库中的电子表格。针对挑战(2),我们提出了一种在线评估方法:在每次用户操作后进行预测,接受或拒绝该预测,若接受则更新后续操作,并重复此过程直至获得目标电子表格。我们采用了多种基线预测模型(包括零样本LLM、微调小语言模型(SLM)及经典模型),并分析了该基准测试所揭示的多种特性,包括但不限于:已保存操作与误报的特性、效率、用户画像的影响、触发条件的影响以及上下文的影响。
机器人系统通过多种输入模态感知世界,包括视觉摄像头流和自然语言指令,并必须基于这些信号选择适当的动作。然而,假设所有输入设备永久可用是不现实的,因为传感器在部署过程中可能发生故障、被遮挡或完全丢失。因此,鲁棒地处理这种缺失模态场景对于真实世界的机器人操作至关重要。本文介绍了RL4IL,一种强化学习引导的模仿学习方法,通过从训练库中识别最相关的专家演示,为给定观察选择最合适的动作。通过近端策略优化在广度优先搜索候选集上训练的强化学习策略,对候选演示进行排序,然后一个软交叉注意力融合头聚合它们的动作信号以产生最终预测。当推理时某模态缺失时,专门的逐模态RL检索策略从训练库中识别捐赠演示,然后一个软插补头通过交叉注意力对排名靠前的捐赠者进行缺失嵌入的重建,而无需对系统进行任何重新训练。在三个LIBERO基准套件上的实验表明,RL4IL在传感器丢失条件下显著优于最先进的模仿学习方法,同时无需策略网络训练。代码可在https://github.com/h-ismkhan/Reinforcement-Learning-via-kNN-for-Robotic-Learning-with-Missing-Camera获取。
网络数据分析功能(NWDAF)是实现第五代(5G)网络零接触网络管理的核心,它支持实时分析和闭环自动化。尽管其关键作用至关重要,但开源NWDAF实现的范围和可访问性仍然有限。本文开发了一种与开源核心网络Free5GC兼容的开源NWDAF,通过订阅网络功能(NF)收集网络数据,并集成了大型语言模型(LLM)接口,支持人类操作员进行自然语言交互。该接口处理用户意图,使用语义嵌入模型进行编码,并将其映射到七个预定义的意图类别之一,以触发分析查询或事件订阅命令。该架构抽象了传统接口的复杂性,使非专业用户能够轻松管理网络分析和订阅。该系统支持访问与移动性管理功能(AMF)和会话管理功能(SMF)的事件订阅、实时监控以及通过Prometheus获取分析结果,所有功能均可通过对话式界面访问。通过将AI驱动的意图识别与标准化网络分析相结合,我们的实现增强了操作员的可用性,并为迈向AI原生的6G网络奠定了基础。本研究生成的源代码和数据集可在GitHub仓库(https://github.com/HenokDanielbfg/testbed)中获取。