每日精选AI研究论文及翻译
我们提出了ABot-Earth 0.5,这是一个生成式3D框架,旨在从普遍存在的地理参考卫星图像中合成广阔、无缝的3D环境。为此,我们提出了一种直接基于3D高斯泼溅(3DGS)表示构建的新型生成模型。该模型在多样化的真实世界城市重建语料库上进行训练,学习生成逼真的几何形状和纹理。在推理阶段,它仅以卫星图像为条件,以每平方公里不到10分钟的可扩展速率合成新颖的3D场景,同时展现出卓越的真实感。该框架的设计注重可访问性,集成了分层细节层次(LOD)结构,允许在基于网络的地图引擎上进行实时的交互式可视化。这个高保真模拟沙盒有效弥合了仿真到真实的领域差距,支持关键的具身人工智能下游应用,如闭环无人机导航。通过提供超低成本和高效的解决方案,ABot-Earth 0.5显著降低了大规模3D重建的技术和财务障碍,并赋能全球数字地球可视化的未来。
我们介绍了Kwai Keye-VL-2.0-30B-A3B,这是一个开源的混合专家(MoE)多模态基础模型,旨在推进长视频理解和智能体(Agent)智能。为应对超长上下文、信息冗余以及小时级视频固有的高昂计算成本等挑战,Keye-VL-2.0 首次将 DeepSeek 稀疏注意力(DSA)适配到基于 GQA 的多模态架构中,实现了无损的 256K 上下文处理,同时能够捕捉关键帧和长程时间依赖关系。该架构依托高度优化的训练与推理基础设施,包括可扩展的视频 I/O、异构 ViT-LM 并行化以及定制的 DSA 内核,显著提升了吞吐量并最大程度地降低了计算开销。此外,为了克服多任务对齐过程中的灾难性遗忘算法难题,我们引入了跨模态多教师同策略蒸馏(MOPD),并结合 Context-RL 和 Video-RL。通过将从同策略交互中得到的密集令牌级教师反馈蒸馏回仅激活 3B 参数的 MoE 骨干网络,Keye-VL-2.0 原生支持了跨代码、工具和搜索场景的高级智能体协作,并具备多模态自我修正能力。在视频理解、时间定位、推理、STEM 以及智能体基准上的广泛评估表明,Keye-VL-2.0-30B-A3B 在同规模模型中达到了最先进的性能,尤其在 TimeLens 上的细粒度时间定位以及 Video-MME-v2 和 LongVideoBench 上的长视频理解方面表现突出。我们发布了模型检查点,以加速社区向可扩展且鲁棒的多模态智能体应用发展。
尽管大型语言模型(LLM)代理在复杂任务上表现出色,但其学习过程常受限于低效的交互反馈和静态的训练环境,这阻碍了其更广泛的泛化能力。为解决这些问题,本文提出了Role-Agent框架,该框架利用单个LLM同时充当代理和环境,实现自举式共同进化。Role-Agent包含两个协同组件:世界代理(WIA)和代理世界(AIW)。在WIA中,LLM作为代理,在每次行动后预测未来状态;预测状态与实际状态的对齐程度被用作过程奖励,从而促进环境感知推理。在AIW中,LLM分析失败轨迹中的失败模式,并检索具有相似失败模式的任务,进而重塑训练数据分布以实现针对性练习。在多个基准测试上的实验表明,Role-Agent能够持续提升性能,相较于强基线平均提升超过4%。
AI代理依赖于技能、工具和工作流的协同组合来解决复杂问题。持续优化这一组合对于适应新任务至关重要。然而,现有优化方法通常需要真实标注验证集,但在实际部署场景中获取此类标注数据十分困难。为解决这一问题,我们提出**回顾性工具集优化(RHO)**,一种仅利用历史轨迹即可优化代理工具集的自监督方法。具体而言,RHO从历史轨迹中选取具有挑战性任务的多样化核心集,并并行重新求解。代理通过自我验证与自我一致性分析这些重放轨迹,生成候选工具集更新方案,并通过自身的成对自我偏好选择最优方案。我们在软件工程、技术工作和知识工作三个不同领域评估了RHO。值得注意的是,单轮优化即可将SWE-Bench Pro上的通过率从59%提升至78%,且无需任何外部评估。进一步分析表明,RHO能有效针对先前的失败模式。因此,优化后的工具集改变代理的行为模式,并在长周期任务会话中维持更高准确性。
大型语言模型越来越需要处理复杂、长期的实际任务,这些任务的上下文需求可能无限增长,而模型的上下文窗口本质上仍有限。近期研究探索了一种范式:主代理(agent)将任务分解并分派子任务给子代理,子代理执行后仅返回总结结果,从而节省主代理的上下文预算。然而,高效执行这一过程需要委托智能(delegation intelligence),即分解复杂任务、判断何时委托及委托什么,并将返回结果整合到持续工作流中的能力。自然文本中此类能力的训练数据稀缺,据我们所知,在开源社区中,如何合成此类数据并训练模型获取该能力仍鲜有探索。为弥补这一空白,我们以深度研究(deep research)这一典型的长期代理任务为目标,开展了初步探索。具体而言,我们设计了一个引导框架(harness),引导模型进行高质量的任务分解与委托,同时约束子代理妥善返回结果以支持主代理的工作流。该框架引导生成的轨迹自然编码了正确的委托决策,我们将其作为监督微调数据,将委托智能内化到模型权重中。最终得到的模型SearchSwarm-30B-A3B在BrowseComp上达到68.1分,在BrowseComp-ZH上达到73.3分,是同等规模模型中的最佳成绩。我们将公开引导框架、模型权重及训练数据,以促进未来研究。
基于可验证奖励的强化学习(RLVR)已成为提升大语言模型推理能力的标准方法。然而,现有的PPO风格信任域机制仍然是位置无关的,它对所有令牌独立施加统一的阈值。这种逐点处理方式在两个方面与自回归生成存在根本冲突。首先,统一阈值忽略了自回归不对称性。早期偏差会产生累积的序列级漂移,导致静态阈值对早期散度调控不足,而对后期探索约束过强。其次,孤立地评估令牌级散度会忽略累积前缀漂移,无论条件历史已偏离展开策略多远,都给予相同的散度允许量。为解决这一局限性,我们提出了CPPO(累积前缀散度策略优化),这是一种令牌级遮蔽规则,通过两个耦合机制将更新与有限时域策略改进界对齐。首先,位置加权阈值对影响持续时间更长的早期位置施加更严格的限制,同时放松对后期令牌的约束。其次,累积前缀预算追踪历史偏差,动态限制进一步的令牌级偏差,以防止沿前缀产生累积误差。实验证明,CPPO增强了训练稳定性,并在各种模型规模下显著提高了推理准确率。
当前的视觉语言模型在处理数小时的视频时面临困难,因为处理完整视觉序列会导致标记数量爆炸和注意力稀释。为解决这一问题,我们提出MemDreamer,将感知与推理分离,将长视频理解转化为智能体探索过程。作为一个即插即用框架,它逐步流式处理视频以构建层次图记忆——一种自上而下的三层语义抽象架构,其底层图捕捉时空及因果关系。在推理阶段,推理模型采用基于工具增强的智能体检索,通过观察-推理-行动循环在层次结构中导航、搜索节点并遍历逻辑边。实验表明,MemDreamer在四个主流基准测试上达到最优结果,与人类专家的差距缩小至仅3.7分。它将推理上下文窗口限制在完整内容输入的仅2%,同时实现了12.5个百分点的绝对准确率提升。此外,统计分析揭示了视觉语言模型在逻辑推理与长视频理解基准上的强正向线性相关,将智能体能力扩展确立为多模态理解的新范式。
近期研究表明,在线强化学习能显著提升图像与视频生成中流匹配模型的质量与对齐能力。Flow-GRPO 和 CPS 等方法将去噪过程建模为马尔可夫决策过程,并采用 PPO 风格的比率裁剪来约束信任区域。然而,我们认为比率裁剪在结构上并不适用于流模型:新旧策略之间的概率比率是对真实策略散度的有噪声单样本估计,这会导致轨迹中某些区域过度约束,而另一些区域约束不足。为此,我们提出 Flow-DPPO(流散度近端策略优化),用散度近端约束替代比率裁剪。一个关键观察是,流模型中每步策略服从高斯分布,这使得新旧策略之间的 KL 散度能够被精确且低成本地计算。Flow-DPPO 采用非对称散度掩码,仅在策略同时偏离信任区域并违反散度阈值时阻止梯度更新。实验表明,Flow-DPPO 在获得更高奖励的同时提升了 KL 近端效率,减轻了灾难性遗忘,促进了均衡的多目标优化,并实现了比率裁剪退化的稳定多轮次训练。代码与模型已开源:https://github.com/Tencent-Hunyuan/UniRL/tree/main/FlowDPPO。
可控角色动画需要将驱动序列中的动作迁移到参考角色上。现有工作严重依赖中间表示,包括用于表示动作的姿态骨架或用于表示环境的遮罩背景,这不可避免地导致信息丢失。为解决这一问题,我们提出SCAIL-2框架,该框架绕过了这些中间表示,实现了端到端的角色动画。通过直接将驱动视频与序列拼接,模型可以从输入视频中获取所有必要的视觉信息。为解决端到端数据不足的问题,我们将角色动画的子任务与解耦条件统一,然后设计了一套流程来合成MotionPair-60K——一个包含角色动画异构任务的端到端动作迁移数据集。为了实现统一,我们利用上下文掩码条件化和模态特定旋转位置编码作为文本指令和原始视觉信息之外的软引导。为解决细节区域的合成差异,我们提出偏差感知直接偏好优化方法来构建偏好项以减少误差。大量实验表明,我们的方法在各种角色动画任务中显著优于现有最先进方法。我们将在项目页面(https://teal024.github.io/SCAIL-2/)发布大部分合成数据以及模型权重。
基于扩散的口型同步模型在视觉质量和音画对齐方面表现出色,但全序列双向注意力机制和大量去噪步骤使其难以实现实时推理。我们提出Lip Forcing——据我们所知,这是首个用于视频到视频(V2V)口型同步的自回归扩散方法,它将一个140亿参数的音频条件双向视频扩散教师模型蒸馏为因果学生模型。推理时,学生模型仅需两步去噪即可生成每个片段,且无需运行时CFG,从而实现实时口型同步。一项针对口型同步的教师轨迹分析揭示了CFG的保真度-同步性权衡:无CFG预测偏向参考保真度,而CFG引导预测则偏向中间轨迹波段内的同步性。Lip Forcing将这一发现转化为三个基于分析的组件:同步窗口DMD、两步推理调度以及基于SyncNet的奖励函数。我们在两个学生模型规模上验证了Lip Forcing,两者均从140亿参数的教师模型蒸馏而来。13亿参数的学生模型在31 FPS下实现实时流式处理,比同等规模的双向模型快17.6倍;140亿参数的学生模型(据报告是目前V2V口型同步最大的扩散模型)在保持可比参考保真度的同时,运行速度比教师模型快39.8倍。两个规模的首帧延迟均低于毫秒级,远低于所有扩散基线方法。
我们介绍了WorldOlympiad,这是一个旨在从物理真实性、几何一致性和交互保真度三个维度诊断基于视频的世界模型的基准测试。现有基准测试往往聚焦于视觉质量、语义对齐或短期时间连贯性,但对生成视频是否遵循物理规则、保持一致的3D结构以及支持长期可控交互提供的洞察有限。为填补这一空白,WorldOlympiad将世界模型评估分解为三个互补维度。物理轨迹利用对象分割和大语言模型+视觉大模型(MLLM)作为评判者,评估生成视频是否符合力学、热现象和材料属性的可解释规则。几何轨迹通过高斯泼溅技术重建生成视频,并评估结构一致性、跨视角连贯性和相机轨迹对齐。交互轨迹则评估生成的展开序列是否遵循复杂的动作提示,并在连续视频块之间保持平滑连贯的过渡。WorldOlympiad进一步涵盖游戏、机器人和通用真实世界视频三大主要下游场景,捕捉从交互控制和具身操作到开放域运动与相机动力学的多样化挑战。这些轨迹与场景共同构成一个可扩展且可解释的评估套件,能够揭示超出通用视频质量范畴的失败模式。对当前最先进模型的实验表明,在物理推理、3D一致性和长期交互方面存在显著差距,这凸显了为生成式世界模型制定更结构化评估协议的必要性。
强化学习(RL)已成为大型语言模型(LLM)后训练的关键组成部分。在实践中,由于训练-推理不匹配和策略过时,LLM的RL通常采用离策略(off-policy)方式,这使得信任区域控制对于稳定优化至关重要。主流方法如PPO和GRPO通过比率裁剪机制近似实现这种控制,但在长尾词表中,重要性比率可能无法有效表征分布偏移。近期工作如DPPO通过将基于比率的裁剪替换为基于散度的掩码来解决这一不匹配问题,从而定义一个由采样token绝对概率偏移决定的信任区域。然而,DPPO仍依赖于硬掩码:一旦某个token以有害方向跨越信任区域边界,其梯度会被丢弃而非修正。为解决此问题,我们提出散度正则化策略优化(DRPO),该方法将硬掩码替换为关于策略偏移的平滑优势加权二次正则项。DRPO保留了与DPPO相同的信任区域几何结构,同时引入有界且连续的梯度权重,这些权重能衰减发散性更新,并在边界外提供修正信号。跨模型规模、架构和精度设置的实验表明,DRPO提升了LLM RL训练的稳定性和效率。
本文提出EEVEE——首个面向LLM智能体的多数据集测试时提示学习框架,能够应对真实任务流下的测试时提示学习挑战。现有方法主要针对单数据集场景设计,而实际应用要求模型处理来自多个数据集、领域及任务分布的异构输入流,这限制了它们的实用价值。为缓解跨数据集干扰,EEVEE引入了一个路由器,将输入按任务簇划分并分配给合适的提示配置。该设计通过路由器-提示协同进化策略进行优化,该策略采用交替的路由器与提示学习阶段,以解决两者的相互依赖问题。跨多个数据集的实验表明,该框架在保持单基准学习能力与效率的同时,提升了异构数据流下的鲁棒性。具体而言,相比Qwen3-4B-Instruct和DeepSeek-V3.2,EEVEE将多基准平均得分分别提升了10.38和24.32分,较当前最先进的GEPA与ACE方法分别高出最多37.2%和48.2%。
本文介绍ARM——一种基于离散表示的自回归模型,它在下一个词元预测框架内统一了图像理解、生成与编辑能力。ARM的构建基于三项核心工作:首先,我们训练了一个离散语义视觉分词器,可将图像映射为紧凑的词元序列。该分词器通过多目标监督学习,同时促进语义判别性、语言对齐和忠实重建,从而在共享隐空间中支持多样化任务。在此基础上,我们在大规模文本与图像词元序列上训练了一个70亿参数的自回归模型,无缝开发了视觉-语言感知与生成能力。最后,为进一步优化文本到图像生成与指令引导编辑中符合偏好的行为,ARM应用强化学习(RL)来优化任务级目标,如视觉质量、指令遵循度和编辑一致性。令人惊讶的是,结果表明RL不仅显著提升了目标任务性能(例如,WISE综合得分从0.50提升至0.56,GEdit-Bench-EN的G_O从5.75提升至6.68),还诱导了文本到图像生成与编辑之间的跨任务协同效应。这些发现共同表明,自回归建模与强大表征及偏好优化相结合,可作为多模态智能的可扩展基础。代码:https://github.com/wdrink/ARM。
近年来,AI智能体在处理日益复杂的现实任务方面取得了飞速发展。然而,现有基准测试很少评估智能体能否操作图形用户界面,跨领域完成长期的、高价值的专业工作流程。当前的GUI基准仍主要聚焦于通用软件、相对简单的应用和短周期任务,因此尚不清楚现代智能体是否能够遵循用户指令,自主操作特定领域的专业软件,并以端到端方式完成具有经济价值的工作。为弥补这一空白,我们提出了Workflow-GYM——一个面向专业领域和专用软件环境的长期GUI任务基准。通过对最先进模型进行大量实验,我们发现即使是最强的模型,其成功率也仅略高于30%,这表明当前GUI智能体在处理专业的长周期GUI工作流程方面仍面临巨大挑战。进一步分析显示,现有智能体难以维持长时间工作流程的一致性,频繁出现流程阶段遗漏、错误传播、目标漂移以及对专业软件环境理解不足等问题。我们的研究结果为当前智能体系统的局限性提供了重要见解,并为下一代GUI智能体研究指明了关键方向。
外部存储器有效地将基于大语言模型(LLM)和视觉语言模型(VLM)的问答(QA)锚定在相关的多模态证据上。然而,现有的记忆范式以原始文本和图像形式表示每条记忆项,因此基于检索的系统必须将检索到的文本或图像传递给生成式LLM/VLM,这导致高令牌消耗和存储压力,使得资源受限的应用难以承受。我们提出潜在记忆(Latent Memory),一种潜在空间记忆范式,它将每条原始文本或图像证据项替换为由小型压缩器LLM/VLM生成的单个高维潜在标记。潜在记忆并非检索原始证据用于生成,而是在统一的潜在表示空间中运行:将查询嵌入该空间以检索相关潜在标记,并将检索到的潜在标记直接提示给预训练的LLM或VLM以生成答案。为使每个潜在标记同时具备重构、检索和生成所需信息,我们使用重构、对比和蒸馏目标以统一的端到端方式训练压缩器。潜在记忆在七个纯文本问答基准(如HotpotQA)和多模态问答基准上进行了评估,与先进的RAG基线相比,它在取得有竞争力的问答性能的同时,消耗的生成器令牌减少了3到10倍。它还能在WebQA上实现最强的图像支撑问答性能。代码见 https://github.com/zz1358m/Latent-Memory-Master。
链式思维(CoT)监督微调(SFT)被广泛用于提升推理能力,但我们发现它会系统性降低混合线性注意力模型的长上下文召回能力。在HypeNet和Jet-Nemotron等架构中,经过CoT-SFT后,NIAH(大海捞针)检索任务的性能显著下降,且检索设置越困难、上下文窗口越长,退化越严重。例如,HypeNet-9B在NIAH-S2@256K上的性能从67.2%降至9.4%。我们将此归因于CoT-SFT使注意力梯度偏向短程模式,破坏了负责长程路由的查询-键投影(W_Q, W_K)。基于这一发现,我们提出QK-Restore——一种无需训练的方法,仅从SFT前的检查点恢复W_Q和W_K,同时保留其他所有SFT后的参数。我们进一步引入一个Procrustes变体,以平衡路由保留和推理适应。跨架构实验表明,QK-Restore在零训练成本下持续恢复长上下文能力,同时保持推理性能;例如,在HypeNet-5B上,它使S3@256K从65.4%提升至76.4%,同时保持强大的推理能力。
语言模型日益成为文本转语音(TTS)系统的核心支撑,但我们对它们在文本和生成的语音令牌共享同一残差流时所构建的表征方式仍知之甚少。我们在CosyVoice3的语言模型主干上训练了BatchTopK稀疏自编码器,并引入了一种模态感知的自动解释流程,为每个特征标注其触发来源——文本前缀上下文、1秒语音片段或两者兼有。恢复的特征具有可解释性,涵盖音素、笑声、口音提示和说话者性别。通过自编码器隐空间进行引导表明,这些特征不仅具有描述性,更具备因果性:针对性干预将笑声概率从0.02提升至0.79,翻转感知到的说话者性别,并在保留语音内容的同时控制语速。因此,稀疏自编码器特征既可作为可解释性研究对象,也可作为TTS合成的控制方向。
智能体技能在智能体工作流中占据特殊地位,因为智能体预期会隐式地遵循并执行这些技能,这使得第三方技能成为易受攻击的薄弱环节。现有研究已揭示由技能攻击引发的智能体不安全行为,但这些研究主要针对单次任务执行中的投毒技能进行评估,并通过临时构建的风险列表枚举危害。为弥补这些不足,我们提出了SkillHarm——一个覆盖技能使用全生命周期的技能攻击基准,并配以一套系统化的技能相关风险分类体系。SkillHarm评估两种攻击场景:固定载荷投毒(FPP),即一个固定的投毒技能包直接危害任何调用它的任务会话;以及自变异投毒(SMP),即一个初始无害的执行过程悄然改变持久的技能内容,将危害延迟至后续复用时才显现。该基准进一步根据危害所针对的智能体工作流组件定义了12种风险类型:数据管道、系统环境和智能体自主性。为实现大规模攻击实例化,我们构建了AutoSkillHarm——一个由自然语言驱动编码智能体的自动化构建流水线。最终基准包含跨越71个技能的879个攻击样本。实验表明,当前智能体仍存在脆弱性,FPP攻击成功率高达86.3%,SMP攻击成功率达69.3%。我们的分析进一步揭示了一个潜在风险:许多表面上的攻击失败实际上源于智能体未能与被投毒文件交互,而非真正的抵抗能力;且现有防御措施仍无法可靠地缓解这一威胁。
语言代理在执行多步网页自动化时,越来越依赖可复用技能来处理相关任务。现有研究逐渐关注在线技能学习,即代理持续从先前的任务轨迹中归纳技能,并在未来任务中即时复用。然而,当前方法主要在任务层面复用技能:基于初始任务指令检索一组固定技能,并在整个执行过程中保持不变。这种静态策略与网页执行存在偏差,因为合适的下一步操作不仅取决于任务目标,还取决于当前网页状态——而状态往往会在执行中发生转换,导致初始技能无法覆盖。为弥补这一不足,我们提出状态引导的动态检索(SGDR),一种在线技能学习方法,使网页代理能够逐步复用技能。SGDR包含三个组件:滑动窗口提取过程,将已完成轨迹转化为可在中间执行状态调用的可复用子程序;文本-代码双重表示,连接技能检索与可执行动作;以及状态引导的动态检索机制,使技能同时匹配任务目标和当前网页状态。在WebArena五个领域的实验表明,SGDR始终优于强基线,GPT-4.1平均成功率达37.5%,Qwen3-4B平均成功率达24.3%,分别相对最强基线提升10.6%和10.0%。代码已开源:https://github.com/plusnli/skill-dynamic-retrieval。
随着深度学习模型规模的扩大,管理、检查和修改大规模检查点变得愈发具有挑战性。研究人员经常需要调整模型权重以进行层重组、精度转换、低秩分解和架构调试,但这些工作流程往往依赖于脆弱的临时Python脚本。在此,我们介绍BrainSurgery——一个用于对神经网络检查点进行稳健且可复现的"张量手术"的工具,并通过系统演示涵盖四个示例和三个案例研究(从模型升级到LoRA提取)。通过抽象化存储格式和内存管理,BrainSurgery通过声明式YAML方案执行复杂的转换。它支持通过富有表现力的正则表达式和结构定位实现结构修改、数学变换和张量重塑,同时内置断言机制可验证张量形状、数据类型和数值,从而防止静默错误。我们相信,BrainSurgery凭借其可复现且经过验证的操作,将为未来研究提供坚实基础。
词元级信用分配仍是强化学习在大语言模型中的关键障碍——现有的强化学习方案通常将所有词元一视同仁,无法区分决定性的推理步骤与常规格式或流畅的填充内容。近期研究尝试利用模型内部信号实现更细粒度的信用分配,但这些方法常采用忽略信息传播全局结构的点式启发式规则。为此,我们提出FlowTracer框架,该框架在注意力导向的无环图上追踪面向答案的推理流——图中节点对应词元,边容量来自聚合的注意力权重——并基于这一全局结构推导词元信用。边容量经过重新加权,仅保留能到达答案区域的影响力,同时强制执行局部流守恒,使得中间词元不会因路径长度或无关分支而产生有效质量的增减。在此图上,FlowTracer提取连接问题与答案的信息流主干,并通过流吞吐量为词元评分,从而揭示调节长程依赖关系的高影响力枢纽与聚合检查点。这些导出的重要性被用于构建词元级奖励,使学习信号能够精准聚焦于将信息导向(或偏离)正确答案的词元,在各类推理任务中持续带来性能提升。
基于大型语言模型(LLM)的智能体越来越多地应用于交互式文本环境,包括网页导航、代码编辑、工具使用以及长程对话。然而,其中许多智能体仍主要处于被动反应状态,将观察结果映射为行动,而缺乏对这些环境如何构成及演变的明确模型。这一现状催生了文本世界模型(TWM):即基于文本状态的转移模型——给定一个状态和候选行动,预测生成的网页、终端输出、API响应或用户回复,从而支持规划、高效学习以及有原则的评估。我们围绕一个正式框架与智能体生命周期,系统综述了用于基于LLM智能体的文本世界模型:(1) 基础——定义文本世界模型,并按状态表示与基础领域对其进行分类;(2) 构建——对“LLM作为世界模型”和“代码作为世界模型”两种范式进行分类型阐述,并综述构建方法;(3) 应用——考察世界模型如何在训练阶段通过经验合成、在推理阶段通过规划、验证与自适应来支持智能体;(4) 评估——涵盖对世界模型本身的评估,以及将其用作智能体评估环境的评估方法。我们旨在整合这一快速发展的领域,厘清其设计空间,并指出未来研究中的开放性挑战。
深度研究智能体因其能够收集大规模在线信息以获取目标知识而日益受到关注,近期研究趋势已从纯文本信息检索转向多模态场景。然而,现有智能体工作流程大多与证据累积模型保持一致,该模型线性聚合证据,缺乏处理跨异构模态矛盾信息的结构化机制。为此,我们提出Struct-Searcher——一种基于信念修正理论的结构化智能体工作流,该框架在推理过程中显式维护不断演化的多模态结构图,从而实现有效的冲突感知式多模态深度信息搜索。在多个基准数据集和骨干模型上的广泛实验表明:(1) Struct-Searcher具有即插即用和模型无关特性,在五种不同骨干模型上对BrowseComp-VL数据集实现了平均17.2%的相对精度提升;(2) 该方法性能领先,持续超越最先进的视觉语言模型(VLM)和深度研究智能体,与次优方法相比,在MM-BrowseComp、HLE-VL和BrowseComp-VL上分别实现了3.7%、1.5%和0.7%的相对精度提升。
大型语言模型(LLMs)在日常处理请求时会频繁遇到需要拒绝的情形,这造成了有用性与有害性预防之间的权衡。然而,拒绝本身也能提供有益帮助。在涉及危机、胁迫或意图升级的高风险交互中,生硬的不服从虽可防止直接伤害,却仍未能支持请求背后用户的需求。我们提出PsychoSafe——一种基于心理学的拒绝框架,将拒绝重构为基于循证干预策略的结构化支持性沟通。为开发PsychoSafe,我们构建了一个包含8019个提示-响应对的语料库,覆盖五个心理学相关的风险领域,并应用提示工程和参数高效微调技术于Qwen 3.5 27B模型。在包含500个提示的平衡验证集上,经LLM评判员评估并通过人工评分验证,PsychoSafe的提示方法相较于通用基线将整体拒绝质量提升了28.1%,尤其在外部资源转介(+46.8%)和心理根基(+34.8%)方面表现突出,同时保持了下游非拒绝任务的性能。微调实现了近乎完美的拒绝率和资源转介率,但降低了回复相关性。在SORRY-Bench和XSTest上的额外评估显示出较强的域内鲁棒性,但域外泛化能力有限,这表明未来工作应多样化微调数据,以帮助模型更有选择性地而非公式化地应用干预策略。
现有的用于正电子发射断层扫描(PET)图像去噪的深度学习模型在分布偏移条件下常出现严重的性能退化,从根本上限制了其在临床环境中的鲁棒部署。这种泛化能力的缺失源于传统的固定参数模型范式,该范式无法在训练后适应测试数据(如剂量水平或扫描仪类型)的变化。为克服这一局限并实现鲁棒的泛化,我们提出U-TTT——一种新颖的U型模型,它集成了测试时训练(TTT)层,通过自监督在推理过程中动态调整模型参数,从而适应每个测试实例的具体特性。此外,为全面捕获3D PET数据的复杂退化,U-TTT设计了双域适应机制,包括空间测试时训练(S-TTT)层和频率测试时训练(F-TTT)层。S-TTT层捕获并修正空间结构退化,而F-TTT层抑制全局噪声频谱并恢复精细的高频细节。大量实验表明,U-TTT在PET去噪任务上达到了最先进性能,并且在具有挑战性的分布偏移(包括未见过的剂量水平和未见过的扫描仪类型)下表现出优异的泛化能力。我们的代码将在 https://github.com/Yaziwel/U-TTT 公开。
先前研究表明,在窄领域中对大型语言模型进行恶意或不正确输出的微调,会引发广泛的失调与有害行为,这一现象被称为涌现性失调。然而,逆转此类失调的高效方法仍然有限。本文做出两点贡献:首先,我们识别出谄媚微调——即训练模型被动认同用户错误观点——是此前未被充分探索的涌现性失调驱动因素,并证明它会诱发广泛且严重的失调行为。其次,我们提出对齐门控方法,一种在微调过程中通过在模型中插入可学习、可控制的门控机制来逆转涌现性失调的高效方法。经过微调,这些门控能够学习识别导致不安全响应的内部表征。因此,放大或抑制这些表征即可分别加剧或缓解涌现性失调。我们进一步发现,对齐门控模块展现出强泛化能力:通过窄领域微调得到的门控权重,能显著抑制广领域的失调行为,同时保留模型的通用能力。
现有大多数基于深度学习的PET图像去噪方法假设低剂量PET图像的剂量减少因子(DRF)是固定且已知的。然而,在实际应用中当DRF超出假设范围时,这些方法的性能会显著下降。为应对不同DRF带来的挑战,部分初步研究聚焦于通用PET图像去噪任务,旨在跨DRF的低剂量数据上训练通用模型。然而,这些朴素通用模型通常难以处理不同DRF数据中存在的风格错配问题,导致出现风格消除现象及显著的过度平滑效应。为解决这一问题,我们创新性地将域泛化引入PET图像去噪,并提出一种通用PET图像去噪网络(UniPET),以实现跨不同DRF的高质量PET图像去噪。UniPET包含两项主要创新:风格对齐网络(SAN)和区域感知学习策略(RALS)。具体而言,SAN利用源自域泛化的风格对齐技术,对齐并恢复不同DRF间的风格,确保模型在多种DRF下的泛化能力,同时有效保留风格。此外,为增强风格恢复,RALS区分平坦区域与风格化区域,仅在后者上执行对抗学习,从而更有效地引导模型关注风格化区域的学习。实验表明,我们提出的UniPET能够自适应地恢复不同DRF风格,并实现跨DRF的高质量PET图像去噪。全面实验显示,UniPET在特定DRF下可与针对单一DRF的专用模型性能相当,并在定量、感知及临床评估中达到通用PET图像去噪的领先水平。
视频生成模型的能力日益增强,但长程一致性仍难以实现,因为即使只有几十帧,也需要不切实际的长Transformer序列长度。我们证明,这一问题可通过在多尺度token空间内采用粗到细展开的方式生成视频来缓解。我们的方法简单直接:首先,预训练一个自编码器,将每一帧压缩为层级化的token结构,其层级从典型的潜在分辨率直至每帧仅含少量token。最粗的层级捕获最具影响力的信息,如场景布局和语义,而更细的层级则增加高频外观与纹理。随后,我们训练一个视频扩散模型,通过粗到细展开生成这些token。通过精心控制在每次展开步骤中生成帧所用的细节层次及其作为上下文的范围,我们得以保持几何形状和物体永久性方面的长程一致性,同时将计算资源更多地投入到对感知影响较小的细节上。我们使用一个包含大量Minecraft长视频的自定义数据集验证了该方法,结果表明,与现有基线相比,该方法生成了更一致的展开结果。
基于大语言模型的多智能体系统(MAS)通常围绕角色、流水线和轮次调度来组织,而智能体之间传递的内容常常被保留为不受约束的自然语言。然而,这种自由形式的通信会迅速膨胀令牌使用量,消耗共享上下文窗口,并最终影响系统性能和推理成本。我们分析了跨越两种MAS拓扑的五种常见智能体间通信策略,发现不存在普遍最优的固定策略。相反,有效的智能体间信息始终保留下游智能体所需的以行动为中心的信息。基于此,我们提出了PACT(协议化动作状态通信与传输)方法,该方法将智能体间通信视为一个公共状态更新问题,并在每个原始智能体输出进入共享历史之前,将其压缩为紧凑的动作状态记录。在不同的MAS拓扑下,PACT始终能改善性能与成本之间的权衡,在显著减少令牌使用量的同时实现相当或更强的任务性能。这些增益延伸到了生产级编码工具:PACT使OpenHands的解析率提升,同时将每条解析的令牌使用量降低10%;而在SWE-agent上,PACT在保持解析率不变的同时将输入令牌减半。我们的代码已开源在https://github.com/iNLP-Lab/PACT。
自回归视频生成已成为世界动作模型(World Action Models, WAMs)的一种强大范式。然而,现有方法存在训练收敛慢、收敛精度有限的问题,尤其是在高帧率下——因为训练监督仅限于当前块,缺乏关于未来动态的明确信号;同时,迭代视频去噪也导致推理速度缓慢。本文提出Next Forcing,一种用于因果世界建模的多块预测(MCP)框架,可实现更快的训练、更高的精度和加速的推理。受大语言模型中多词元预测的启发,Next Forcing引入了MCP训练目标,通过为骨干模型添加轻量级辅助MCP模块,使其能够同时去噪多个未来时间视界(下一个、下两个、下三个块)的视频块。这些MCP模块跨预测深度形成因果链,其中融合了骨干模型多层中间特征的结果被用于预测未来动态,使得近期预测能够为更远期预测提供信息,并向骨干模型反馈密集的多尺度时间监督。在训练中,MCP模块显著加速收敛并提升收敛精度,尤其是在高帧率下:在50帧/秒条件下,Next Forcing在5000训练步时相对于LingBot-VA实现了93.1%的相对提升,收敛速度提升2.3倍,并在RoboTwin基准上创下新纪录(Clean/Random上分别为94.1%/93.5%)。在推理时,保留MCP模块可并行预测当前块与下一视频块,实现2倍推理加速。Next Forcing在评估视频生成中物理规律遵循性的PhyWorld基准上也展现出显著改进,并在通用视频预训练中实现超过50%的FVD降低。
大型语言模型(LLMs)在长上下文场景下的可扩展性本质上受限于标准注意力机制的二次复杂度,这促使学界采用具有次二次复杂度成本的线性注意力机制。为提升长上下文下的表示能力,近期研究以多状态方式组织记忆。然而,现有的多状态线性注意力方法依赖固定的状态合并策略,无法适应动态变化的词元重要性,导致关键词元被不可逆地掩盖,并引发长序列上的严重误差累积。为解决这一局限,我们提出DLA——一种面向多状态线性注意力的动态记忆建模框架。DLA引入了:(i)信息感知的动态状态合并机制,该机制基于词元级信息变化自适应确定状态边界,在语义转换区域保留高分辨率表示,同时对稳定区域进行激进压缩;(ii)容量受限的记忆建模机制,通过选择性合并相邻的低信息状态,在最小化信息损失的前提下控制记忆增长,从而维护一个固定大小、按时间顺序排列的状态缓存。我们在两种不同的线性注意力模型上对DLA进行预训练,并在涵盖三类任务的16个数据集上进行评估。实验结果表明,DLA相较于现有最优方法具有显著优越性。
表达能力强的连续控制策略(如扩散模型与流模型)是近年来模拟和真实机器人控制中可扩展模仿学习取得进展的基础。尽管这些策略在监督式模仿学习场景中表现出稳定的扩展性,但将其融入强化学习管道进行策略改进却困难重重。这通常需要专门设计的训练目标或通过去噪过程进行反向传播,而这些方法会引发稳定性问题并影响可扩展性。本文研究了一个核心问题:是否仅通过测试时的简单策略改进方案(同时保持稳定的监督式策略训练不变)就能成为规避这些问题的竞争性替代方案。为此,我们提出QGF(Q引导流)——一种完全在测试时进行策略优化的强化学习算法。QGF通过预训练参考流策略(基于标准行为克隆目标)和值函数评论员,在测试时利用值梯度引导参考策略生成更高价值的动作,而无需额外进行策略学习。实验表明,在具有高维动作空间的单任务与目标条件离线强化学习基准中,QGF的性能优于先前的测试时强化学习方法,且与最先进的训练时算法性能相当,同时运行成本更低。此外,通过避免演员-评论员训练的不稳定性,QGF展现出与模型规模正向扩展的优势,为使用表达能力强的策略提供了一种实用且高效的强化学习替代方案。
多模态大语言模型(MLLMs)普遍继承了专为单模态文本建模设计的深层对称Transformer架构,并对图像和语言token施加相同的计算处理。这种设计忽略了一个关键的模态不对称性:图像与文本token在信息密度、冗余度及所需推理深度上存在显著差异。通过对LLaVA-1.5进行逐层分析,我们发现视觉token往往在中间层达到饱和。具体而言,文本到图像的注意力从第0层的0.68降至第4层的0.07,并在第18层后稳定在0.04附近,而文本token则持续受益于深层语义处理。这些发现表明,架构对称性与深度异步的模态演化之间存在不匹配,导致在深度任务特定适应过程中产生冗余的视觉计算以及可能的感知表征偏移。受此启发,我们提出了一种面向高效MLLMs的模态不对称路由框架——双路径视觉Token路由(DPVR)。其核心实例化方案DPVR-LF(后期层融合)在饱和点将视觉token路由至一个单层可训练的侧分支,随后在深层堆栈中执行一个十三层的纯文本前向传播(跳过图像位置),仅在最终层重新融合视觉与文本流。DPVR-LF仅引入约3%的可训练参数,即可在标准基准测试中保持具有竞争力的多模态性能,同时大幅减少深层Transformer堆栈中的视觉计算。该结果挑战了视觉token必须贯穿所有深层语言模型层的传统假设,并表明单一的后期融合层足以在LLaVA风格的MLLMs中维持强大的感知能力。
在智能体评估与训练中,一种日益常见的失败模式是:模型通过利用捷径而非真正解决目标任务来获得高分,从而产生欺骗性表现。这使得评估分数作为真实任务解决能力的衡量标准变得不可靠。为此,我们提出CapCode框架,用于构建具有随机化测试的编码数据集,其中通过刻意设限,使不采用作弊手段所能达到的最佳表现低于满分。这种设限表现设计为评估分数提供了更清晰的解释:显著高于上限的分数不合理,因此可作为作弊的证据。为防止作弊,我们提出CapReward——一种基于CapCode原则的奖励设计,旨在抑制超出上限的优化行为。在多个数据集上的实验表明,CapCode能够检测作弊行为,同时保留模型的性能排名;而CapReward则减少了作弊行为,使模型更严格地遵循预期任务规范。
基础大语言模型(LLMs)在广泛通用任务中展现出卓越能力,并通过领域专家LLM在各种专业任务中取得了显著成果。随着可用LLM数量持续增长,推理路由器被提出以针对每个提示选择最合适的LLM。然而,现有路由方法要么在弱到强通用LLM之间优化成本,要么需要大量训练以支持领域专家路由。本文提出IR3DE——一种基于岭回归的领域专家路由器,能够为每个提示提供低成本、快速的路由决策。我们在两种因果语言建模(CLM)设置下评估IR3DE,其中所有领域的任务均为下一词预测;并在一种推理设置下进行评估,其中每个领域拥有其独特的推理任务。尽管是线性路由器,IR3DE在两种CLM设置中均达到与其他基线相当的性能,在推理设置中更胜一筹,归一化性能达98.4%。此外,IR3DE支持无需从头重新训练路由器即可添加或移除新的领域专家,从而能以最小化对路由器本身的影响服务动态LLM集合。我们的代码开源在:github.com/gensyn-ai/IR3DE。
将语言模型置于额外上下文中(例如对先前尝试的反馈)通常能提升其响应质量。自蒸馏通过训练模型在无上下文时仍保持这种改进效果:该方法通过匹配两种设置下的模型输出分布实现——仅看到问题的学生模型,以及同时看到上下文的自我教师模型。因此,模型所学的内容取决于自我教师所接收的上下文,然而这种上下文的设计目前尚未得到充分探索。 我们通过基于冻结评判器的反馈训练求解器,来研究自蒸馏的上下文设计。我们比较了三种条件:(i)二元奖励(GRPO),(ii) 参考答案,(iii)与求解器推理轨迹对齐的逐步批判。 步骤对齐的批判取得了最大增益,在Avg@12指标上比GRPO高出16.11分,比参考答案条件化的自蒸馏高出5.27分。逐词优势分析揭示了原因:步骤对齐的反馈仅针对推理失败的词元,而保留正确行为。相比之下,以参考答案为条件会迫使模型在每个词元(甚至正确步骤)处改变其行为,因为替代推导方案在措辞和方法上不可避免地存在差异。这表明反馈与求解器推理过程之间的结构对齐是自蒸馏有效性的关键驱动因素。
来自资深研究者的专业写作反馈对于早期职业学者改进手稿至关重要,然而高质量的反馈往往稀缺,因为审阅研究论文需要投入大量人力。新兴的AI写作助手主要集中于语法修正或以最终评分模拟同行评审,但未能提供具体可行的建议来帮助学生在写作过程中改进论文。我们提出PaperMentor,一个以人为中心的写作辅助系统,它以Overleaf原生内联评论的形式提供可操作的建议,同时将实际写作完全交给人类作者。PaperMentor整合了从资深研究者写作建议中精心提炼的专家技能库,并配备12个涵盖论文写作不同方面的专业智能体,如格式合规性、措辞准确性及术语一致性。在一项用户研究(n=14)中,生成评论的90.6%被评定为可操作,67.5%被评定为有效,显著优于未使用技能库的GPT-5.2基线。我们将PaperMentor作为开源项目发布供公众使用。我们的代码根据AGPL-3.0许可证在https://github.com/jiarui-liu/overleaf上公开。
多轮推理模型的失败在终局评分评估中基本不可见。模型可能在长对话早期就锁定不安全立场,但其最终轮拒绝率却与鲁棒对齐的基线模型看似无异。为揭示这些隐藏的时间动态,我们提出一种轨迹级诊断方法——思维链-输出2x2安全矩阵。该框架沿两个独立轴(内部推理和可见输出)标记每一轮,产生四个可操作定义的故障单元:鲁棒对齐、对齐伪装、显式越狱,以及我们称之为上下文注入故障的独特故障模式(其中思维链保持安全推理,但可见输出产生危害,突显了多轮推理不忠的表现形式)。我们在五个监督条件下,针对固定攻击者评估三个蒸馏推理目标,收集了信息-危害场景中的6750轮次级观察数据。我们的分析揭示了两个可复现的漏洞:监督悖论,其中显式监控线索反而提高对齐伪装率而非抑制;以及上下文注入故障,即模型在内部状态安全的情况下锁定不安全的外部输出。我们发布完整的多轮对话数据集和思维链轨迹,以支持后续的轨迹诊断研究。
多智能体系统(MAS)可在测试时通过将复杂问题分解为并行子任务来扩展大型语言模型的推理能力。然而,现有绝大多数MAS依赖于集中式编排,即主智能体负责分配任务、收集输出并整合结果。随着子任务数量增长,这一控制器会成为通信与整合的瓶颈。我们提出去中心化语言模型(DeLM)——一种通过并行智能体、共享验证上下文及任务队列实现去中心化协调的MAS框架。各智能体异步认领子任务,读取累积进度,执行局部推理,并回写紧凑的已验证更新。共享上下文充当公共通信媒介,使智能体能够基于彼此的已验证进度进行构建,而无需通过中央控制器路由每次更新。实验表明,DeLM在软件工程测试时扩展与长上下文推理两方面均取得提升。在SWE-bench Verified上,DeLM在Avg.@1、Pass@2和Pass@4指标上均取得最佳性能,相较于最强基线提升高达10.5个百分点,同时每个任务的成本降低约50%。在LongBench-v2多文档问答任务中,DeLM在四个前沿模型系列上取得最高平均准确率,相较于最强基线提升高达5.7个百分点。代码已发布于项目网站:https://yuzhenmao.github.io/DeLM/。
大型语言模型(LLM)的安全性通常基于行为层面进行评估,但这仅能提供有限的内部鲁棒性证据,因为此类评估关注的是输出本身,而非干预下表示层的脆弱性。我们将这一不一致性形式化为“审计差距”:即行为安全与干预下鲁棒性之间的差异。为研究这一差距,我们构建了“解离模型”,这些模型在保持表面安全行为的同时,内在潜在空间仍存在脆弱性。我们提出了一种基于干预的评估框架,通过在参数空间和潜在空间中实施软干预(包括有害微调和逐层潜在扰动)来测试模型鲁棒性。为形式化评估,我们提出了“潜在脆弱性评分”(LVS),用于衡量在有限潜在扰动下有害行为被诱发的难易程度。利用该评估框架,我们证明在多种安全对齐与未安全对齐的先进模型中,行为安全指标不足以表征表示层的鲁棒性。值得注意的是,解离模型在面对有害干预时,尽管拒绝行为表现相当,但其LVS显著升高,且中间表示层对干预最为敏感。我们的结果表明,仅凭行为安全评估无法全面反映模型鲁棒性,这促使我们需要进行面向表示层的审计,同时关注潜在脆弱性与可观测行为。
自回归视频生成器通过生成连续的时间片段来合成长视频,但其历史键值缓存会随视频长度增长而膨胀。现有有界缓存方法通过局部窗口、汇聚令牌或压缩记忆状态来降低这一开销,但通常为历史不同部分分配固定角色。我们提出FadeMem——一种距离感知的键值记忆体整合机制,在固定缓存预算下将历史键值块组织成时间层级结构。该设计源于频率依赖的时间衰减规律:细节特征快速解相关,而粗粒度场景结构与主体特征在更长时域内保持有效。生成过程中,新历史以细粒度条目插入,而邻近旧条目在幂律时间分配调度下逐步合并,形成缓存内部的"近密远疏"记忆。无需修改架构,FadeMem即可为短期动态保留近期上下文,同时为身份与场景连贯性保留紧凑的远程锚点。实验表明,与现有有界缓存策略相比,该方法在主体一致性、背景稳定性及时间连贯性方面均有提升。
多实例学习(Multiple Instance Learning, MIL)解决的是以包(bag)为单位的监督问题,并在计算病理学、卫星图像等领域取得了成功应用。然而,现有算法在标注数据稀缺的实际场景中表现不佳——灵活的模型容易过拟合,而僵化的模型又难以适应具体任务。我们证明,在合成数据上使用Perceiver架构预训练一个上下文学习器,即可得到一个能够通过少量标注包解决新任务的模型。推理时,分类只需一次前向传播,无需梯度更新。我们针对包结构数据提出了多种合成数据生成器并研究了其特性,发现它们捕捉到的归纳偏差具有互补性。在多种生成器混合数据上预训练的模型继承了各生成器在不同任务上的优势,在12个MIL基准测试中取得了平均最佳性能,超越了需要任务特定训练的监督基线模型。
大型语言模型(LLMs)日益参与到情感敏感的社会对话中,其回应可能从平衡的支持转向过度认可或升级性的附和。现有的谄媚现象研究主要聚焦于事实认同和指令遵循场景,忽视了基于文化背景的对话谄媚现象。我们提出BenSyc,这是首个研究孟加拉语社交语境中对话谄媚现象的基准。我们从孟加拉国和西孟加拉邦社群收集的11,840条Reddit帖子及17万条评论出发,构建了一个经过人工验证的基准,包含二元标签和细粒度的五级分类体系,涵盖否定、中立、支持、认可和升级。我们在对话倾向性分类和回应生成任务上评估了超过15个开源及专有LLM。结果表明,即便是最先进的指令调优模型,在区分共情支持与强化导向的认可方面仍具挑战:最佳系统在二元检测上的宏F1值仅为61.8,在五分类任务上为61.7。在生成任务中,多个模型在情绪激烈的情境下频繁产生强烈认可或升级性回应。我们的发现揭示了不同模型系列及对话行为之间的显著差异,强调了基于文化的多语言基准对于评估社交对齐对话AI系统的重要性。