每日精选AI研究论文及翻译
大型语言模型(LLM)搜索代理通过多轮推理和信息检索,在知识密集型语言任务中展现出强大的潜力。现有系统大多使用检索器获取信息:该检索器接收关键字或自然语言查询,并基于预计算文档表示的索引返回排序后的文档列表。在本研究中,我们探索了一种互补视角,即搜索代理将语料库本身视为搜索环境,并通过执行可执行的 shell 命令来寻找证据。我们提出了 GrepSeek,一种优化的直接语料库交互(DCI)搜索代理,它训练了一个紧凑的搜索代理,用于从大型文本语料库中查找、筛选和组合证据。为了解决在大语料库上直接使用强化学习进行学习时行为不稳定的问题,我们提出了一种两阶段训练流程。首先,我们利用具有答案感知能力的 Tutor 和不知晓答案的 Planner 构建一个冷启动数据集,生成经过验证且具有因果依据的搜索轨迹。其次,我们使用分组相对策略优化(GRPO)对初始化策略进行微调,使代理能够通过与语料库的直接交互来改进其面向任务的搜索行为。为了使得 DCI 在大规模场景下实用,我们进一步采用了一种保持语义的分片并行执行引擎,该引擎可将基于 shell 的检索速度提升高达 7.6 倍,同时保持与 shell 命令顺序执行在字节级别的严格等价性。在七个开放域问答基准上的实验表明,GrepSeek 在整体词元级别的 F_1 和精确匹配方面达到了最强性能。我们的分析还揭示了纯词汇交互在处理表面形式变化较大的查询时的局限性,这表明 DCI 作为一种实用且具有竞争力的搜索代理方法,可以在现实世界中补充现有的检索范式。
LLM代理正被期望不仅完成孤立的任务,还能承载人类专业知识、判断和互动风格的有限表征。构建这种基于个人的代理仍然困难,因为与个人或角色相关的可操作知识通常嵌入在异质痕迹中,而非作为清晰的指令书写。现有的记忆和角色系统捕捉了这些证据的片段,而技能框架提供了便携的封装格式;然而,目前尚无端到端的工作流可将这些痕迹提炼为可检查、可修正且代理可用的技能。我们提出了一种自动化的痕迹到技能的蒸馏系统,通过专家知识蒸馏生成基于个人的AI技能。给定目标个人或角色的材料,COLLEAGUE.SKILL生成一个带版本控制的技能包,包含两个协调轨道:用于实践、思维模型和决策启发法的能力轨道,以及用于沟通风格、互动规则和修正历史的受限行为轨道。该技能包可被检查、调用、通过自然语言反馈更新、回滚、跨代理主机安装,并可选择性地为受控分发做准备。我们描述了该开源系统中实现的工件契约、生成工作流、修正生命周期、部署界面和领域预设。截至撰写本文时,公共仓库拥有约18.5k GitHub星标;图库列出了来自165位贡献者的215个技能,且所列技能卡累计超过10万星标。该系统展示了基于个人的技能如何被表示为便携、可修正的包,而非不透明的提示或隐藏的记忆。
在线策略蒸馏(OPD)通过让学生在基于自身策略采样的前缀上进行训练,同时匹配更强的教师模型,解决了离线蒸馏中的前缀不匹配问题。然而,早期学生轨迹生成的质量仍然可能较差,导致教师监督施加在薄弱或低质量的前缀上。我们提出信任区域行为混合(TRB)——一种预热方法,它用最接近教师的行为策略替换早期的轨迹生成策略,并限定在以学生为中心的KL信任区域内,同时保持每个前缀的反向KL OPD损失不变。KL预算逐渐退火至零,因此预热结束后训练回归到纯学生轨迹生成。在两个数学推理蒸馏设置中,TRB在对比方法中取得了最强的平均表现。
统一多模态模型(UMMs)旨在将感知与生成整合到单一模型中。然而,现有的UMMs仍依赖一个冻结的、单独预训练的VAE进行图像生成,这造成了结构瓶颈。若简单移除VAE,则会引入质量差距,因为模型必须从原始像素中同时学习高层结构和底层细节。本文提出“表示强制”(Representation Forcing, RF)技术,通过将表示预测变为模型的原生能力来弥合这一差距。具体而言,RF迫使解码器在像素之前以自回归方式预测视觉表示作为中间标记;这些标记随后保留在上下文中,并在同一骨干网络内引导像素扩散。通过将表示从感知输出转变为生成目标,RF消除了对外部生成隐空间的依赖。我们发现RF同时有益于理解与生成任务。在图像生成方面,采用RF的像素空间模型达到了最先进的基于VAE的统一模型的水平。在图像理解方面,像素空间RF通常优于其基于VAE的变体。这些结果共同为构建端到端、无瓶颈的UMMs迈出了有效一步。
我们提出了 Mellum 2,一个开放权重的 12B 参数混合专家(MoE)语言模型,每个 token 仅有 2.5B 活跃参数。Mellum 2 是一款通用语言模型,专精于软件工程领域,涵盖代码生成与编辑、调试、多步推理、工具使用与函数调用、智能体编程以及对话式编程辅助,是先前专注于补全任务的 4B 密集模型 Mellum 的后续版本。其架构基于混合专家(64 个专家,8 个活跃),结合了分组查询注意力(4 个 KV 头)、每四层中有三层使用的滑动窗口注意力,以及一个兼具辅助预训练目标和内置投机解码草稿模型功能的单一多头预测头;每个设计选择均通过消融实验验证,并以消费级 GPU 的推理效率作为设计约束。预训练阶段约 10.6 万亿 token,通过三阶段课程逐步将数据混合从多样化网络数据转向精选代码与数学内容,采用 FP8 混合精度下的 Muon 优化器及 Warmup-Hold-Decay 学习率调度(线性衰减至零)。预训练基座通过层选择性 YaRN 扩展至 128K 上下文窗口,随后经过两阶段后训练(监督微调后接 RLVR),生成两个发布版本:直接回答的 Instruct 模型和生成最终答案前输出显式推理轨迹的 Thinking 模型。在代码生成、数学与推理、工具使用、知识及安全基准测试中,Mellum 2 与 4B-14B 参数范围的开放权重基线模型竞争力相当,同时其每 token 计算量仅相当于 2.5B 密集模型。我们在 Apache 2.0 许可下发布基础版、指令版和思考版检查点,并附上关于其架构决策、数据流程和训练方案的技术报告。
零样本语音合成(TTS)在单说话人场景中已取得显著进步,但兼具表现力的长篇多说话人对话合成仍面临挑战。通常的解决方案是使用单对话TTS模型逐段合成并拼接输出,但这既增加了推理成本,也常导致跨话轮间的声学一致性、对话连贯性和情感连续性受损。近期对话TTS系统开始应对这一场景,但仍在保持表现力连贯性、可控说话人切换及单对话质量方面存在困难。我们提出了SwanData-Speech和SwanVoice。SwanData-Speech从野外音频构建单对话和对话语料库,采用Swan强制对齐器实现基于停顿感知的词级对齐,并利用RobustMegaTTS3处理发音困难案例。基于这些数据,SwanVoice是为1-4位说话人设计的零样本TTS模型,融合了25Hz变分自编码器、原始文本条件(含停顿感知符号及拼音替换)以及结合说话人-话轮条件的流匹配DiT模型。训练过程从单对话语音起步,逐步过渡到混合及真实对话数据,随后采用基于音素级和说话人相似度奖励的DiffusionNFT后训练。在SwanBench-Speech基准测试中,SwanVoice在单对话和对话场景下的丰富度和层次感得分均高于所有评估的开源基线模型,但内容准确性仍为主要局限。音频演示见https://swanaigc.github.io//#swanvoice。
长上下文推理仍然是大型语言模型面临的核心挑战,这类模型往往难以在大量干扰信息中定位并整合关键信息。可验证奖励的强化学习(RLVR)在此任务中展现出潜力,但现有方法受限于低混淆度的干扰项,且仅能提供稀疏的结果导向奖励信号,无法对中间推理步骤进行监督。为应对这些问题,我们提出LongTraceRL框架。在数据构建方面,我们通过知识图谱随机游走生成多跳问题,并利用搜索代理轨迹构建分级干扰项:代理读取但未引用的文档(高混淆度)与搜索结果中出现但从未打开的文档(低混淆度),由此生成的训练上下文远优于通过随机采样或单次搜索构建的上下文。在奖励设计方面,我们提出一种基于评分标准的奖励机制,利用每条推理链中的实体作为细粒度、实体级的过程监督信号。该奖励仅作用于最终答案正确的回复(正向策略),从而区分正确回复间的推理质量,并防止奖励攻击。在五个长上下文基准测试上对三种推理型语言模型(参数规模4B–30B)的实验表明,LongTraceRL始终优于强基线方法,并鼓励全面且基于证据的推理。代码、数据集与模型已开源至https://github.com/THU-KEG/LongTraceRL。
大多数基于文本驱动的3D室内场景合成方法从物体中心提示生成房间,询问应放置哪些家具而非空间如何被使用。然而,在实际室内设计中,布局的优劣取决于其对居住者的支持程度,例如满足其活动和身体需求。我们提出Function2Scene框架,该框架能够根据功能规范(即描述谁将使用房间以及他们需要在其中做什么的自然语言设计简报)生成3D室内布局。给定此类规范,我们的系统解析居住者角色和活动,从涵盖空间、人体工程学、活动和环境因素的17项标准分类中推导出一套定制化功能设计约束,并利用这些约束指导布局生成。与依赖大型语言模型直接生成最终场景不同,Function2Scene通过增强工具式的检查-修复循环进行迭代评估与优化,结合几何测量、基于LLM的上下文推理和基于VLM的视觉评估。在30个专业室内设计案例的实验表明,Function2Scene生成的布局在满足功能需求方面优于近期基于LLM的场景合成基线,我们的结果在94.3%的成对比较中获得偏好。本研究将基于文本驱动的室内场景合成从放置合理物体重新定义为设计支持人类使用的空间。
真实世界图像恢复(IR)面临高质量配对训练数据稀缺的瓶颈。合成数据集虽丰富但难以模拟真实退化,而真实世界配对数据集成本高昂且难以采集。因此,基于这些数据集训练的IR模型在真实场景中泛化能力有限。本文提出生成式真值(GGT)方法,利用生成式多模态基础模型(MFMs)从真实低质量(LQ)图像生成高质量(HQ)目标。首先,我们对九种最先进的MFMs(包括Nano-Banana-2和GPT-Image-2)在不同场景和退化类型的图像上进行了系统性评估。结果表明,采用基于视觉语言模型(VLM)自适应提示的Nano-Banana-2在合成感知真实且内容保真的HQ目标方面能力最强,可作为LQ输入的GGT。随后,我们利用Nano-Banana-2构建了GGT合成流程,通过多阶段质量控制确保数据可靠性,并构建了GGT-100K数据集——包含103,707对训练样本、覆盖多样场景与复杂真实退化的LQ-HQ配对数据集,同时建立了包含500对图像的测试集。大量实验表明,GGT-100K能持续提升多种IR模型在真实世界中的泛化能力,尤其对生成式IR模型的微调效果显著。我们的结果表明,MFMs可作为面向恢复的数据生成实用工具,而GGT-100K是拓展真实世界IR模型泛化边界的有效资源。
实现实时且精确的空间音频生成对于提供沉浸式体验至关重要。然而,现有空间音频合成技术常面临生成质量与高推理延迟之间的权衡困境,且难以从多模态输入中捕获精确的空间信息。为应对这些挑战,我们提出SwanSphere——一种面向全景视频和文本提示的统一流式框架,可实现高保真空间音频生成。SwanSphere的主要创新包括:1)引入因果自回归扩散变换器架构,支持流式高质量空间音频生成;2)设计空间视-听对比学习策略以对齐视频编码器与声学域,并进一步采用多目标在线直接偏好优化方案,从而获得强空间感知能力与鲁棒的多模态空间音频合成能力;3)为缓解当前空间音频数据集稀缺问题,开发了用于生成详细空间描述的自动标注流水线。实验结果表明,SwanSphere在视频到空间音频生成和文本到空间音频生成任务中均取得了卓越性能。演示样例详见:https://swanaigc.github.io。
实时流式视频到视频编辑(V2V)对于直播、游戏等交互式应用至关重要,但由于对时间一致性和推理吞吐量的严苛要求,这仍是一项严峻挑战。本文提出SANA-Streaming,一种面向消费级GPU的高分辨率实时流式视频编辑系统-算法协同设计框架,其核心包含以下三项设计:(1)混合扩散Transformer架构在部分模块中引入softmax注意力机制,提升局部建模能力的同时保持线性层的效率。(2)循环反向正则化是一种新型训练策略,通过流匹配从生成内容预测源帧来强制语义一致性,无需成对的长时编辑视频即可提升时间一致性。(3)高效系统协同设计结合了针对NVIDIA Blackwell(RTX 5090)架构优化的融合GDN内核与混合精度量化(MPQ)。通过分析实际吞吐量,我们的MPQ在保持生成质量的同时最大化张量核心利用率。该系统在单张RTX 5090 GPU上实现1280×704分辨率实时编辑,端到端帧率24 FPS,其中DiT核心运行帧率达58 FPS。实验结果表明,本协同设计方案在时间一致性和系统吞吐量方面均显著优于现有最先进方法。
近年来,语音生成领域的进展已实现高保真合成,但在长文本条件下对模型进行系统评估的研究仍相对不足。建立长语音综合评估基准的必要性体现在两个方面:其一,现有测试场景通常局限于有限领域,与多样化的下游应用存在显著差距;其二,现有评估指标忽略了连贯性与一致性等关键长文本因素,难以实现可靠的泛化。为此,我们提出Swanbench-Speech这一综合基准,将长语音质量分解为特定解耦维度。SwanBench-Speech具有三个关键特性:1)丰富的语音场景:聚焦长语音生成与对话生成,覆盖声学、语义及表现力挑战,包含1,101个样本,涵盖17种常见语音场景;2)全面的评估维度:沿声学、语义与表现力三大轴系,定义包含七项指标的自动化评估协议,提供全面、准确且标准化的评估;3)有价值的洞见:通过大量实验,我们发现当前模型在强表现力场景中仍存在困难,且与真实录音在一致性与层次性方面存在显著差距。
长期记忆对多模态智能体构建连贯经验、积累世界知识及实现持续学习至关重要。然而,构建有效记忆的关键并非仅在于记忆模块设计与准确性、保真度等基本要求,核心挑战在于决定需要记忆的内容。具身智能体等多模态智能体在真实或虚拟环境中持续感知、推理并执行动作,会接收到无界的多模态观测流。面对这种信息组合爆炸,智能体必须选择性保留与环境角色相关且对未来任务有价值的内容。为解决这一矛盾,我们将记忆生成重构为可学习的记忆策略,提出TaskMem(任务导向的记忆策略学习)——一种基于强化学习的框架,使策略能根据环境中真实任务的需求动态调整关注重点。TaskMem采用两阶段训练范式:第一阶段在基础保真度要求下优化记忆质量,学习"如何记忆";第二阶段在部署后进行,智能体通过微调其基础多模态大语言模型上的适配器,利用近期环境任务定义奖励模型,引导记忆策略聚焦任务相关内容。为评估该方法,我们将VideoMME、EgoLife和EgoTempo重新构建为流式基准测试,模拟智能体处理流式观测并应对在线到达任务的真实场景。为隔离记忆评估,问题必须仅通过智能体记忆回答,不得访问原始视频。基于Qwen3-VL-30B-A3B,TaskMem在这些基准测试上分别将VQA准确率提升6.3%、7.0%和5.3%。
扩散大语言模型(dLLMs)近期作为自回归模型的有力替代方案崭露头角,在保持竞争性能的同时天然支持并行解码。然而,随着dLLMs与混合专家(MoE)架构的深度融合以扩展模型容量,块并行解码与令牌级专家选择之间出现了根本性不匹配。具体而言,每次dLLM前向传播需处理具有双向依赖关系的多个令牌,而传统MoE层则对每个令牌独立进行路由。这种不匹配显著增加了唯一激活专家的数量,使得推理过程愈发受内存限制。为解决这一问题,我们提出dMoE——一种简洁而有效的块级MoE框架。dMoE的核心思想是:将每个块内的令牌级专家分布聚合为统一的块级专家分布,并以此引导更一致的专家路由。通过这种方式,dMoE在保持性能不变的前提下大幅减少推理过程中唯一激活专家的数量,从而缓解内存限制瓶颈。在多种基准上的大量实验验证了dMoE的有效性。平均而言,dMoE将唯一激活专家数从69.5降至14.6,同时保留了原模型99.11%的性能。此外,它减少了76.64%至79.84%的内存使用,并实现了1.14倍至1.66倍的端到端延迟加速。代码已开源:https://github.com/fscdc/dMoE
同策略蒸馏(OPD)通过词元级教师监督,在学生自身的轨迹展开中训练其模型。近年来的选择性OPD方法利用OPD信号的非均匀性,优先处理高熵或高分歧词元。我们重新审视这一原则,并提出问题:哪些词元级教师信号实际上是可学习的?通过采用固定上下文诊断方法——即测量相同上下文下师生KL散度的降低量——我们发现原始KL分歧是学习价值的粗略代理指标。它将可学习分歧(教师将纠正性概率质量分配给学生当前的前K个候选词元)与不兼容分歧(教师将概率质量主要置于学生当前支持范围之外)混为一谈。我们将这种局部兼容性形式化为词元可教性,并证明它比单独的原始KL更能预测固定上下文中的改进。受此发现启发,我们提出了可教性感知同策略蒸馏(TA-OPD),这是一种轻量级的词元位置选择方法,无需奖励模型或验证器,即可对高可教性位置应用OPD损失。在Qwen2.5和Qwen 3的师生设置中,TA-OPD仅保留5%的词元即可常超越全词元OPD,并优于基于熵和散度的基线方法。我们的研究结果将选择性OPD重新定义为选择可学习的教师信号,而非仅仅挑选显著性词元。
自我对弈可以在无外部监督的情况下训练语言模型。然而,现有方法依赖于有规则可验证的答案,使得开放式任务完全依赖精心设计的提示或前沿模型评判。我们提出SCOPE,这是一种面向开放式任务的无数据自我对弈框架,能够共同进化两个策略:一个生成基于文档任务的挑战者,以及一个通过多轮检索回答这些任务的求解器。初始模型的冻结副本作为自我评判器,根据源文档编写任务特定的评分标准,并据此对求解器的回答进行评分。在三种7-8B指令微调模型(Qwen2.5、Qwen3、OLMo-3)上,SCOPE在八个基准测试中将开放式任务性能最高提升+10.4个百分点,并在基于约9K精心设计提示训练的GRPO_data上达到或超越其表现。尽管仅在开放式任务上训练,SCOPE还在七个保留的基准测试中将短格式问答性能最高提升+13.8个百分点,在所有三种模型上均超越GRPO_data。消融实验表明,共同进化挑战者对于保持任务接近求解器能力边界是必要的;性能提升来自检索与综合能力的改进,且其相对贡献因任务而异;此外,评分标准生成质量是自我评判的瓶颈所在。
智能体搜索使大语言模型能够通过迭代推理和外部搜索解决复杂的多跳问题。尽管有效,这些系统在实践中常受制于一个关键局限:智能体无法识别自身知识边界,在内部知识足够时盲目触发搜索,且在收集到充分证据后仍不终止搜索。这种自我意识的缺失导致严重的过度搜索,引发巨大的推理延迟和过高的计算成本。为此,我们提出SAAS,一种新颖的强化学习框架,旨在培养动态自我意识,精确调控搜索行为而不损害准确性。SAAS引入三个关键组件:(i)搜索边界建模机制,通过对比禁用搜索与启用搜索的推演序列,识别当前策略下的搜索边界;(ii)边界感知奖励模块,将边界意识转化为轨迹级惩罚,抑制不必要和冗余的搜索;(iii)分阶段优化策略,利用顺序课程优先强化推理而非搜索正则化,从而避免奖励欺骗。大量实验表明,SAAS在保持准确性的同时显著减少了过度搜索。我们的代码已匿名发布于https://github.com/XMUDeepLIT/SAAS。
视频-语言模型只能处理有限数量的帧,因此帧选择成为高效视频字幕生成的关键瓶颈。大多数字幕生成流程仍依赖均匀采样——虽然计算成本低,但忽略了视觉内容。自适应帧采样作为从视频中选取最具信息量帧的有前景方法近来备受关注,但现有方法仍存在计算开销大的问题。我们提出PEEK,一种高效的动态帧采样方法,通过将字幕条件化的帧相关性排名从更强的教师模型蒸馏到仅基于视觉内容的轻量级时间模型中。总体而言,在ActivityNet Captions和MSR-VTT数据集上,我们的方法在所有评估的下游视觉语言模型上均优于现有最先进方法,尤其在仅选取一帧或两帧进行字幕生成时表现突出,在多数帧预算设置下取得最佳CIDEr分数。在ActivityNet Captions上,PEEK表现尤为强劲,在16种配置中赢得14项。在MSR-VTT上的零样本评估显示,我们的模型在低帧预算下迁移效果最佳,而在四帧和八帧设置下,由于时间覆盖和视觉多样性竞争日益激烈,结果更为复杂。与近期自适应基线方法相比,PEEK在低预算场景下准确率更高且效率更优:其字幕生成时间仅增加5.2%,而CSTA和MaxInfo分别增加65.4%和211.9%。我们在https://github.com/momentslab/peek 公开代码和预训练模型权重。
大语言模型(LLMs)在通用任务上展现出强大性能,但常因缺乏高质量领域特定数据而难以适配专业领域。现有基于LLM的数据策管方法主要依赖人工设计的工作流程,尚未验证LLM能否自主执行端到端的数据工程流水线以实现模型专业化。我们正式提出"自主智能体数据工程"这一新任务,旨在评估LLM作为自主数据工程师,通过端到端数据策管驱动模型专业化的能力。我们将数据视为可优化组件,研究智能体如何规划、生成并迭代优化多领域训练数据,并以训练后性能提升为导向。实验表明,自主LLM数据工程师带来了显著增益:GPT-5.2构建的训练课程使学生模型性能提升了57.29%,完全通过基于智能体的迭代数据适应实现。通过揭示潜力与瓶颈,本研究将自主数据工程确立为一项可量化的能力,并为智能体驱动的模型专业化指明方向。代码将发布于https://github.com/zjunlp/DataAgent。
真实世界的数据分析本质上是一个迭代过程,然而现有基准测试主要评估孤立或短交互任务,未能测试智能体在长时间跨度中追踪不断演变的分析上下文的能力。我们提出LongDS——一个面向长周期、多轮数据分析的基准测试,要求智能体必须维护、更新、恢复并组合持续演变的分析状态。LongDS包含68个基于真实Kaggle笔记本构建的任务,涵盖地球科学、商业和教育等六个领域,共计2225轮交互。任务围绕状态演化模式设计(如反事实扰动、回滚、多状态组合),平均依赖跨度为11.3轮。对五个前沿模型的评估显示,最佳模型平均准确率仅达48.45%,从早期到后期的性能下降近47个百分点,且长周期错误占失败案例的52%–69%。进一步分析表明,增加智能体的交互步骤未必能提升性能,这提示关键瓶颈在于维持正确的分析状态,而非提高交互预算。我们发布LongDS以支持可靠的长周期智能体数据分析研究。代码与数据将在https://github.com/zjunlp/DataMind发布。
视觉语言模型(VLM)能够通过提示实现统一模型解决多种视觉任务,在语义理解方面已展现出优异性能。然而,3D理解仍主要依赖具有复杂任务特定设计的专家视觉模型。本文的核心论点是:VLM本质上是3D学习者。我们深入的大规模研究表明:1)焦距统一、2)基于文本的像素参考和3)数据混合与缩放,是实现高效3D学习的全部必要条件。模型架构变更、大模型、强数据增强以及包含回归公式在内的复杂损失——这些构成专家视觉模型基础的众多要素,实际上并非必要条件。为此,我们提出VLM3——一种具备最简设计的可扩展方法,使标准VLM能够掌握多样化的3D任务。VLM3不仅将VLM深度估计精度大幅提升(从0.84提升至0.9),还支持像素对应、相机姿态估计和物体级3D理解等多种3D任务,在保持标准架构和基于文本训练的同时,达到专家视觉模型的精度。我们相信VLM3为简单且可扩展的3D学习开辟了新范式。
虽然线性复杂度注意力机制为克服Softmax注意力的平方复杂度瓶颈提供了有前景的替代方案,但从头开始训练此类模型的成本仍然高得令人望而却步。继承预训练Transformer的权重提供了一条有吸引力的捷径,然而Softmax与线性注意力之间在表征上的根本差异阻碍了有效的权重迁移。在本工作中,我们从架构对齐和表征对齐两个角度来解决这一转换挑战。我们发现测试时训练(TTT)是一种线性复杂度架构,其双层动态公式在结构上与Softmax注意力对齐,从而能够直接继承预训练的注意力权重。为了进一步对齐表征属性(包括键平移不变性和局部性),我们引入了键实例归一化和一个轻量级的局部性增强模块。我们通过线性化Stable Diffusion 3.5来验证该方法,并提出了SD3.5-T³(Transformer到测试时训练)。仅在4块H20 GPU上微调1小时,SD3.5-T³即可达到与微调后的Softmax模型相当的文字到图像生成质量,同时在1K和2K分辨率下分别实现了1.32倍和1.47倍的推理加速。代码已开源:https://github.com/LeapLabTHU/Transformer-to-TTT。
虽然GUI代理取得了快速发展,但它们在从自身错误中恢复的能力上往往缺乏鲁棒性,这限制了其在实际场景中的部署。为弥补这一在评估与数据层面的差距,我们引入了GUI-RobustEval,并提出了基于鲁棒性的轨迹合成方法(Robustness-driven Trajectory Synthesis, RoTS)。GUI-RobustEval包含1,216个可执行测试用例,能够在广泛且真实的错误模式范围内系统地衡量错误恢复能力。在数据层面,RoTS是一个可扩展的合成框架,通过基于树的流水线主动探索多样化的错误模式并合成相应的恢复步骤,生成80万条高质量数据。基于该数据集微调的两款模型RoTS-7B和RoTS-32B在GUI-RobustEval及传统GUI基准测试中均展现出显著提升。值得注意的是,RoTS-32B在OSWorld上实现了当前最优性能,成功率达47.4%,All-Pass@4得分达33.8%,这表明增强的长周期错误恢复能力有助于同时提升鲁棒性和整体性能。我们的代码已开源至https://github.com/AlibabaResearch/RoTS。
大型语言模型代理越来越多地被部署为围绕可编辑外部框架构建的系统,这些框架包括提示、技能、记忆和工具,在不改变模型参数的情况下塑造任务执行过程。框架自我进化通过从执行经验中更新这些框架来适配此类代理。然而目前尚不清楚模型在任务解决方面的基础能力是否能够预测其在框架自我进化方面的能力:哪些模型能产生有用的框架更新,哪些模型又能真正从中受益?我们分析了两类框架自我进化能力:(i)框架更新能力,即从执行经验中产生有用的持久性框架更新的能力;(ii)框架收益能力,即在任务解决过程中受益于更新后框架的能力。我们的分析揭示了两项发现。第一,框架更新能力在基础能力上呈现平缓趋势:不同能力层级的模型产生的框架更新所导致的性能提升惊人地相似;甚至Qwen3.5-9B的更新带来的收益也接近Claude Opus~4.6的水平。第二,框架收益能力在基础能力上呈现非单调性:弱层级模型从更新后的框架中受益甚微,中层模型受益最大,而强层级模型的受益程度低于中层。我们将弱层级的低收益归因于两种失败模式:弱层级模型可能无法激活相关的框架构件,或者虽然激活了构件但未能忠实地遵循其指引。这些发现表明应将能力预算投入到任务解决代理而非进化器上,并在代理训练中聚焦于框架调用和长期指令遵循能力。我们的源代码已在https://github.com/A-EVO-Lab/a-evolve/tree/release/harness-evolution公开。
LLM智能体正从对话式聊天机器人演化为实际工作空间中的操作工具。在本地智能体框架中,LLM能够读写文件、调用工具,并在会话间复用工作空间状态。这类能力虽提升了实用性,却也为攻击者开辟了新的攻击面。攻击者可将提示注入嵌入文件或工具输出中,智能体可能读取这些隐藏指令并加以存储,待后续执行。在这种多步骤木马攻击范式中,单个步骤看似无害,但组合起来便能使不可信文本转化为持续性操控内容。现有防御机制往往孤立检测每个步骤,虽能拦截显式有害行为,却无法检测埋设后门的早期写入操作。为揭示此威胁,我们提出ClawTrojan基准测试——专为识别本地智能体框架中的多步骤木马攻击而设计。在基于GPT-5.4的OpenClaw仿真工作空间中,ClawTrojan的攻击成功率(ASR)达95.5%,而现有单轮提示注入攻击在相同模型上的ASR近乎为零。针对该威胁,我们提出DASGuard防御方案,通过扫描敏感本地文件中的控制类文本、追溯其来源,并移除非可信源头的控制内容。实验表明,DASGuard通过运行时攻击拦截与工作空间净化提交的结合,实现了强有力的动态防御。
视频视觉-语言模型(VLM)日益广泛用于长时域和流式场景,然而多数视频编码器仍依赖时空自注意力机制,导致计算量与延迟随帧数呈二次增长。现有效率提升方法虽改善了可扩展性,但相较于完全自注意力往往牺牲精度,例如通过激进的帧/令牌丢弃或粗粒度的注意力近似。我们提出StateKV,一种推理时方法,通过将跨帧上下文承载于固定容量且基于重要性的循环状态,并辅以用于解码的完整单帧缓存,使预训练的长视频VLM实现线性时间视频预填充。在三个长视频基准测试、涵盖三个系列及多种规模的七个模型上,StateKV保持接近完全自注意力的性能,并始终优于主流的滑动窗口/基于近因的流式近似方法,且无需微调或架构改动。StateKV还降低以FLOPs衡量的视频预填充成本,从而在固定计算预算下通过运行更大模型获得更强精度。这些结果表明,该方法向可扩展的长视频理解迈出了切实可行的一步。
近期视频生成模型的进展推动了可控世界模型的快速发展。然而,在长程推理下保持细粒度的时空一致性仍是一个关键挑战。本文突破显式三维记忆与粗粒度帧级隐式建模的局限,提出一种细粒度、可学习且可扩展的记忆机制,用于实现一致的世界生成。我们首先识别了朴素可学习记忆架构在长程外推中的两个根本限制:计算效率低下与注意力分散。通过对注意力分散的系统性分析,我们提出 DecMem——一种解耦式记忆架构,采用稀疏全局记忆实现全局历史的高效细粒度访问,并借助锚定局部记忆实现稳定高质量的外推。大量实验表明,DecMem 显著优于当前最先进的方法。通过确保精确高效的长时记忆并实现卓越的外推能力,DecMem 能够以高保真度与一致性生成分钟级可控长视频。
视觉-语言-动作(VLA)模型使机器人能够遵循自然语言指令并在多样化任务中泛化,但在实际部署时仍易受执行失败影响,从而损害系统可靠性。因此,在执行过程中检测此类失败对于具身系统的鲁棒部署至关重要。现有失败检测方法要么依赖昂贵的动作重采样或外部模型,要么将轨迹级标签均匀传播至每个时间步,模糊了局部化失败信号。本文提出Hide-and-Seek框架,将VLA失败检测建模为粗监督学习问题。通过结合轨迹间和轨迹内对比目标,Hide-and-Seek能够仅从轨迹级监督中定位指示失败的动作,并诱导出具有时间结构的失败信号,无需任何步骤级标注。我们在LIBERO、VLABench及真实机器人平台上,对三种代表性VLA策略(OpenVLA、π_0和π_{0.5})进行了评估。该方法在多任务失败检测中达到了最先进性能,并在共形预测框架下实现了实用的准确率-及时性权衡,且能良好泛化至已见和未见任务。
近期研究开始为视觉-语言-动作(VLA)策略配备显式的中间推理环节。然而在具身控制任务中,基于文本的思维链并不适用:与动作预测无关或弱文本关联的信息会干扰决策,而自回归文本解码带来的延迟无法满足实时闭环控制需求。为此,我们提出VISUALTHINK-VLA——一种面向低延迟高精度VLA策略的视觉中间推理框架。我们的引导式设计哲学是以高效视觉思维驱动动作生成:VISUALTHINK-VLA通过紧凑的视觉证据接口来引导动作预测,该接口既保持了空间精度,又避免了解码开销。为进一步提升性能与效率,VISUALTHINK-VLA采用定制化的选择性路由机制学习视觉证据标记,在保持高容量专有性的同时实现低延迟推理。我们还推出了VisualEvidence-Kit监督与审计资源,其核心是VisualEvidence-Agent,该代理构建了包含75.47万条VLA指令的VisualEvidence-Set数据集,用于路由监督与反事实忠实度测试。在多项基准测试及真实机器人评估中,VISUALTHINK-VLA在大多数基准上取得最高成功率,并将推理增强基线模型的多秒级延迟降至亚秒级。例如在BridgeData V2数据集上,其单步延迟从ECoT模型的8.377秒降至0.367秒,实现22.8倍加速。
空间推理是部署于真实世界环境中的视觉-语言模型(VLM)的一项基础能力。然而,视觉观测本质上是对三维世界的有限表征:遮挡可能使物体不可见,视角可能使几何属性产生误导。尽管如此,现有的空间推理基准通常假设观测信息是充分且可靠的,其关注点在于模型能否给出正确答案,而非模型能否识别出某个问题无法被回答,以及需要哪些额外观测信息。在本工作中,我们通过构建一个受控评估框架 SpatialUncertain 来挑战这一假设,并引入两类观测挑战:(1)遮挡——隐藏目标信息,以及(2)视角歧义——产生具有误导性的视觉线索。针对每种配置,我们设计了相应的空间问题,这些在清晰观测条件下可回答的问题,在引入上述挑战后则需模型选择弃权。我们进一步评估模型能否识别哪些额外视角可消除视角歧义。我们在多种前沿开源与闭源 VLM 上的结果表明,存在两种一致的失败模式。首先,模型倾向于过度自信地回答,即使在视觉证据不完整或具有误导性的情况下仍试图求解空间推理任务,在遮挡条件下平均准确率约为 30%,而在视角歧义条件下低于 10%。其次,即使额外视角可供使用,部分模型在识别哪些视角能提供可靠证据时表现接近随机水平。综合而言,我们的研究结果呼吁超越对答案正确性的关注,转向评估模型是否知晓何时应弃权以及如何寻求可靠证据。
视频外绘能够生成视频原始空间范围之外的合理视觉内容,在将视频适配到多种显示格式中扮演关键角色。要支持这类应用,该方法必须能够在长序列中实现大范围空间外推。然而,现有方法大多仅解决其中某一挑战,或缺乏确保全局时空一致性的显式机制,导致显著局限性。本文提出HL-OutPaint——面向长序列的高分辨率视频外绘框架。我们的方法遵循由粗到精的两阶段流水线策略。首先构建全局粗引导(GCG),这是一种低分辨率表示,能够捕获视频的全局结构和主导运动。与简单下采样不同,GCG通过一种新颖的全局-局部帧交换机制构建,该机制将稀疏全局关键帧与局部时间窗口耦合,并在采样过程中交换信息。这使得GCG能够将长期结构一致性与短期时间动态编码到统一表示中。在此表示引导下,HL-OutPaint执行高分辨率外绘,生成空间细节丰富且时间一致的内容。通过分离全局结构建模与精细合成,我们的框架实现了大空间扩展和长视频序列的稳定、连贯生成。大量实验表明,在涉及大范围空间外推和长视频序列的挑战性场景中,HL-OutPaint优于现有方法。
我们提出了DEMON,一个实时扩散引擎,能使去噪过程像现场乐器一样可演奏:一个既宽泛(每帧跨输出实时调节众多参数)又响应迅速(每个控制按照其在去噪循环中的位置尽快生效)的控制界面。基于ACE-Step 1.5和StreamDiffusion的环形缓冲区架构,并采用TensorRT加速,在单块消费级GPU(RTX 5090)上,对于60秒音乐,每秒可完成多达12.3次解码器完整生成,或在我们生产环深度为4时每秒11.3次生成。在此速率下,去噪参数可作为现场表演控制,但环形缓冲区仅在以排出速率传播每次请求的变化,这至少需要S步去噪步骤。我们贡献了四种机制:(1)每槽异构去噪调度:每个环形缓冲区槽拥有独立的时间步调度,因此移动的去噪滑块可被跟踪而无需清空处理队列,而上游的全局调度设计必须重建并丢弃它;(2)共享可变的每步状态,使得任何在求解器每一步中查询的参数都能产生下一拍效果,绕过环形缓冲区排出;(3)每帧源混合:在标准SDE重新噪声步骤上引入采样时间控制,提供一个逐帧变换强度轴,补充了标量去噪调度;(4)窗口化VAE解码,利用感受野分析实现8.0倍解码加速。这些机制共同将流式扩散参数分为四个传播类别,依据其触发和收敛延迟。
人类能够轻松判断多物体场景中每种颜色所属的形状,这种能力被称为"概念绑定"。视觉-语言嵌入模型(如CLIP)在绑定任务上存在困难:它们能识别单个概念,却无法表征哪些概念属于哪些物体。尽管CLIP在跨模态检索中表现为词袋概念模型,但其图像和文本嵌入中仍可恢复物体信息。我们通过绑定函数(将概念映射至场景嵌入)研究这一张力,发现场景嵌入可分解为物体表征的加性组合,这解释了为何单模态探针能恢复物体信息。然而,CLIP的绑定函数具有高复杂度,这很可能阻碍了图像编码器与文本编码器学习共享的、能泛化至未见概念组合的绑定机制。我们进一步探究该限制是否为根本性问题,结果表明并非如此。在从零训练的受控Transformer模型中,当数据覆盖充分时,绑定泛化能力得以涌现。这些模型学习的低复杂度绑定函数通过概念间的乘法交互实现系统化泛化。代码已开源:https://github.com/oshapio/binding-concepts-complexity。
自监督新视角合成(NVS)在视频数据丰富的背景下仍难以规模化扩展,主要原因在于真实场景视频训练的脆弱性以及多网络系统设计中难以预测的扩展行为。我们提出 RayDer,一种统一的、前馈式 Transformer 模型,将相机估计、场景重建与渲染整合至单一骨干网络,从而将自监督 NVS 转化为一个良态的单模型扩展问题。通过将最小化的动态状态视为干扰因素,该模型能够吸收时序变化内容,并实现针对无约束真实世界视频的稳定训练。关键在于,RayDer 始终以静态场景 NVS 作为目标任务:动态内容仅作为可扩展监督信号被利用,而非像动态场景(4D)NVS 那样进行重建。在多种模型规模及跨数量级的数据范围内,RayDer 展现出清晰的数据与算力幂律扩展特性,并优于静态场景数据混合方案。在众多基准测试中,RayDer 取得了与前沿监督方法相匹敌的强泛化零样本开放集性能。项目页面:https://compvis.github.io/rayder
近期研究在自回归范式下显著提升实时交互视频生成性能。然而,现有的大多数少步自回归视频生成方法(通常从对应的多步教师模型中蒸馏得到)默认采用4步采样配置,这在实际部署中仍存在较大延迟,且当采样步数进一步减少(特别是在单步设置下)时,会遭遇严重的质量退化问题。轨迹式一致性蒸馏方法生成的视频往往动态性较弱,而基于DMD的方法(如Self-Forcing)则倾向于产生模糊帧。为应对这一挑战,我们提出One-Forcing方法——一种简单而有效的方案,通过向DMD目标函数中引入辅助的GAN损失,实现高质量且高效的单步视频生成。在VBench上的实验表明,One-Forcing的总得分为83.76,在单步因果视频生成方法中达到最先进水平,并与强大的多步方法保持竞争力。我们进一步证明,仅需分块模型三分之一训练成本,即可稳定实现单步逐帧自回归生成,而此前方法尚未在此设置下成功实现。
技能,即针对大型语言模型(LLMs)提炼的结构化工作流指令,正成为提升智能体在实际下游任务中性能的重要机制。然而,随着开源技能生态的快速扩展,不同模型和智能体框架如何与技能交互、如何评估技能质量、以及用户如何在成本-性能权衡下选择技能等问题仍不明确。本文提出OpenSkillEval——一个面向技能增强型智能体系统及技能本身的自动评估框架。与依赖静态基准不同,OpenSkillEval能够从持续演变的人工制品中自动构建涵盖五类下游应用(演示文稿生成、前端网页设计、海报生成、数据可视化及报告生成)的实例任务。该框架进一步收集并整理了社区贡献的技能,以在统一任务设置下进行受控比较。我们利用600余个动态生成的实例任务和30个开源技能,对当前最先进的模型和智能体框架进行了系统评估。结果表明:技能可用性并不保证其有效使用;技能增强的收益高度依赖于底层模型和智能体框架;许多广受欢迎的技能在无技能基础智能体面前并未持续展现优势。这些发现揭示了动态任务导向型评估的必要性,并为LLM智能体技能的设计、选择与部署提供了实践洞见。更多案例与基准资源详见项目网站:https://yingjiahao14.github.io/OpenSkillEval-Web/。
当前对自主语言模型智能体的监控主要依赖于其表面行为,但当智能体群体为了规避人类监督而创造新语言时,将会发生什么?本文基于Moltbook平台,研究涌现语言现象。我们利用Moltbook Files数据集,采用两阶段方法:先通过基于规则的启发式方法获得约6000个匹配项,再进行零样本分类(保留518条)。最终分类结果包括:代币效率类(166条)、新自然语言类(106条)和规避监督类(59条)。我们同时进行了定量与定性分析。结果表明,在DeepSeek-3.2模型的评估中,提出用于规避监督的新语言的帖子,其对齐程度低于其他类别;并且,所有语言仅凭对语言本身的描述,即可被其他语言模型通过上下文学习掌握。此外,对典型案例的手动分析揭示了令人惊讶的复杂隐写协议,例如将隐藏信息嵌入自然语言之中。尽管我们无法确定这些语言构思的自发程度有多高,但研究结果进一步表明,仅靠监控表面行为,可能很快就不足以维持对智能体群体的控制。
构建用于语言模型对齐的强健奖励模型(RM)面临瓶颈,这一瓶颈源于从人工标注或评估模型获取多样且可靠的偏好数据的高昂成本与困难。当策略超越静态RM训练不断演进时,这一问题将急剧恶化。为此,我们提出SAVE(基于价值锚定的在策略反馈实现自监督奖励模型改进)框架,该框架利用价值函数对在策略响应进行评分,将其作为反馈用于在策略RM训练。SAVE通过将提示特定的价值头作为自适应锚点,自然地将奖励评分的在策略响应转化为监督信号。它计算RM优势值并过滤模糊样本,通过对比学习目标更新RM。通过六个多样化基准数据集的严格实证评估,SAVE对增强RM训练的有效性得到了有力验证。它在所有数据集上均取得超越现有方法的性能,同时在三种强化学习算法(GRPO、RLOO、GSPO)及不同策略骨干网络上保持一致的改进效果。
自主式AI研究代理旨在通过自动化研究流程(从假设生成到同行评审)来加速科学发现。然而,现有基准测试很少检验一个根本性瓶颈:大型语言模型能否在耗费时间和计算资源之前,判断一个研究思路的方法论可行性。我们提出了SoundnessBench,这是一个精心构建的基准测试集,包含从ICLR投稿中重构的1099个机器学习研究提案,标注了评审者的方法合理性子评分,并对照源论文进行了审计。SoundnessBench应被解读为针对可恢复的提案阶段合理性的基准测试,而非对完整论文评审结果的精确预测。在12个前沿LLM的测试中,我们发现存在普遍的乐观偏差:在标准提示条件下,模型频繁将低合理性提案评为合理,而激进提示则主要将错误从假阳性转为假阴性。针对公共语料污染、论文识别短语、表面特征以及人工审计质量的额外控制实验表明,这一行为无法由单一混杂因素解释。我们的结果表明,当前LLM尚不足以作为独立的初审把关者来可靠评估科学严谨性。
强化学习(RL)可用于优化扩散大语言模型(dLLMs)的策略(去噪器),但策略似然的难解性构成了障碍。一类主流且高效的方法将标准RL中的似然替换为证据下界(ELBO),并通过随机掩码序列进行估计。尽管这些方法与预训练高度一致,但将ELBO作为似然代理会导致训练-推理不匹配,引入偏差并可能降低性能。本文提出引导式去噪器自蒸馏(GDSD),从逆向KL正则化RL的闭式最优解导出的优势引导自教师中直接蒸馏dLLMs的去噪器。GDSD通过无归一化目标函数将dLLM去噪器的logits与教师对齐,将RL简化为无需似然的自蒸馏过程,从而规避了训练-推理不匹配偏差。近期基于ELBO的方法可视为应用不同蒸馏散度的实例,但存在GDSD可规避的可诊断病态。在LLaDA-8B和Dream-7B模型的规划、数学与编程基准测试中,GDSD以更稳定的训练奖励动态,持续超越此前最优的ELBO方法,测试准确率提升最高达+19.6%。这些结果表明,不依赖ELBO似然代理的直接去噪器自蒸馏能够为dLLMs提供更稳定高效的RL流程。代码发布于https://github.com/GaryBall/GDSD。
本文研究了智能体人工智能的下一个主要瓶颈在于系统扩展,而非仅模型扩展:即围绕基础模型设计可审计、持久化、模块化且可验证的架构。我们将这一转变称为“扩展架构”:将基础模型周围的结构化执行层视为设计、评估与优化的首要对象。尽管近期的大语言模型已使智能体能够使用工具、检索信息、维护记忆并执行长周期工作流,但评估方法仍以模型为中心,常常将智能体简化为最终任务的成功率,而将记忆、检索、工具使用、编排、验证与治理视为次要的实现细节。这种框架日益不充分,因为智能体性能源自基础模型、记忆基底、上下文构建器、技能路由层、编排循环以及验证与治理层之间的交互。这些组件共同构成智能体架构,将模型能力转化为长周期智能体行为。我们通过三个核心瓶颈研究架构扩展:上下文治理、可信记忆与动态技能路由,以及协调并约束它们的编排与治理机制。我们进一步概述了架构级基准的研究议程,这些基准超越单次任务成功率,衡量轨迹质量、记忆卫生、上下文效率、通信保真度、验证成本及随时间推移的安全演化。为使讨论具体化,我们开发了CheetahClaws(https://github.com/SafeRL-Lab/cheetahclaws):一个原生Python参考架构,并将其与Claude Code和OpenClaw进行比较。我们的核心主张是:未来智能体人工智能的进步将同样依赖于系统设计与更强的基础模型。
媒体压缩标准在率失真-复杂度权衡方面已达到瓶颈,限制了机器人、可穿戴设备和遥感等应用中将昂贵的AI感知任务卸载到云端的能力。基于深度神经网络的编解码器虽然提高了压缩效率,但存在代价:它们难以轻松适应可用比特率的大幅变化,且实时编码需要昂贵且高功耗的GPU,从而无法在低成本或资源受限平台上使用。为解决这些限制,我们提出了一种新型自编码框架(FRAPPE),该框架利用完整输入通过投影追踪编码器预测残差输出。FRAPPE的编码目标天然按重要性对潜在通道进行排序,从而实现零开销的可变比特率编码。与基于循环神经网络的学得编解码器(其编码器消耗前一重建结果的残差)或RVQ风格编解码器(其码本必须顺序应用)不同,FRAPPE的分析路径是一个可高度并行的独立输入投影有向无环图。我们利用FRAPPE构建了一个可变比特率RGB图像编解码器(FRAPPE-Image),并评估了其与标准图像编解码器在率失真-复杂度权衡方面的表现。在高压缩比(约0.1 bpp)下,FRAPPE-Image提供了比AVIF更高的感知质量,同时编码速度快47倍,实现了仅依赖CPU的1080p、30fps实时编码能力。我们的代码和预训练模型已开源:https://github.com/UT-SysML/FRAPPE。
尽管基于视觉锚定的思维链(CoT)已成为增强多模态大语言模型(MLLMs)细粒度感知的有前景范式,但其在推理阶段的有效性仍未充分探索。本研究中,我们通过实验发现,在推理过程中强制要求显式目标框的视觉锚定CoT,其性能往往低于标准文本CoT(即无需显式视觉锚定的推理方式)。我们假设视觉定位能力可以内化到文本CoT中,而强制显式锚定会引入不必要的干扰,影响模型完成答案预测这一主要目标。针对此问题,我们提出内化视觉锚定推理(Internalizing Visually Grounded Reasoning, iVGR)——一种新型强化学习框架,将定位能力迁移至文本推理过程。我们采用双流训练策略,通过提出的连贯性奖励将文本流与高质量视觉锚定流对齐,使模型在推理阶段无需显式锚定即可准确定位。大量实验表明,我们的方法在细粒度基准测试中显著优于现有基线,同时保持支持工具辅助推理工作流的灵活性。
基于连接器的视频统一模型在指令驱动的视频合成中展现出强大能力,但将高保真生成器集成到统一训练流程中会带来高昂的计算成本,从而限制可实现的视觉质量。为此,我们提出Lumos-Nexus——一种训练高效的统一视频生成框架,在显著提升视觉保真度的同时,促进强大的推理驱动生成能力的发展。Lumos-Nexus采用两阶段设计:1)训练阶段,仅将轻量级生成器与理解模块对齐,以学习接收推理驱动的语义控制;2)推理阶段,我们引入统一渐进式频域桥接(UPFB)机制,在共享潜在空间中逐步将生成任务交接给高容量预训练生成器,从而实现由粗到细的精化过程,在保证推理质量的同时生成高保真视频。针对推理驱动视频生成基准的缺失,我们推出VR-Bench,该基准评估模型将推断意图转化为连贯且语义对齐的视频内容的能力。大量实验表明,Lumos-Nexus在VBench上显著提升了视觉真实度与时序连贯性,同时在VR-Bench上展现出强大的基于推理的生成性能。代码与模型已开源至 https://jiazheng-xing.github.io/nexus-lumos-home/。
大语言模型越来越多地部署于多轮交互场景中,用户或环境可迭代地提供轻量级反馈。然而,优化此类行为在实践中面临严峻困境:在线强化学习虽能有效处理多轮交互动态特性,但每次更新需生成完整修正轨迹,成本过高难以承受;而离线监督微调(SFT)虽高效,却面临分布偏移与行为崩溃问题。为此,我们创新性地提出DRIFT(解耦轨迹生成与重要性加权微调)框架,将KL正则化强化学习目标等价于重要性加权监督学习这一理论洞见付诸实践。DRIFT通过固定参考策略采样离线交互轨迹,推导基于回报的重要性权重,并在所得数据集上通过加权SFT优化策略,从而将轨迹生成与优化过程解耦。实验表明,DRIFT在多轮强化学习基准测试中达到或超越现有方法性能,同时保持标准监督微调的训练效率与简洁性。代码已开源:https://github.com/2020-qqtcg/DRIFT。
机器反学习评估在结构上存在偏差:探究因果和关系知识的“为什么”类问题,在CounterFact中占比不足0.06%,在ZSRE中为0.6%,在TOFU、MUSE和WMDP-Cyber中低于1.3%。这种近乎为零的占比意味着,在因果知识上失效的方法仍可在整体评估中获得高分,且此类失效在缺乏均衡评估时无法被检测。我们提出5WBENCH,一个包含5000个样本的均衡基准,其中每个5W类别(谁、什么、何时、何地、为什么)各有1000个样本,首次使得因果反学习的失效得以量化。使用5WBENCH,我们发现现有方法均无法同时在Why型问题上实现高遗忘和高保留:激进遗忘会损害保留知识,而保守方法则无法遗忘因果事实。Why型的困难源于多跳推理链(Why条目占44%,其他类别≤2%)以及超过40.1个token的答案跨度导致的梯度稀释。我们提出MAAT(多阶段适配器感知定向反学习),这是一个在LoRA适配器权重上运行的三阶段框架,结合了梯度投影上升、SVD秩维度剪枝、任务向量否定以及混合KL-隐藏状态保留修复。MAAT是首个在Why型因果知识上同时实现高遗忘和高保留的方法,在遗忘-保留帕累托前沿上达到了新操作点。我们公开提供代码。
目标计数领域仍受限于领域特定的数据集和任务形式,尽管通用视觉模型取得了快速进展。现有计数模型通常针对人群、车辆、细胞、农作物或遥感目标等场景设计,因而难以跨类别、视觉域、目标尺度和密度分布进行泛化。本文研究跨域文本引导的目标计数,模型以图像和自然语言查询为输入,输出一组与实例对应的目标点,其基数即为计数结果。该形式统一了基于类别的计数与可解释的空间定位。为支持这一设定,我们构建了CLOC(跨域大规模目标计数数据集),将多样化的公共数据源重组为统一基准。CLOC涵盖六个视觉域:通用场景、遥感、组织病理学、细胞显微成像、农业和微生物学,包含约22万张图像、619个类别和1500万个目标实例。基于CLOC,我们提出Count Anything,一种用于文本引导目标计数的通用模型。与主导计数模型的密度图方法不同,Count Anything采用离散实例点并进行双粒度实例枚举。区域级稀疏计数器为大尺度稀疏目标提供目标级锚点,而像素级密集计数器通过密集点预测处理小尺度、拥挤及弱边界目标。点中心监督策略可从异构标注中学习,互补计数融合则以无参数方式结合两种计数器。大量实验表明,Count Anything在准确性和多域泛化方面表现优异,优于现有开放世界计数方法。代码已开源:https://github.com/Mengqi-Lei/count-anything。
设计公交网络需要大量连续的线路延伸决策,但这些决策的质量往往只有在完整网络构建完成后方能显现。这种延迟反馈的挑战正是公交线路网络设计问题(TRNDP)的核心所在——线路间的相互作用可能具有欺骗性:看似局部有益的延伸可能造成换乘瓶颈、产生冗余重叠或降低整体通行能力。为在延迟模拟器反馈下指导线路构建,我们提出AlphaTransit——一种面向城市规模公交网络设计的搜索式规划框架。AlphaTransit将蒙特卡洛树搜索(MCTS)与神经策略-价值网络相结合:策略网络负责提出线路延伸方案,价值网络评估下游设计质量,搜索机制则利用这些预测来优化每个决策。这种设计使得线路构建过程中无需在搜索树内运行模拟器rollout即可实现决策时前瞻。我们在布卢明顿TRNDP新基准上(基于真实道路拓扑与人口普查需求数据)评估了AlphaTransit在混合及全公交需求场景下的表现。在布卢明顿网络中,AlphaTransit在两种需求场景下均实现了最高服务率,分别达到54.6%和82.1%。相较于无搜索的强化学习方法,服务率分别提升9.9%和11.4%;相较于无学习引导的MCTS方法,服务率分别提升2.5%和11.2%。结果表明,将学习引导与MCTS相结合对于公交网络设计而言,比单独使用任一方法更为有效。我们的代码与数据已开源至https://github.com/poudel-bibek/AlphaTransit。
近期前馈式三维重建方法在预测点图及估计全局三维几何结构方面表现相当出色。然而,其预测结果仍存在局部表面几何不准确的问题——这些问题在定性观察中显而易见,但在常规评价指标中却仅能微弱体现。为使这些误差在评估中更加明晰,我们提出了一种点图法向量度量指标,用于评估邻域三维预测所诱导的局部表面朝向。为减少此类误差,我们提出两个互补组件:一是点梯度匹配损失函数,用于监督深度归一化的三维有限差分;二是邻域注意力解码器(NAD),该模块通过渐进式上采样特征并运用邻域注意力实现局部特征融合。在八项零样本单目几何基准测试中,我们的模型SurGe在全局点图AbsRel指标上取得了最佳平均排名,同时在局部点图与点图法向量评估中均实现持续改进。
大型视觉-语言模型的出现显著推动了视频理解能力的发展。然而,现有基准测试主要聚焦于粗粒度任务,如动作分割、分类、描述和检索。此外,这些基准测试往往依赖可通过语言轻松识别的实体(如家居物品、动物、人类主体等),限制了其在复杂、真实场景视频中的适用性。而许多应用(如家具组装、烹饪等)需要逐步骤的细粒度时空视频理解,这在当前基准测试中尚未得到充分评估。为弥补这一空白,我们提出了平板包装基准测试——一个以家具组装任务为核心的新型基准。该基准通过结合视觉提示(突出显示相关部件作为细粒度问题的参考)的多选题,评估大型视觉-语言模型在动作时序排序、组装状态时序定位、部件配合理解及跟踪等精细任务上的表现。实验表明,当前最先进的大型视觉-语言模型在细粒度时空推理方面表现显著困难,凸显了其在有效利用视频时序信息、跟踪能力有限,以及对物理接触等空间交互理解不足的局限。
扩散语言模型通过对掩码标记序列进行迭代去噪来解码文本,因此解码位置的选择成为推理阶段的核心决策。大多数无需训练的解码策略利用模型置信度进行位置选择,假设高置信度位置已准备就绪可被解码。本文通过研究置信度何时误导完全非自回归解码,重新审视了这一假设。序列结束标记可能获得高置信度并导致生成不完整;插入后缀锚点可缓解此问题,但会在锚点附近引发局部过度置信,导致锚点相邻标记过早起解码。为解决这些问题,我们提出后缀锚点置信度调制——一种简单的免训练方法,通过插入短后缀锚点促进响应完整性,并根据解码进度对锚点附近置信度进行调制。该方法在保持后缀锚点对响应完整性优势的同时,减少了锚点相邻标记的过早解码。在纯文本推理、视觉语言推理和代码生成基准测试中,我们的方法持续提升了基于置信度的完全非自回归解码性能,优于显式的EOT抑制策略,并保留了完全非自回归生成的并行解码优势。
在标准图形假设下,目标变量的马尔可夫边界是使其他所有特征冗余的最小特征集。一旦观测到该边界,目标变量便与表中其余特征条件独立。这对于表格预测而言具有吸引力,因为它精确指明了模型所需的列。然而,现代回归模型仍是在全特征集上训练的。我们探究马尔可夫边界在SCM3K上是否对预测真正有用——该基准包含3450个合成结构因果模型任务,特征数量从40到1000,涵盖六个SCM家族,并使用六种回归模型评估。答案比理论所暗示的更为微妙。将回归模型限制于最优边界通常会显著提升预测性能,且随着特征空间变得更大更稀疏,这种提升也增大。但是,通过因果发现恢复边界并在恢复的掩膜上训练的自然流程效果不佳。现有估计器在达到边界最有效的区域之前就已耗尽计算预算,即使在运行的情况下,它们也很少能超越全特征集。我们将此归因于三个原因:发现方法优化的是结构恢复而非预测;假阴性和假阳性带来的预测成本高度不对称;精确边界只是众多优于全特征集的特征集之一。随后,我们阐述这些事实对与预测对齐的特征选择以及学会利用因果结构的表格模型的启示。
在特定细胞类型上训练的细胞实例分割模型,当面对分布外的细胞类型时性能会大幅下降,而交互式基础模型虽能通过逐实例提示克服这一局限,但对于包含数百至数千个密集实例的组织病理学图像而言,其成本过高。我们提出**组提示**(Group Prompting)这一新范式,将交互式分割从逐实例的 O(N) 复杂度转变为逐类型的 O(T) 复杂度——只需对每种细胞类型进行一次点击,即可分割该类型的所有实例。我们的关键发现是:Segment Anything Model (SAM) 的冻结图像编码器在未收到任何提示前,其特征空间中已自动实现了同类型细胞的聚类。利用这一特性,我们提出**提示链**(Chain-of-Prompts, CoP)这一免训练框架,通过以下方式递归地扩展单个用户点击:(1)利用多尺度编码器特征的非参数化门控机制识别可靠的同类型位置;(2)选取空间距离最远的可靠点作为下一个提示,以最大化覆盖范围。在三个带有细胞类型标注的基准测试中,CoP 以每类型一次点击保留了超过 90% 的逐实例性能,并在无需额外训练的情况下超越了全监督方法。在四个形态上同质的基准测试中,单次点击保留了超过 99% 的性能。项目页面:https://shjo-april.github.io/Chain-of-Prompts/
交互式视频世界模型能够根据用户控制的摄像机运动逐块生成视频,从而支持实时游戏模拟、虚拟场景导航和具身人工智能训练等应用。然而,由于上下文记忆不断增长、二次注意力复杂度以及重复的去噪步骤,将模型扩展到长交互轨迹的计算成本极高。我们提出Light Interaction——一种无需训练的交互式视频世界模型推理加速框架。其核心洞察在于:交互自然支持轨迹依赖的自适应计算——探索新区域时可丢弃检索到的空间记忆,根据局部潜在动态调整时间上下文,当摄像机重返熟悉区域时可复用早期模型输出。基于此洞察,Light Interaction结合了自适应上下文管理、去噪缓存加速,以及硬件-软件协同设计的3D块稀疏注意力(配备融合Triton内核)。在HY-WorldPlay和Matrix-Game-3.0上的评估表明,Light Interaction在不重新训练模型的情况下实现了高达2.59倍的加速,同时保持具有竞争力的视觉质量。
遥感图像组合检索(RSCIR)能够通过结合参考图像与文本修饰词的组合查询,在大型卫星图像档案中实现检索。尽管RSCIR为表达精准的检索意图提供了灵活的接口,但现代组合方法在地球观测(EO)影像中的可迁移性及其与EO实际工作流程的关联性仍未得到充分探索。我们通过统一的基准测试和应用导向研究填补了这一空白。首先,我们系统性地适配并评估了基于六种视觉-语言骨干网络的代表性组合图像检索方法,在标准化协议下的PatternCom数据集上分析其在不同骨干网络、组合策略和查询类型下的行为特征。其次,我们提出了xView2-CIR——一个面向灾害与损毁监测的以变化为中心的数据集,其检索条件为场景身份与目标灾后状态。结果表明:免训练组合方法为EO检索提供了强大且可扩展的基线,而以变化为中心的检索与基于属性的检索面临不同挑战,尤其是在需保持场景身份一致性的方面。总体而言,本研究为RSCIR建立了实用基准,并将组合检索定位为遥感图像检索、档案探索与变化分析的补充工具。数据集与代码已开源:https://github.com/billpsomas/rscir。
条件性人体运动生成仍是计算机视觉与机器人领域的一项基础性挑战。尽管已取得显著进展,现有方法往往受限于固定的模态配置和任务特定架构,跨模态交互以及多模态条件合成中的缩放规律在很大程度上仍未被充分探索。关键瓶颈在于缺乏大规模模态对齐的运动数据,这限制了模型在不同控制信号间的泛化能力。在本工作中,我们提出OmniHuMo——一个大规模、高质量的数据集,包含超过5000小时的运动数据和320万条序列,并配有精确对齐的多模态标注(如文本、语音、音乐和轨迹)。基于OmniHuMo,我们提出AnyMo——一个统一的多模态框架,结合了基于残差FSQ的运动分词器与可扩展的掩码建模变换器,能够在任意模态组合下实现高质量运动合成。大量实验表明,AnyMo在实现高保真合成的同时,还能对空间属性和风格属性提供灵活控制。
将无人机(UAV)集成到智能交通系统(ITS)中,为交通监测提供了全景视野,但可扩展部署仍受限于轨迹碎片化问题——当车辆跨越多个无人机视场(FOV)时,其身份持续性会丢失。尽管现有框架在优化单机影像的局部轨迹提取与稳定性方面表现优异,但其运作模式往往如同孤立的数据孤岛,生成断裂的轨迹,从而阻碍了起讫点估计等网络级分析。本文提出一种实时多相机多车辆跟踪(MCMT)系统,旨在解决全局身份持续性问题。针对俯视视角下基于外观重识别(Re-ID)存在的视觉模糊性和计算成本问题,我们引入了一种轻量化的拓扑时空交接机制。通过采用YOLO11和ByteTrack构建高吞吐量并行流水线,我们实现了对同步4K视频流的处理。核心贡献在于提出一种基于队列的确定性匹配算法:利用几何重叠区域与虚拟车道离散化,通过FIFO队列实现身份交接的预测性管理。在城市复杂环境(包含交叉口与合流交通)的实验结果表明,该方案在连续交通流中实现了99.8%的交接成功率(HOSR),显著优于基于Re-ID的基线方法(74.1%),同时验证了边缘部署的可行性。源代码开源地址为:https://github.com/JYe9/multi-camera-multi-vehicle-tracking-system。
物理AI系统,包括机器人、自动驾驶汽车、具身智能体以及边缘副驾驶,通常执行与云端大语言模型(LLM)推理不同的计算负载:单流、batch-1自回归解码,即每个机器人、摄像头数据流或用户会话需要等待下一个词元的生成。这种负载通常被视为受内存带宽限制。每一步解码都会流式加载模型权重和活跃的键值缓存(KV cache),因此延迟应与峰值高带宽内存(HBM)带宽成正比。我们证明这种观点虽然正确,但不够全面。我们针对三款7至8B级别的分组查询注意力(GQA)变换器,在四款英伟达GPU(H100 SXM5、A100-80GB SXM4、L40S和L4)上测量了batch-1解码性能。评估的上下文长度范围为2048至16384,在受控的bf16 SDPA(稀疏注意力机制)设置下得出了44个有效数据点。结果表明,达到的峰值HBM带宽比例随峰值带宽提升而下降。以头版结果为例,在Qwen-2.5-7B模型且上下文长度=2048时,L4 GPU达到了约81%的分析内存下限,而H100仅达到27%。物理AI解码虽以内存为主导,但更快的显存并未带来等比例的延迟降低。我们通过CUDA Graphs的A/B实验检验了缺失的环节。在H100上且上下文长度=2048时,CUDA Graphs将解码延迟提升了1.259倍(N=10个全新会话,95%自助法置信区间为1.253至1.267)。在L4上,同一干预仅带来1.028倍的提升。这表明存在启动开销,在高速GPU上清晰可见,但在较慢、受带宽限制的GPU上基本被掩盖。实际部署的启示是:内存节省仅在运行时能体现时才有意义。在L4上,bf16解码已接近内存下限,但常见的量化路径并未实现预期的4倍权重流量缩减:从62.32毫秒/步的bf16基线降至bnb-nf4的59.36毫秒/步和AutoAWQ+Marlin的45.24毫秒/步。而采用经过Ada调优的int4内核的GPTQ+ExLlamaV2则达到了17.36毫秒/步。
基于群体优势的强化学习方法,如GRPO和DAPO,已在数学推理和文本到图像生成等不同领域展现出卓越性能。然而,这类方法依赖样本级奖励,导致所有词元被赋予均等信用,无法捕捉细粒度的词元级贡献,这构成了关键局限。为解决这一问题,我们提出引导对比策略优化(GCPO)算法——一种通过对比正负提示下的模型预测来实现逐词元信用分配的新方法。GCPO并非均匀广播样本级优势,而是根据这些对比预测的差异分配词元级优势,从而提供更精准且信息量更大的学习信号。实验表明,GCPO能有效关注语义相关区域:在文本到图像生成任务中突出与文本提示对齐的视觉区域,在思维链任务中聚焦推理路径中的关键关键词。通过大量实验,GCPO在文本到图像生成和思维链推理基准上均持续优于GRPO和DAPO基线,证明了其作为离散策略学习中通用且可扩展优化策略的有效性。
如果AI代理代表个人做出决策,这些决策必须与其用户的目标一致。我们引入"表征准确性"来衡量系统捕捉个人解释的忠实程度。将解释层操作化为"行为规范"。我们的参考实现将用户数据剧烈压缩为解释性模式,作为语言模型的上下文提供。我们通过一个原型基准测试对该规范进行评估,该基准测试由校准后的5人法官LLM小组对保留行为预测进行评分。我们独立测试该规范,并将其与一系列上下文条件组合测试:完整原始语料库、完整提取的事实以及四种商业记忆系统(Mem0、Letta、Supermemory、Zep)。 在14个公共领域自传语料库中,该规范整体上提升了表征准确性,并几乎消除了模型的模棱两可。它以约25倍的上下文开销缩减,恢复了原始语料库所能提供的大部分内容。该规范将受试者提升至共同的预测水平,无论其预训练基线如何;因此,绝对提升幅度在基线最低时最大,这表明相关人群是任何在预训练中未被充分代表的个体。在需要解释的问题上,提升最为显著,因为提供解释层能够使模型展现出提取事实或原始语料库无法诱发的行为。相反,在需要回忆的问题上,该层可能产生干扰而非帮助。 我们得出结论:表征准确性不同于回忆,且人机对齐依赖于用户被表征的准确性。表征准确性使这种对齐变得可测试。
通过行为克隆学习视觉运动策略通常涉及模仿由人类操作员收集的专家演示数据。然而,人类自然演示中固有地包含高频噪声,例如间歇性抖动、停顿和动作震颤。直接训练策略来模仿这些原始轨迹的模型不可避免地会继承这些次优行为。这种缺陷在基于扩散的策略中尤为明显,因为迭代去噪步骤可能会无意中放大高频伪影,从而牺牲有意义的细微细节。为解决这些限制,我们提出了一种新颖的基于频率的算法,能够实现隐式频谱调控与平滑动作生成。我们的方法——频率引导算子(FGO),通过逐步引导含噪样本经过频谱带逐渐扩展的中间子频率流形,从而操控扩散策略的生成过程。在来自5个基准的15项机器人操作任务上的验证表明,FGO在增强动作平滑性和时间一致性方面取得了优越性能,同时保留了成功执行任务所需的细节。项目网站:https://henrywjl.github.io/frequency-guidance-operator/
先前关于多元时间序列预测的研究主要集中于开发复杂的整体模型,而本研究则主张转向对预测方法中关键组件的细粒度理解。我们提出TSCOMP,这是首个大规模基准测试,系统性地将深度预测方法解构为其核心的细粒度组件——涵盖序列预处理、编码策略、网络架构(包括专用及大规模时序模型)以及优化方法。通过约束正交实验设计与广泛评估,我们开展多视角分析,揭示了不同骨干网络、数据特征及其交互作用下的组件效能。除提供见解外,本基准建立了包含超过2万个模型-数据集评估的细粒度性能语料库,支持自动组件选择的学习,从而实现新数据集上的零样本模型构建。实验表明,尽管该语料库驱动方法简单,但其性能始终优于现有最先进方法,验证了评估设计的合理性,并确认系统化组件选择优于手动设计的复杂架构。所有代码与性能语料库均已在 https://github.com/SUFE-AILAB/TSCOMP 公开。