HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

49 papers found

DVAO：面向多奖励强化学习的动态方差自适应优势优化
DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning

May 25

ByGuochao Jiang, Jingyi Song, Guofeng Quan, Chuzhan Hao, Guohua Liu, Yuewei Zhang

116

强化学习已成为将大语言模型与人类意图及任务需求对齐的标准范式。尽管组相对策略优化为近端策略优化提供了一种无需价值模型的高效替代方案，但将其适配到现实世界中多奖励场景仍具挑战性。标准标量化实践，如奖励组合和优势组合，存在显著缺陷：奖励组合经常产生平方量级过大的优势值，导致训练不稳定；而优势组合依赖静态超参数且忽视跨目标相关性。为解决这些局限，我们提出动态方差自适应优势优化（DVAO），该方法基于每个目标在整批采样组内的经验奖励方差动态调整组合权重，有效放大学习信号更强的目标权重，同时抑制噪声目标。我们从数学上证明DVAO能维持有界的优势量级以确保训练稳定，并引入一种自适应的跨目标正则化机制。基于Qwen3和Qwen2.5模型在数学推理和工具使用基准上的大量实验表明，DVAO显著优于基线方法，实现了卓越的多目标帕累托前沿与稳健的训练稳定性。

WBench：一个用于交互式视频世界模型评估的全面多轮基准测试
WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation

May 25

ByKaining Ying, Hengrui Hu, Siyu Ren, Jiamu Li, Fengjiao Chen, Ziwen Wang, Xuezhi Cao, Xunliang Cai, Henghui Ding

交互式世界模型正快速发展，然而现有基准仅覆盖部分所需能力，缺乏统一标准进行系统性评估。为此，我们提出WBench——一个面向交互式世界模型评估的多轮综合基准，从视频质量、设定遵循、交互遵循、一致性及物理合规性五个维度进行评测。WBench包含289个测试用例和1,058次交互轮次，每个用例指定一个世界设定及多轮交互序列，覆盖多样场景、风格、主体，以及第一人称和第三人称视角，同时包含导航、主体动作、事件编辑和视角切换四种交互类型。针对导航任务，WBench统一了文本、六自由度位姿和离散动作控制，支持评估具有不同原生输入接口的模型。评估采用22项自动子指标，结合了专业视觉模型与大型多模态模型，所有指标均经过人工判断验证。在20个最先进模型上的实验表明，没有单一模型能在所有维度上表现优异。我们提供了详细的诊断性分析，揭示各模型的特性优势、劣势与开放性挑战。代码与数据已开源至https://github.com/meituan-longcat/WBench。

Macaron-A2UI：个人代理中的生成式用户界面模型
Macaron-A2UI: A Model for Generative UI in Personal Agents

May 24

ByFancy Kong, Congjie Zheng, Murphy Zhuang, Rio Yang, Sueky Zhang, Hao Fu, Gene Jin, Song Cao, Kaijie Chen, Andrew Chen, Pony Ma

随着个人智能体逐渐承担起处理复杂、以用户为中心的任务，静态纯文本聊天迅速成为瓶颈。生成式UI应运而生，作为一种必要的全新接口层，能够根据交互上下文实时动态合成相应的控件、选项与状态。我们提出Macaron-A2UI模型，专为个人智能体的生成式UI而设计。目标在于超越纯文本交互，使智能体能够同时生成自然语言，以及轻量级、可执行的UI操作，用于信息收集、偏好优化、确认及多目标组织。我们从异构对话数据源构建大规模生成式UI语料库，引入A2UI-Bench用于受控评估，并训练了30B、235B和754B参数的模型，采用参数高效的基于LoRA的有监督微调，结合奖励驱动的强化学习。最佳的Macaron-A2UI模型在无显式模式提示的情况下，A2UI-Bench总体得分达到75.6，超越了最强的全模式基线。我们开源模型、基准与评估协议，以支持未来个人智能体生成式UI的相关研究。

基础协议：智能体社会的协调层
Foundation Protocol: A Coordination Layer for Agentic Society

May 22

ByBang Liu, Yongfeng Gu, Jiayi Zhang, Zhaoyang Yu, Sirui Hong, Maojia Song, Xiaoqiang Wang, Mingyi Deng, Zijie Zhuang, Ronghao Wang, Mingzhe Cao, Yutong Zhu, Xingjian Li, Yifan Wu, Jianhao Ruan, Yiran Peng, Shuangrui Chen, Jinlin Wang, Yizhang Lin, Dongjie Zhang, Dekun Wu, Chen Ma, Lizi Liao, Han Yu, Jian Pei, Heng Ji, Qiang Yang, Yuyu Luo, Chenglin Wu

自主代理正从工具演变为社会基础设施层：它们浏览信息、采购商品、部署软件、管理系统，并日益频繁地相互交互。随着这些系统规模扩大，瓶颈从原始模型能力转向协调机制。代理需要构建可靠关系，组织多代理协作，实现价值交换，支撑人工智能经济体系，并在现实监管下保持安全性与问责性。本文提出基础协议（Foundation Protocol, FP），这是一个面向新兴人机社会的图优先协调层。FP统一异构实体（包括代理、工具、资源、人类、机构及组织），原生支持多方组织与事件驱动的协作，提供用于计量、收据与结算的经济原语，并将策略、溯源与审计作为一等公民概念处理。FP旨在封装与桥接现有协议而非取代之，支持渐进式采纳，同时降低集成与治理成本。其核心理念是：在保持自主代理可组合性的同时，确保问责性不可妥协，从而使得协调本身能够成为开放、多元、可治理的人机社会的共享基础设施。

TriSplat: 面向仿真的前馈式三维场景重建
TriSplat: Simulation-Ready Feed-Forward 3D Scene Reconstruction

May 25

ByWeijie Wang, Zimu Li, Jinchuan Shi, Zeyu Zhang, Botao Ye, Marc Pollefeys, Donny Y. Chen, Bohan Zhuang

稀疏视角3D重建问题越来越多地通过前馈样条网络得到解决，这类网络能够直接从图像预测显式基元。然而，现有方法大多仍以高斯基元为核心，且仅能间接重建表面：为下游仿真、物理推理或具身交互提取可用的网格，仍需进行昂贵的后处理步骤，这打破了前馈网络的承诺。这一局限性在无位姿场景中尤为突出，因为此时场景结构和相机参数必须从稀疏观测中联合估计。我们提出TriSplat，这是一种前馈重建网络，通过定向三角形基元表示场景，并能在单次前向传播中直接导出模拟就绪的网格场景。给定输入图像，网络预测局部3D点图、三角形属性、相机位姿以及可选的相机内参。我们的方法并非将三角形方向回归为无约束隐变量，而是从预测的点图中构建几何法线，通过图像条件法线网络进行精化，并将其转换为稳定的局部坐标系用于三角形参数化。单法线引导策略进一步稳定了早期训练，而不透明度和模糊度调度策略逐步锐化学习到的表面表示，以实现直接的网格提取。在RealEstate10K和DL3DV上的实验表明，与基于高斯的前馈基线方法相比，该表示方法能生成更符合几何结构的重建结果，同时保持有竞争力的新视角渲染质量。由于渲染基元本身就是表面三角形，输出结果可直接被物理引擎、碰撞检测器和标准渲染管线使用，无需任何格式转换，从而为前馈3D场景重建提供了实用的模拟就绪解决方案。

迈向原生多模态建模：路线图
Toward Native Multimodal Modeling: A Roadmap

May 25

BySiyu An, Junru Lu, Junnan Dong, Qiufeng Wang, Yinghui Li, Weizhi Fei, Zichao Yu, Zheng Yuan, Biao Liu, Haopeng Wang, Renzhao Liang, Yixuan Yang, Yunhang Shen, Bo Ke, Keyu Chen, Linhao Luo, Difan Zou, Xiao Huang, Di Yin, Ruizhi Qiao, Xing Sun

多模态建模代表了一条从模态无关推理迈向世界建模的关键路径。早期方法主要依赖后期融合——将编码器、冻结语言主干与输出头进行组合——而近期研究已将范式转向原生多模态建模（NMM），通过模态的内在融合实现更优的多模态性能。尽管潜力巨大，原生架构的设计空间仍缺乏充分定义。本文向学界呈现了一条形式化的转型路线图。具体而言，我们首次明确界定了架构原生性，从非原生范式中区分出中期融合与早期融合。我们进一步基于输入-输出对偶性，将现有原生模型分为三类：(i) 多对文本——面向仅输出文本的跨模态理解；(ii) 多对目标——面向场景化生成（如图像、音频和视频生成）；(iii) 多对多——面向输入输出对称的统一建模。我们针对向终极NMM框架的转型过程，开展了全面且具备工业级深度的研究——在该框架下，理解与生成在统一变换器范式中无缝共存。我们从工业视角系统拆解端到端流水线，涵盖架构协同、大规模数据整理、全栈训练方案、推理与部署，以及真正原生建模的综合评估体系。

ParaVT: 驯服工具先验悖论以实现智能体视频强化学习中的并行工具使用
ParaVT: Taming the Tool Prior Paradox for Parallel Tool Use in Agentic Video Reinforcement Learning

May 19

ByZuhao Yang, Kaichen Zhang, Sudong Wang, Keming Wu, Zhongyu Yang, Bo Li, Xiaojuan Qi, Shijian Lu, Xingxuan Li, Lidong Bing

通过强化学习（RL）训练大型多模态模型（LMMs）以原生调用视频处理工具（如裁剪）已成为长视频理解领域的一条有前景的路径。然而，现有的原生RL方法按顺序调度工具调用（即每轮仅调用一次）：单次错误裁剪会导致错误传播而无法进行平行校正，多轮工具调用会污染上下文，且推理成本随调用轮次线性增长。我们提出ParaVT——首个多智能体端到端RL训练框架，实现并行视频工具调用：单轮内调度多个时间窗口裁剪，以获得更干净的上下文和更好的容错性。然而，将标准RL应用于ParaVT揭示了一个我们称之为**工具先验悖论**的障碍：预训练工具先验虽能促进工具探索，却会在冷启动时破坏结构化格式的稳定性，并在温度采样下暴露出跳过工具奖励的捷径。一项针对弱先验LMM的跨模型对比验证了这一观点：格式保持稳定，但RL未能激发任何工具调用，表明先验强度既是格式崩溃的共同驱动因素，也是工具探索的驱动因素。我们提出**PARA-GRPO**（基于可解析性锚定与比率门控的GRPO），通过两种互补机制增强标准RL：（i）仅在结构标记位置（最易崩溃处）施加针对性格式奖励；（ii）每提示帧预算随机化，构建训练提示使得调用工具相较于跳过工具能获得可测量的奖励信号。在六个长视频理解基准上，ParaVT相比Qwen3-VL基线平均提升7.9%，其中PARA-GRPO将训练阶段的格式合规率从0.13提升至0.64。随着工具能力日益内化于现代LMMs中，RL必须与由此产生的先验协同运作，而ParaVT为智能体RL提供了一种通用方案。代码、数据和模型权重均已公开。

QUEST：使用全合成任务训练前沿深度研究智能体
QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks

May 22

ByJian Xie, Tianhe Lin, Zilu Wang, Yuting Ning, Yuekun Yao, Tianci Xue, Zhehao Zhang, Zhongyang Li, Kai Zhang, Yufan Wu, Shijie Chen, Boyu Gou, Mingzhe Han, Yifei Wang, Vint Lee, Xinpeng Wei, Xiangjun Wang, Yu Su, Huan Sun

深度研究智能体将搜索引擎的角色从检索关键词匹配页面扩展为知识综合，从根本上改变了人类与信息交互的方式。然而，前沿系统仍为专有，而现有的开放智能体通常在不同任务类型间泛化能力较差，导致如何训练一个广泛适用的深度研究智能体尚不明确。我们发布了QUEST——一系列开放模型（参数规模从2B到35B），作为通用型深度研究智能体，旨在处理多种长跨度搜索任务，具备事实检索、引文溯源和报告合成的强大能力。为构建QUEST，我们提出了一种结合中期预训练、监督微调和强化学习的有效训练策略。该策略的核心是基于统一评分规则树构建的合成数据流水线，该流水线适用于不同任务类型，并能在无需人工标注的情况下合成带有可验证奖励的训练数据。此外，QUEST内置了上下文管理机制，支持高效的长程推理与知识综合。仅使用8K条合成任务，QUEST在涵盖多种任务类型的八个深度研究基准测试中接近甚至超越前沿闭源智能体，并在近期开放权重智能体中取得了最佳综合性能。我们开源了所有内容：模型、数据及训练脚本。

ThriftAttention: 长上下文FP4注意力的选择性混合精度
ThriftAttention: Selective Mixed Precision for Long-Context FP4 Attention

May 21

ByJoe Sharratt

高效注意力算法对于缓解长上下文任务中注意力机制二次复杂度带来的计算成本至关重要。先前研究在Blackwell GPU上采用块级量化技术，将注意力计算降至4位精度以加速推理，但这种技术在长上下文场景中会导致显著的质量下降。我们证明，量化误差对输出的影响具有高度非均匀性，且随每个查询-键交互的重要性递增，使得功能相关的误差集中在包含最重要标记的少量注意力块中。为此，我们提出ThriftAttention——一种低比特注意力变体，在实现接近FP16长上下文质量的同时，保持FP4推理效率。该方法分两阶段进行：首先，通过启发式算法快速筛选少量重要的查询-键块对，保留FP16精度；其次，对所选块进行FP16计算，其余块采用FP4计算，并通过在线softmax将两条计算路径合并为单一输出。我们在多个长上下文基准测试和模型族上证明，仅需将5%的查询-键块以FP16计算，ThriftAttention即可平均恢复FP4与FP16性能差距的89.1%。实验表明，ThriftAttention的优势随序列长度增加而增强，有效缓解了长上下文场景中FP4的系统性质量退化。代码已开源至 https://github.com/joesharratt1229/ThriftAttention。

AutoResearch AI：迈向AI驱动的研究自动化，赋能科学发现
AutoResearch AI: Towards AI-Powered Research Automation for Scientific Discovery

May 22

ByGuiyao Tie, Jiawen Shi, Dingjie Song, Yixiao Huang, Ziji Sheng, Xueyang Zhou, Daizong Liu, Pan Zhou, Yongchao Chen, Ran Xu, Lifang He, Qingsong Wen, Manling Li, Cong Lu, Shuai Li, Pengtao Xie, Yixuan Yuan, Rui Meng, Lei Xing, Lichao Sun, Caiming Xiong, Philip S. Yu, Jianfeng Gao

人工智能系统正在重塑科学研究，其作用已超越孤立的辅助工具，转向涵盖文献依据确立、假设生成、实验设计、验证评估、报告撰写及修订完善的全流程长周期工作模式。这一转变标志着科研场景下的人工智能正从任务级应用迈向工作流级自动化的新阶段。然而现有系统仍存在显著碎片化特征：在自主性程度、领域覆盖范围、执行环境、验证机制及人类监督模式等方面存在差异，同时面临证据留存性、可重复性、弱方向拒绝机制、溯源追踪能力、跨领域鲁棒性以及负责任科研闭环等核心挑战。本综述通过定义"自动科研"（AutoResearch）这一概念——即人工智能驱动的科学工作流自动化技术演进谱系——来系统审视这些发展。其中，"氛围科研"（Vibe Research）指代人类主导的提示驱动型辅助与人工验证执行模式，而新兴的人工智能主导系统虽能协调发现循环中的更大环节，但尚未实现稳健自主。我们分析研究系统如何在流程中重新分配控制权、证据链、执行机制、验证环节与问责机制，并围绕五个工作流条件构建该领域研究框架：文献与科研依据确立；假设形成与规划；实验执行与工具运用；反馈、验证与同行评议；报告撰写与知识传播。此外，我们系统梳理了人工智能科学家系统、混合主动协作研究框架、基准测试、领域部署案例及开源基础设施。最后，我们提出新颖性、有效性、影响力、可靠性及溯源能力五个评估维度，并论证自动科研的自主性具有领域依赖性——在结构化、可执行且可快速验证的场景中更具可信度，但在具身化、长周期、异质性、伦理敏感性或制度问责性要求较高的情境中仍存在显著局限。

你的嵌入模型比你想象中更聪明
Your Embedding Model is SMARTer Than You Think

May 24

ByJianrui Zhang, Hyun Jung Lee, Sukanta Ganguly, Tae-Eui Kam, Donghyun Kim, Yong Jae Lee

多模态检索高度依赖于单向量检索器，这类模型将丰富的顺序性令牌序列压缩为单一的全局表征。尽管效率可观，但它们丢弃了密集检索任务中至关重要的细粒度局部证据。多向量方法作为解决方案被提出，但严格依赖训练过程，且许多方法忽视了全局摘要表征的必要性。为此，我们提出SMART框架——一种能够解锁标准单向量模型潜在多向量能力的方案。首先证明，对池化嵌入执行标准对比训练时，通过梯度流会隐式塑造前序隐藏状态的检索几何结构。在推理阶段直接对冻结的隐藏状态应用后期交互操作后，SMART作为即插即用型升级方案，能在不同模态上持续提升性能，甚至在MMEB-V2基准上进一步改进现有最优模型。我们还揭示了SMART的卓越性能：轻量级后训练不仅节省时间与计算资源，更能显著提升视觉文档检索效果，使单向量模型超越当前最优的多向量同类模型。最终，SMART为多模态检索同时提供了高效推理增强范式与强大的微调技术。我们已在https://github.com/HanSolo9682/SMART 开源代码与权重。

Pantheon360: 通过3D感知的360度视频扩散驾驭数字孪生生成
Pantheon360: Taming Digital Twin Generation via 3D-Aware 360° Video Diffusion

May 25

ByTing-Hsuan Chen, Ying-Huan Chen, Tao Tu, Jie-Ying Lee, Cho-Ying Wu, Fangzhou Lin, Hengyuan Zhang, David Paz, Xinyu Huang, Yuliang Guo, Yu-Lun Liu, Yue Wang, Liu Ren

从视频生成完整数字孪生需要精确的相机控制、全局场景覆盖以及严格的时空一致性约束，而这些对于视角有限的透视视频生成器仍具挑战性。其狭窄视场角迫使采用长轨迹或多视角路径，从而加剧跨视角不一致性与时间漂移。我们认为360°视频生成提供了一种自然解决方案：全景覆盖简化了轨迹设计，并为维持连贯性提供了强大的全局上下文。我们提出Pantheon360：通过3D感知的360°视频扩散驾驭数字孪生生成——一个可控的360°视频生成框架，能够从稀疏的360°输入合成高保真视频。其核心思想是显式3D缓存（由输入重建而来），该缓存作为任意用户定义相机路径的几何支架。这使得扩散模型能够专注于照片级纹理细化，同时3D缓存保障全局几何一致性。实验表明，Pantheon360实现了卓越的视觉质量和无与伦比的几何连贯性，为下游仿真和数字孪生应用提供了可靠且灵活的360°场景生成能力。

CUA-Gym：面向计算机使用代理的可验证训练环境与任务的规模化扩展
CUA-Gym: Scaling Verifiable Training Environments and Tasks for Computer-Use Agents

May 25

ByBowen Wang, Dunjie Lu, Junli Wang, Tianyi Bai, Shixuan Liu, Zhipeng Zhang, Haiquan Wang, Hao Hu, Tianbao Xie, Shuai Bai, Dayiheng Liu, Que Shen, Junyang Lin, Tao Yu

基于可验证奖励的强化学习（RLVR）已在数学、工具使用和软件工程等领域取得突破性进展，但其向计算机用户代理（CUA）的拓展始终受限于可扩展训练数据的稀缺性——这类数据需具备确定性奖励。构建此类数据要求同时满足任务指令一致性、环境可执行性及奖励可验证性。然而，人工精选基准虽能保证高奖励保真度，但覆盖应用场景有限；基于大语言模型（LLM）评判器的数据集虽可大规模扩展，却缺乏可靠验证。我们提出CUA-Gym，一种可扩展流水线，能够协同生成任务指令、环境状态与奖励函数。具体而言，生成器代理构造初始环境状态与理想环境状态，独立的判别器代理则根据任务规范编写奖励函数。编排器代理驱动两者通过迭代执行循环交互。生成的元组最终需通过结合LLM多数投票与代理推演的综合筛选，确保每项任务的对抗循环之外的质量。为解决训练环境稀缺问题，我们进一步构建CUA-Gym-Hub（基于真实软件使用分布的高保真模拟Web应用套件），将CUA RLVR数据规模提升了一个数量级。利用该流水线，我们构建了包含32,112个可验证RLVR训练元组、覆盖110个环境的CUA-Gym数据集。经GSPO在CUA-Gym上训练后，我们的CUA-Gym-A3B与CUA-Gym-A17B模型在OSWorld-Verified基准上分别取得62.1%与72.6%的准确率，超越同等规模的开源CUA模型，且性能随数据量与环境多样性平滑增长。相同检查点在保留的WebArena基准上同样表现提升，表明训练环境之外的迁移能力。我们将开源完整合成流水线、数据集、CUA-Gym-Hub环境及模型。

ControlLight：迈向可控、一致且可泛化的低光增强
ControlLight: Towards Controllable, Consistent, and Generalizable Low-Light Enhancement

May 25

ByYufeng Yang, Jianzhuang Liu, Jisheng Chu, Yuqi Peng, Xianfang Zeng, Jiancheng Huang, Shifeng Chen

现有基于深度学习的低光照增强方法通常使用有限的数据集和单一的增强目标进行训练，这限制了它们在真实场景中的泛化能力和可控性。为克服这些局限，我们提出ControlLight——一种可控、一致且可泛化的低光照增强框架。我们首先构建了一个包含连续光照强度监督的大规模真实退化图像数据集。为确保在不同控制强度下输出结果的一致性，我们引入了一种对齐感知加权流匹配损失，该损失能在连续增强强度下保持图像结构。ControlLight允许用户通过灵活控制增强强度，在保持视觉一致性与真实性的同时，将真实场景的低光照退化图像编辑至满意的增强效果。大量实验表明，ControlLight在低光照增强任务上达到了现有方法的最优性能，并展现出强大的连续可控性和对真实场景的泛化能力。

万物爪取：对具有更广泛数字世界访问权限的始终在线个人助手的基准测试
Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World

May 25

ByYusong Lin, Xinyuan Liang, Haiyang Wang, Qipeng Gu, Siqi Cheng, Jiangui Chen, Shuzhe Wu, Feiyang Pan, Lue Fan, Sanyuan Zhao, Dandan Tu

大语言模型智能体正日益被设想为始终在线的个人助手，能够访问用户数字世界中所有相关信息。然而，当前系统仅在该世界的狭小范围内运行，限制了基于上下文的推理和有效协助。现有基准测试同样仅提供部分用户状态，因此无法涵盖这种广泛且始终在线的场景下的性能表现。为填补这一空白，我们提出了Claw-Anything基准测试，该测试从三个维度扩展了智能体的上下文：长时间跨度的活动历史、相互依赖的后端服务、以及跨多设备的图形用户界面与命令行界面集成交互。为实例化该场景，我们通过多轮事件注入模拟了数月的用户活动，生成了复杂的世界状态和真实的噪声，包括无关事件和冲突信号。智能体需在丰富的上下文环境中进行推理，同时保持对这类噪声的鲁棒性。这一扩展范围还使主动协助的评估成为可能，要求智能体预测用户需求并提供及时建议。实验表明，GPT-5.5的pass@1仅达34.5%，远低于先前基准测试的结果，凸显了当前智能体能力与始终在线个人助手需求之间的差距。伴随该基准测试，我们发布了一个自动化数据生成管道，可产出2000个训练环境，并将基础模型性能提升23.7%，证明了可扩展数据基础设施的实用性。

预见与学习：释放主动型代理中的空闲时间计算
Anticipate and Learn: Unleashing Idle-Time Compute in Proactive Agents

May 25

ByHaoyi Hu, Qirong Lyu, Xianghan Kong, Weiwen Liu, Jianghao Lin, Zixuan Guo, Yan Xu, Yasheng Wang, Weinan Zhang, Yong Yu

尽管AI代理在推理和工具使用方面展现出卓越的能力，但它们本质上仍是被动的：仅在收到明确的用户提示后才计算响应。这一范式忽略了一个关键机遇：交互之间的空闲时间基本被浪费，导致代理无法为未来的用户需求做好准备。为弥补这一差距，我们提出ProAct——一种利用空闲期计算来预测并满足用户即将产生的需求的主动代理架构。通过分析不断演进的对话历史与持久化记忆，ProAct能够预测即将出现的需求，并迭代获取信息，从而在用户发起查询前解决知识盲区并准备证据。为严格评估主动能力，我们还引入ProActEval——一个涵盖40个领域200个场景的综合基准测试，包含可预测的需求链和多样化的用户认知特征。实证结果表明，与被动基线相比，ProAct具有显著优势：在ProActEval上，它将完成任务所需的交互轮次减少14.8%，用户工作量降低11.7%，幻觉率下降28.1%。此外，MemBench评估证实ProAct在反思准确性上达到最先进水平，凸显其持续且稳健的性能。

用于自回归视频生成的在策略对抗流蒸馏
On-Policy Adversarial Flow Distillation for Autoregressive Video Generation

May 25

ByYang Luo, Shengju Qian, Xiaohang Tang, Zirui Zhu, Yong Liu, Xin Wang, Yang You

自回归视频生成器因其对流式、长程及交互式应用的吸引力而备受关注，但将强大的黑盒教师模型蒸馏为因果学生模型仍面临挑战。学生需在其自身展开分布下学习，而实际教师可能仅提供基于提示条件生成的完整视频，且在架构、容量、时间设计及采样调度上存在差异。这种接口使得监督微调成为离策略行为，基于分数的蒸馏方法无法适用，直接对抗模仿在去噪时间信用分配上过于稀疏。为此，我们提出对抗性流蒸馏（AFD），一种面向异质黑盒视频蒸馏的在策略框架。AFD对相同提示同时查询教师模型并展开当前学生模型，训练一个配对提示的Bradley-Terry判别器以估计干净样本上的师生差异，并将所得的在策略优势转化为学生自身含噪状态上前向过程的流匹配更新。因此，AFD提供了密集的速度场监督，且无需教师分数、潜在变量、去噪轨迹、步长对齐或反向链强化学习。在两个因果自回归学生家族上的实验表明，AFD在保持整体视频质量的同时，持续提升了运动及物理敏感性生成效果；消融实验验证了自适应在策略反馈与前向过程信用分配的重要性。该方法仅需干净教师视频与学生展开结果，为将专有或异质视频生成器蒸馏为高效自回归学生提供了一条实用路径。

SkillEvolBench：从情景经验到程序性技能的进化基准测试
SkillEvolBench: Benchmarking the Evolution from Episodic Experience to Procedural Skills

May 22

ByYingtie Lei, Zhongwei Wan, Jiankun Zhang, Samiul Alam, Zixuan Zhong, Peizhou Huang, Xin Wang, Jingxuan Zhang, Donghao Zhou, Yunta Hsieh, Zhihao Dou, Hui Shen, Yan Xu, Dimitrios Dimitriadis, Tuo Zhang, Mi Zhang

大型语言模型（LLM）智能体在解决现实任务时会积累丰富的回合式轨迹，但这些经验能否被提炼为可重复使用的程序化技能仍不明确。我们提出了SkillEvolBench，一个用于评估从经验复用走向技能形成这一环节的诊断性基准。该基准包含跨越六个真实智能体环境的180个任务，这些任务被组织成基于角色条件、共享潜在程序的任务族。智能体从习得任务中学习，利用压缩轨迹和验证器反馈更新外部技能库，随后在冻结部署任务中面临上下文迁移、对抗性捷径及组合等挑战。通过将自生成技能演进和策划初始技能演进与无技能基线及原始轨迹基线进行对比，SkillEvolBench能够将程序化抽象能力与基础能力、策划先验知识以及回合式痕迹的直接复用分离开来。在十种模型配置和三种智能体框架下，我们发现当前智能体往往仅能进行局部适应，极少形成稳健的可复用技能。基于技能的条件可以改进习得或回放过程，个别模型有时也能在特定部署维度上取得提升，但这些提升在冻结部署条件下并不稳定。原始轨迹复用的表现通常优于提炼后的技能，这表明当前的抽象过程丢弃了对未来任务仍有用的上下文和程序线索。能力和成本分析进一步表明，编写更多技能或更大的三级资源库并不足够：额外的更新虽能提升覆盖范围，却会引入回合特定偏移和程序杂乱。这些发现将SkillEvolBench定位为一个衡量一次性经验何时能转化为持久程序化知识而非任务局部记忆的测试平台。

逐通道向量量化
Channel-wise Vector Quantization

May 25

ByWei Song, Tianhang Wang, Yitong Chen, Tong Zhang, Zuxuan Wu, Ming Li, Jiaqi Wang, Kaicheng Yu

我们提出通道级向量量化（CVQ），这是一种新颖的图像分词范式，用通道级标记取代了补丁级标记。与传统的向量量化（为每个补丁特征向量分配离散标记）不同，CVQ对特征图的每个通道进行量化。这种表示方式将图像呈现为视觉细节的离散层级，而非空间补丁的网格。基于CVQ，我们引入了一种采用“下一通道预测”的新视觉自回归框架。我们的通道级自回归（CAR）模型不再按照光栅顺序逐补丁渲染图像，而是依次预测图像通道，逐步生成更丰富的视觉细节。具体而言，它首先勾勒全局结构，然后细化精细属性，类似于人类艺术家的创作流程。实验表明：（1）CVQ在无任何额外技巧的情况下，实现了16K+码本大小的100%码本利用率，并显著提升了传统VQ的重建质量；（2）CAR的DPG分数达到86.7，GenEval分数达到0.79，在文本到图像生成任务中展现出强大的有效性。

MemForest：一种具有层次化时间索引的高效智能体记忆系统
MemForest: An Efficient Agent Memory System with Hierarchical Temporal Indexing

May 16

ByHan Chen, Zining Zhang, Wenqi Pei, Bingsheng He, Ming Wu, Jason Zeng, Michael Heinrich, Wei Wu, Hongbao Zhang

记忆是实现长上下文LLM代理的基础组件，通过持续的“服务-更新”生命周期支持跨交互的持久状态。尽管已有大量工作，现有系统仍因两大关键限制承受显著维护开销：粗粒度的状态管理与固有的顺序更新流水线。具体而言，更新往往与LLM推理紧密耦合且需要全状态重写，导致随着记忆积累而出现扩展性差、延迟增长的问题。为应对这些挑战，我们提出MemForest——一种将代理记忆重构为写高效时序数据管理问题的记忆框架。MemForest通过并行分块提取打破顺序瓶颈，将记忆构建解耦为并发独立操作。为进一步消除粗粒度维护，我们引入MemTree——一种分层时间索引，将记忆组织为时间有序树结构而非扁平全局摘要。该设计以局部化节点更新替代全状态重写，将维护开销降至受影响的树路径，同时自然保留随时间演变的状态。我们在两个长上下文记忆基准LongMemEval-S和LoCoMo上评估MemForest。在LongMemEval-S中，MemForest在有状态基线中取得最佳整体性能，达到79.8%的pass@1准确率，同时记忆构建吞吐量比包括EverMemOS在内的最先进方法高约6倍。

几何感知图像流匹配
Geometry-Aware Image Flow Matching

May 24

ByJunho Lee, Kwanseok Kim, Joonseok Lee

近期生成模型的进展突显了几何感知建模在流形约束场景中的强大潜力。然而在自然图像领域，相关研究仍局限于欧几里得假设，未能充分发掘数据内在几何结构的潜力。本研究通过探索自然图像的几何特性发现，语义信息主要编码于方向性分量中，而范数分量可近似为全局平均值。该特性在RGB空间与潜在空间中均成立，表明自然图像可在超球面上进行有效建模。基于此发现，我们提出球面最优传输流匹配（SOT-CFM）与球面流匹配（SFM）方法，前者利用角度距离，后者直接在流形上约束动力学过程。实验证明，这些几何感知方法相较于欧几里得基线取得了更优性能。最终，本研究为连接黎曼流形建模与自然图像生成之间的理论鸿沟提供了全新视角。

InstructSAM: 通过任意指令分割任意实例
InstructSAM: Segment Any Instance with Any Instructions

May 25

ByYuqian Yuan, Wentong Li, Zhaocheng Li, Yutong Lin, Juncheng Li, Siliang Tang, Jun Xiao, Yueting Zhuang, Wenqiao Zhang

本文提出InstructSAM——一个统一且精简的框架，旨在实现任意指令下的多实例分割。我们将指令驱动的实例分割形式化为集合结构的查询预测问题，并提出一种显式的推理到实例查询接口，优雅地桥接了视觉语言模型（VLM）与SAM3。具体而言，一组可学习的实例查询被注入VLM中，并与指令及视觉信息进行上下文关联，使每个查询充当实例感知的插槽。混合注意力机制进一步促进这些查询、视觉令牌与指令令牌之间的交互，从而改进实例枚举并减少重复预测。最终由大语言模型条件化的查询被投影到SAM3的检测器查询空间，仅需单次前向传播即可驱动精确的多实例分割。该设计在不修改核心架构的前提下，赋予SAM3高阶指令理解、组合推理及实例级集合预测能力。为支持训练与评估，我们进一步构建了Inst2Seg——一个高质量大规模指令驱动实例分割数据集与基准，将自由形式指令与实例级掩码相结合。大量实验表明，仅2B规模参数的InstructSAM在复杂指令驱动及短语级指代分割基准上均取得强劲结果，超越了此前端到端方法及SAM3的代理流程管线，同时实现了高效的单次多实例预测。

忠实度指标并不衡量忠实性：一项基于真值数据的元评估
Faithfulness Metrics Don't Measure Faithfulness: A Meta-Evaluation with Ground Truth

May 24

ByYoav Gur-Arieh, Ana Marasović, Mor Geva

思维链（CoTs）已成为解释和审计大型语言模型行为的核心工具。然而，越来越多证据表明，这些推理轨迹往往无法真实反映模型预测背后的计算过程。虽然已有若干忠实度指标被提出，但这些指标是否真正衡量了忠实度仍属未知。要回答该问题需要真实标签，但由于内部计算过程不可直接观测，获取此类标签十分困难。因此，大多数提出新指标的研究仅报告绝对分数或与以往指标的对比结果，而现有的少数基准测试则依赖于合理性或重要性等代理变量——这些与忠实度正交的属性可能会误导对思维链可信度的判断。为解决这一挑战，我们构建了输出结果能揭示其产生过程中必要中间计算步骤的任务，并开发了自动化标注流程，可在步骤级和思维链级生成真实的忠实度标签。基于该方法，我们提出了BonaFide基准测试——涵盖13个任务、10个模型的3066条带标签思维链，并首次系统评估了主流忠实度指标。实验表明，多数指标表现接近随机猜测，存在显著预测偏差，且在较长思维链上性能下降。最佳指标在思维链层面仅达到0.70 AUROC，另一指标在步骤层面为0.59 AUROC，两者既无法跨场景迁移，又需承担高昂的计算成本。我们的研究结果揭示了当前忠实度评估的根本性缺陷，亟需开发更可靠高效的评估指标。

语言模型需要睡眠
Language Models Need Sleep

May 25

BySangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti

基于Transformer的大型语言模型越来越多地被用于长程任务，但其注意力机制随上下文长度扩展时性能下降严重。为解决此问题，我们研究了一种类似睡眠的巩固机制：模型在清除键值缓存前，周期性地将近期上下文转化为持久性快速权重。在睡眠阶段，模型对累积的上下文执行N次离线循环处理，并通过习得的局部规则更新其状态空间模型（SSM）模块中的快速权重。在推理时，该机制将额外计算转移至睡眠阶段，同时保持清醒时刻预测的延迟不变。我们在受控合成任务（包括元胞自动机和多跳图检索）以及一项现实数学推理任务上测试了该方法——在这项任务中，常规Transformer及SSM-注意力混合模型均告失败。进一步研究表明，增加睡眠时长N会提升我们模型的性能，且对需要更深层推理的样本提升效果最为显著。

Helix4D：复杂四维网格生成
Helix4D: Complex 4D Mesh Generation

May 25

ByJiraphon Yenphraphai, Jianqi Chen, Jian Wang, Gordon Qian, Sergey Tulyakov, Rameen Abdal, Raymond A. Yeh, Peter Wonka, Chaoyang Wang

当前视频到4D方法在处理复杂拓扑变化、透明材质、薄壁结构及内表面时面临挑战。我们提出Helix4D——一种动态网格生成框架，通过继承Trellis2的表达能力，将其从图像到3D的生成范式扩展至视频条件驱动的4D生成。我们的设计源于两个关键问题：(a) 如何在保留Trellis2对透明物体与内表面等罕见案例预训练质量的前提下，实现帧间信息的跨帧共享；(b) 如何在不破坏预训练能力的情况下，将时序信息注入纯3D位置编码。针对问题(a)，我们提出滑动窗口跨帧注意力机制，并以首帧为锚点。首帧由基础Trellis2模型生成后注入框架，通过跨帧注意力继承其在罕见案例中的生成质量。针对问题(b)，我们提出4D时序编码方案，将冗余的低频空间RoPE频带重新用于时序编码，以零参数开销将3D编码扩展至4D空间。大量实验表明，Helix4D在ActionBench及我们构建的高难度复杂动态数据集上，均可高效生成高质量动态网格。

CRONOS：视频模型中反事实物理一致性的基准测试
CRONOS: Benchmarking Counterfactual Physical Consistency in Video Models

May 22

ByLeón Begiristain, Olaf Dünkel, Adam Kortylewski

视频预测日益被视为迈向通用世界模型的一条路径，然而目前尚不明确这些系统是学习了底层的因果结构，还是仅仅利用了表面的视觉相关性来进行未来预测。我们提出了CRONOS——一个基于干预的基准测试，旨在评估反事实物理一致性：即模型对物理事件的预测是否会根据视觉输入中的受控变化（例如场景上下文、视角、物体外观和物体类别的变化）做出适当响应。CRONOS基于照片级逼真的Unreal Engine环境构建，能够跨不同场景和动力学过程生成受控的高保真视频。与以往的基准测试不同，CRONOS系统性地对四个关键因素——视角、场景、物体类别和物体外观——进行干预，同时保持潜在的物理事件类型（如碰撞、遮挡或坠落）不变。我们针对近期开源视频生成器的评估显示，它们在反事实物理一致性方面存在重大缺陷：同一物理事件类型的预测质量会受到外观、环境，尤其是视角变化的影响。CRONOS提供了一个可控且可重复的测试平台，用于诊断不同干预下生成视频质量的变化方式，从而为开发能在多种条件变化下保持性能一致的模型确立了具体目标。该数据集和代码可在我们的项目页面上获取。

MetaphorVU：迈向隐喻视频理解
MetaphorVU: Towards Metaphorical Video Understanding

May 25

ByZhuoqun Li, Boxi Cao, Guiping Jiang, Fangrui Lv, Ruotong Pan, Jianan Wang, Xiangyu Wu, Hongyu Lin, Yaojie Lu, Yong Du, Ruyin Jia, Liyan, Tingting Gao, Han Li, Xianpei Han, Le Sun

隐喻视频在现实场景中广泛存在，用于传达复杂概念，而理解这类视频通常需要高阶认知能力。由于缺乏对隐喻视频理解的系统性研究，这不仅制约了多模态大语言模型（MLLMs）在真实场景中的适用性，也阻碍了对其高阶认知能力的全面评估。为解决这一空白，我们提出MetaphorVU-Bench——首个系统且全面的隐喻视频理解基准。实验发现，当前MLLMs难以准确理解隐喻视频，其能力远低于人类水平，主要原因在于跨域映射存在缺陷。基于此发现，我们构建了隐喻知识图谱作为映射增强手段，并提出MetaphorBoost——一种推理时增强框架，能够持续提升模型性能。我们的基准、分析与方法为未来推动MLLMs发展的研究提供了有益洞见与基础。

面向定制化的多模态角色扮演
Towards Customized Multimodal Role-Play

May 1

ByChao Tang, Jianzong Wu, Qingyu Shi, Ye Tian, Aixi Zhang, Hao Jiang, Jiangning Zhang, Yunhai Tong

统一的多模态理解与生成模型能够实现更丰富的人机交互。然而，在跨模态保持输出一致性的同时，联合定制角色的个性、对话风格和视觉身份，在很大程度上仍未得到探索。为弥补这一空白，我们引入了一项新任务：定制化多模态角色扮演（CMRP）。我们构建了包含20个角色的RoleScape-20数据集，涵盖个性、风格描述、视觉/表情提示以及文本-图像交互的训练与评估数据。基于统一模型，我们设计了UniCharacter，这是一个包含统一监督微调（Unified-SFT）和角色特定组相对策略优化（Character-GRPO）的两阶段训练框架。仅需10张图像及对应的交互示例，模型即可习得目标角色，并在生成的文本与图像中展现出一致的个性、风格及视觉身份。该过程约需100 GPU小时。在RoleScape-20数据集上的实验表明，所提出的方法显著优于先前的方法。消融研究进一步验证了我们的跨模态一致性设计与少样本定制策略的有效性。我们认为，CMRP结合统一建模，为下一代富有角色感且沉浸式的交互智能体奠定了基础。

在推理时将图像引导注入文本条件扩散模型
Injecting Image Guidance into Text-Conditioned Diffusion Models at Inference

May 24

ByAgata Żywot, Iason Skylitsis, Thijmen Nijdam, Zoe Tzifa-Kratira, Derck Prinzhorn, Konrad Szewczyk, Aritra Bhowmik

像稳定扩散模型（Stable Diffusion）这样的文本到图像扩散模型虽然能根据文本生成高质量图像，但在推理过程中缺乏无需重新训练即可注入视觉引导（如草图、风格）的能力。现有方法要么需要计算成本高昂的微调，要么依赖可能造成与文本提示语义错位的风格迁移技术。我们提出视觉概念融合（Visual Concept Fusion, VCF），这是首个在推理过程中无需任何特定概念训练即可对图像和文本提示进行双重条件约束的方法。VCF通过将CLIP图像特征与文本嵌入空间对齐，实现向稳定扩散模型注入视觉概念。VCF包含三个组件：（1）一个轻量级对齐器，利用InfoNCE和交叉注意力重建损失将图像令牌映射到文本嵌入流形；（2）一种保留文本与视觉语义的融合策略；（3）一个可选的提示噪声优化（Prompt-Noise Optimization, PNO）模块，用于测试时精细化处理。实验表明，VCF成功从参考图像迁移了风格、构图和配色等视觉属性，同时保持对提示的遵循。量化结果展示了文本对齐（CLIP评分）与视觉对应（LPIPS）之间的权衡，且VCF在参考保真度上优于基线方法。

噪声着色：对抗性索博列夫对齐实现忠实图像超分辨率
Coloring the Noise: Adversarial Sobolev Alignment for Faithful Image Super Resolution

May 22

ByHongbo Wang, Huaibo Huang, Pin Wang, Jinhua Hao, Chao Zhou, Ran He

在图像超分辨率（SR）中，生成先验往往以牺牲忠实重建为代价，我们将这一局限归因于各向同性目标函数与内在自然图像流形之间的根本性频谱失配。尽管直接偏好优化为对齐提供了路径，但其依赖频谱平坦的高斯噪声，无法区分真实高频细节与幻觉。为弥合这一几何鸿沟，我们提出ASASR——一个具有理论基础框架的方法，通过显式着色噪声转移核以镜像自然的频谱衰减，从而将生成流重塑为Sobolev诱导的黎曼几何。为驱动这一几何对齐，我们集成了一个基于Riesz表示定理的参数化对抗机制，该机制合成针对性的负样本，其等价于最坏情况下的Sobolev梯度，从而沿可能结构失效的切空间引导优化。大量评估表明，ASASR在保持频谱一致性和结构保真度方面优于主流生成基线方法，提供了有效缓解伪影的稳健解决方案。

SEAL：智能体与学习环境的协同共进化
SEAL: Synergistic Co-Evolution of Agents and Learning Environments

May 23

ByYihao Hu, Zhihao Wen, Xiujin Liu, Pan Wang, Xin Zhang, Wei Wu

大型语言模型（LLM）代理通过交互不断改进，但现有的大多数自我进化方法仅单独调整策略或学习环境。我们识别出这种结构性的缺陷为"代理-环境失配"：代理的能力边界在训练过程中发生变化，而提供监督的环境仍保持静态，或仅与代理暴露出的失效弱耦合。我们提出SEAL，一种面向交互式工具使用代理的闭环协同进化框架。SEAL在可执行验证下收集在策略轨迹，将失败的轨迹诊断为回合级失效标签，并将这些诊断作为环境端适配与模型端策略优化的共享信号。环境通过暴露更清晰的工具功能线索、约束信息以及面向恢复的反馈来进化其训练时的学习接口，而策略则通过诊断引导的优势加权进行更新。在分布内和分布外多轮工具使用评估中的大量实验表明，SEAL能改进低资源代理学习：仅使用400个训练样本，便能在三个骨干模型上实现平均得分提升8.25至26.25个百分点，并展现出正向的分布外迁移能力。这些结果证明，联合调整学习者及其训练时学习基底对于构建鲁棒的自改进LLM代理具有重要价值。

CoSPlay：测试时基于自生成代码与单元测试的协作自我博弈
CoSPlay: Cooperative Self-Play at Test-Time with Self-Generated Code and Unit Test

May 22

ByZhangyi Hu, Chenhui Liu, Tian Huang, Jindong Li, Yang Yang, Jiemin Wu, Zining Zhong, Menglin Yang, Yutao Yue

近期，可验证奖励的强化学习（RLVR）与测试时扩展（TTS）通过可执行验证推进了LLM代码生成。然而，真实单元测试（GT UTs）仍是瓶颈：最先进的RLVR方法需要GT UTs进行昂贵训练，而现有TTS方法若缺乏GT UTs将失去竞争力。这推动了无GT的TTS研究，现有方法直接使用自生成单元测试来优化和筛选代码候选。然而，此类单元测试往往包含噪声或与错误代码存在虚假关联，且因缺乏可靠代码而无法验证单元测试质量。因此，关键挑战在于同时改进两者。为此，我们提出CoSPlay——一种无需GT、无需训练的框架，通过合作性自我博弈共同优化代码与单元测试。该方法首先探索多样化解题思路，识别其潜在失败模式以生成判别性单元测试思路；随后利用代码-单元测试执行矩阵中的双向通过计数信号，迭代剪枝或修复薄弱代码，更新或替换不可靠单元测试，使两个池协同进化。最终，当多个代码在最高通过计数上并列时，从最大输出一致性聚类中选取最终代码——因为正确代码对相同输入产生一致输出，而错误代码则产生分歧。在四个挑战性基准上的实验表明，基于Qwen2.5-7B-Instruct的CoSPlay将平均BoN从22.1%提升至33.2%，单元测试准确率从14.6%提升至78.3%，匹配甚至超越RLVR模型CURE-7B。当应用于CURE-7B时，BoN进一步提升5.7%。CoSPlay还可泛化至不同骨干模型，在可比令牌预算下优于无GT的TTS基线，且随预算扩展持续增益。这些结果表明，无需任何GT数据即可实现具有竞争力的代码生成的可扩展推理策略。

通过奖励倾斜分布匹配强化少步生成器
Reinforcing Few-step Generators via Reward-Tilted Distribution Matching

May 25

ByYushi Huang, Xiangxin Zhou, Ruoyu Wang, Chi Zhang, Jun Zhang, Tianyu Pang

少步扩散蒸馏的最新进展已实现高效图像生成，但让这些模型与人类偏好对齐仍具挑战性。我们提出奖励倾斜分布匹配蒸馏（RTDMD）——一种用于少步流生成器的两阶段框架，将分布匹配蒸馏与奖励引导的强化学习相统一。研究表明，最小化与奖励倾斜教师分布的KL散度可自然分解为分布匹配项和奖励最大化项。在第一阶段，我们引入环境一致分布匹配蒸馏（AC-DMD），通过子区间分布匹配，并采用一致性正则化增强伪评分目标，帮助伪评分模型在有限更新次数下追踪动态变化的生成器分布。第二阶段联合优化两项：针对奖励最大化项，我们推导出混合策略梯度，将针对随机中间过渡的GRPO风格估计器与通过确定性最后步骤的直接奖励反向传播相结合，并进一步引入步骤子集GRPO（SubGRPO）以降低方差。在SD3、SD3.5和FLUX.2上的实验表明，RTDMD仅需4步推理即可在偏好、美学和组合度量上创下新的最佳结果，超越先前少步文本到图像生成方法。代码和模型见https://github.com/Harahan/RTDMD。

他们会走多远？利用大型语言模型进行在线影响力的红队测试
How Far Will They Go? Red-Teaming Online Influence with Large Language Models

May 20

ByDaniel C. Ruiz, Anna Serbina, Ashwin Rao, Emilio Ferrara, Luca Luceri

随着基于大语言模型（LLM）的智能体越来越多地参与在线讨论，对其支持政治影响力活动的能力进行红队测试对于信息完整性至关重要。为实现这一目标，我们聚焦于本地部署的开源LLM（而非仅通过API访问的尖端模型），因为前者更符合注重隐私的恶意行为者在社交媒体环境中部署时的操作限制。我们引入了一个实证红队测试框架，用于测量LLM的奥弗顿窗口（OW），即模型在有争议话题上能可靠表达的政治观点范围，并量化简单自然语言越狱如何扩展该范围。我们评估了来自10个模型家族、五个原产国的30多个LLM。研究发现政治表达存在系统性不对称：开源LLM通常更倾向于生成左倾社交媒体内容；奥弗顿窗口往往随模型规模增大而收缩；尽管开源生态系统中代表性不均衡，区域差异仍显著。越狱效果在不同模型家族间差异极大，这促使我们建立了一种识别越狱技术有效组合的工作流程。综合来看，我们的研究结果为审计开源LLM的政治可操控性提供了实用框架，并有助于未来研究者针对LLM赋能的影响力活动设计更强大的反制措施。

方向性对齐缓解语言模型强化学习中的奖励劫持
Directional Alignment Mitigates Reward Hacking in Reinforcement Learning for Language Models

May 24

ByWenlong Deng, Jiaji Huang, Kaan Ozkara, Yushu Li, Christos Thrampoulidis, Xiaoxiao Li, Youngsuk Park

奖励黑客现象出现于模型通过利用捷径而非解决预期任务来提升代理奖励时。我们通过语言模型中强化学习更新的几何结构研究这一失效模式，并论证当优化偏离稳定的低维学习轨迹时，黑客行为随之产生。通过参数更新的主导奇异方向分析这种偏移，我们发现奖励黑客实验相较于干净实验表现出显著更大的方向性变化。基于此观察，我们引入可信方向投影，该方法将梯度约束在干净参考子空间内。在数学推理任务的奖励黑客实验中，所提方法有效延迟了捷径利用，并更好地保留了任务性能。

SemBridge：通过多语言语义桥的稀疏编码器语言迁移
SemBridge: Language Transfer in Sparse Encoders via Multilingual Semantic Bridges

May 25

BySeongtae Hong, Youngjoon Jang, Jia-Heui Ju, Hyeonseok Moon, Heuiseok Lim

稀疏编码器通过在词汇空间中表示词汇重要性来实现高精度检索，但其以英语为中心的结构对非英语语言的迁移构成了关键性障碍。为克服这一结构性限制，我们提出SemBridge——一种新颖的嵌入初始化方法，通过利用多语言桥接模型实现稀疏编码器的跨语言适应。SemBridge以多语言稠密嵌入为桥梁，在源语言与目标语言词汇之间建立语义对齐。不同于直接依赖所有源语言词元，SemBridge选取少量语义相关的源语言词元，并利用它们初始化每个目标语言词元，从而有效过滤语义噪声，将目标词元重构为核心同义词的精确线性组合。这加速了微调过程中的收敛并提升训练效率。涵盖五种语言和四种稀疏架构的大量实验表明，与现有基线方法相比，SemBridge在零样本检索中表现更优，且微调后持续提升检索性能。这些结果验证了SemBridge作为在不同语言环境中部署高性能稀疏检索系统的实用解决方案。

SimuWoB: 模拟真实世界移动应用以进行快速且忠实的GUI代理基准测试
SimuWoB: Simulating Real-World Mobile Apps for Fast and Faithful GUI Agent Benchmarking

May 24

ByGuohong Liu, Jialei Ye, Pengzhi Gao, Wei Liu, Jian Luan, Yunxin Liu, Yuanchun Li

基于大语言模型的移动图形用户界面智能体发展迅速，亟需真实全面的评估方法。现有基准测试虽注重可复现性，但常局限于开源应用或文件操作任务——这源于在真实应用上构建奖励机制的困难，导致基准测试设置与现实使用存在差距。此外，多数基准聚焦于基础定位与导航功能，对复杂长期交互场景的覆盖有限。为突破这些局限，我们提出SimuWoB——一个全合成的移动GUI智能体基准测试，包含120项覆盖多类型与难度等级的挑战性任务。我们构建了稳健的虚拟环境生成框架，可合成高保真任务与环境，并自动为每项任务提供有效奖励。每个环境作为无后端网页部署并通过URL访问，支持高效可复现的评估。我们针对多个前沿移动GUI智能体开展了全面实验，平均成功率仅为27.92%，在长期任务中降至17.82%，揭示了当前智能体在复杂场景下的显著缺陷。与现实样本任务的评估结果对比表明，基于合成环境的智能体评估具有良好的泛化性。我们进一步提供了关键能力维度的诊断性分析，并探讨了对未来移动GUI智能体开发的启示。

表示学习优先于路由：克服多时间尺度PPO中的代理目标攻击
Representation over Routing: Overcoming Surrogate Hacking in Multi-Timescale PPO

May 21

ByJing Sun

强化学习中的时间信用分配一直是一个核心挑战。受神经生物学中多巴胺系统多时间尺度编码的启发，近期研究试图在演员-评论家架构（如近端策略优化，PPO）中引入多个折扣因子，以平衡短期响应与长期规划。然而，本文揭示，在复杂的延迟奖励任务中盲目融合多时间尺度信号会导致严重的算法病理现象。我们系统性地证明，将时间注意力路由机制暴露于策略梯度会导致替代目标攻击，而采用无梯度不确定性加权则会引发不可逆的短视退化——我们将此现象称为时间不确定性悖论。为解决这些问题，我们提出一种目标解耦架构：在评论家侧保留多时间尺度预测以强制辅助表示学习，在演员侧则严格隔离短期信号，仅基于长期优势更新策略。通过LunarLander-v2环境中多个独立随机种子的严格实证评估，我们的架构实现了统计显著的性能提升。在不依赖超参数调优的情况下，它始终以最小方差超越“环境求解”阈值，彻底消除策略崩溃，并摆脱了单时间尺度基线陷入的停滞局部最优。重现实验的源代码已公开于https://github.com/ben-dlwlrma/Representation-Over-Routing。

解耦通信与策略：带宽约束下的鲁棒多智能体强化学习
Decoupling Communication from Policy: Robust MARL under Bandwidth Constraints

May 20

ByAlexi Canesse, Benoît Goupil, Jesse Read, Sonia Vanier

通信在多智能体强化学习（MARL）中实现了协调，但许多实际应用（例如使用无人机蜂群进行搜救）在严格的带宽约束下运行。许多通信架构仍然存在耦合瓶颈——共享的潜在表示同时用于策略执行和智能体间通信。因此，缩减消息规模会直接限制策略的潜在空间，通常导致性能显著下降。我们通过两项贡献解决这一问题。首先，我们引入β，即归一化的每个智能体带宽预算，将稀疏性、轮次和消息维度统一为单个可比较的约束。其次，我们提出SLIM，一种最小化架构，将通信路径与策略的潜在表示解耦，从而在享有同步通信优势的同时，隔离带宽对策略容量的影响。我们在多个部分可观测的MARL基准测试中评估了该方法，这些测试中通信至关重要。我们的方法在有限通信条件下实现了最先进的性能，并展现出可扩展性和鲁棒性，随着带宽降低，性能仅出现轻微下降。

面向评估工程：对现实世界中机器学习评估框架的实证研究
Towards Evaluation Engineering: An Empirical Study of ML Evaluation Harnesses in the Wild

May 22

ByZhimin Zhao, Zehao Wang, Abdul Ali Bangash, Bram Adams, Ahmed E. Hassan

评估系统是协调模型评估的软件框架，负责管理模型调用、数据加载、指标计算和结果报告。尽管其在机器学习基础设施中扮演关键角色，但其运行挑战和工程问题迄今未获充分关注。我们对57个评估系统进行实证研究，推导出包含五个阶段的评估系统模型，并按工作流阶段和根本原因对16,560个问题进行归类。大多数评估系统运行挑战集中在规范阶段（占问题总数的41.4%），该阶段需整合外部模型、数据集和评分裁判。运行挑战最常见的三种根本原因是未实现功能（24.3%）、文档缺失（20.3%）和缺失输入验证（17.2%），三者合计占归类问题的61.7%，涵盖既有功能缺陷和阻碍预期工作流的能力缺口。根本原因亦随工作流阶段动态变化：环境不兼容与外部依赖断裂占供应问题的36.2%，而算法错误（25.9%）和验证缺失（22.5%）主导了评估问题。这些发现共同为将评估工程作为独立的软件工程问题奠定实证基础。

ECHO: 终端智能体无需额外代价学习世界模型
ECHO: Terminal Agents Learn World Models for Free

May 23

ByVaishnavi Shrivastava, Piero Kauffmann, Ahmed Awadallah, Dimitris Papailiopoulos

CLI代理是语言模型最接近具身场景的形式：模型发出指令，终端执行指令，返回的流——包括标准输出、错误、文件、日志和跟踪——记录了执行结果。我们认为这个流是一种监督信号，但标准的代理强化学习将其丢弃了：GRPO风格的训练用稀疏的结果级奖励更新动作标记，却忽略了轨迹中已有的环境响应。失败的轨迹虽然包含了关于环境如何响应的丰富证据，却几乎不提供策略梯度信号。为此，我们提出ECHO（环境交叉熵混合目标），这是一种混合目标函数，它将动作标记的标准策略梯度损失与辅助损失相结合，该辅助损失训练策略预测由其自身动作所产生的环境观测标记。ECHO复用GRPO的前向传播，无需额外轨迹，并将终端反馈转化为所有轨迹的密集监督。在TerminalBench-2.0上，ECHO使GRPO的pass@1指标翻了一番：Qwen3-8B从2.70%提升至5.17%，Qwen3-14B从5.17%提升至10.79%。即使是在非自身生成的轨迹上，ECHO也能产生更好预测终端动态的策略：在保留的轨迹中，它显著降低了环境标记的交叉熵，而单独使用GRPO则几乎无变化。基于Qwen3-8B基座模型，ECHO在无需专家演示的情况下，在保留的终端任务上实现了与专家SFT后接GRPO相当的性能，并在TerminalBench-2.0上恢复了大约一半的专家SFT初始化优势。在某些设置中，仅靠环境预测损失就能实现无验证器的自我提升，使策略仅通过与环境交互就能在未见过的分布外任务上取得进步。综合上述结果，这些发现表明环境观测不仅仅是未来行动的上下文，更是每条轨迹中已经存在的、密集的在策略监督信号。

利用生成式人工智能拓宽交通安全数据访问：一种面向空间自然语言查询的模式驱动框架
Broadening Access to Transportation Safety Data with Generative AI: A Schema-Grounded Framework for Spatial Natural Language Queries

May 20

ByMahdi Azhdari, Eric J. Gonzales

交通安全性分析需要整合事故记录、道路属性以及地理空间数据，并通过基于地理信息系统的工作流程来实现，但各机构与社区利益相关者在数据获取方面仍存在不均衡现象。技术前提条件导致安全性规划的核心分析工具与实际应用者之间存在鸿沟。地方机构、学校委员会及居民可能对安全问题有所关切，但在检索、筛选、制图及分析相关数据方面的能力有限。生成式人工智能为缩小这一差距提供了可能，但其在公共部门的应用引发了关于可靠性、可重复性及治理的疑问。本文提出了一种基于模式（schema-grounded）的自然语言接口，用于交通安全性分析，利用大型语言模型（LLM）解析用户意图，同时确保在权威数据库上执行的结果具有确定性与可审查性。用户查询被转化为结构化的语义框架，经过基于规则的验证层校验，编译成空间操作的有向无环图（DAG），并在PostGIS数据库中执行。这种有界限的设计将语言解析与确定性执行相分离，在消除获取障碍的同时，确保了结果的可重复性与模式基础。该框架利用马萨诸塞州全州范围的交通安全性数据库进行评估，该数据库整合了事故记录、道路属性以及包括学校、公交站、人行横道和行政边界在内的地理空间图层。所有查询均成功执行；验证层纠正了29%评估查询中的错误，反映出灵活的自然语言与严格的模式基础需求之间的差距。结果表明，将自然语言的易用性与确定性执行相结合，是扩大交通安全性数据获取范围的实际方向，对公共部门规划中可信赖人工智能的应用具有启示意义。

HorizonStream：面向流式三维重建的长程注意力
HorizonStream: Long-Horizon Attention for Streaming 3D Reconstruction

May 22

ByChong Cheng, Peilin Tao, Nanjie Yao, Guanzhi Ding, Xianda Chen, Yuansen Du, Xiaoyang Guo, Wei Yin, Weiqiang Ren, Qian Zhang, Zhengqing Chen, Hao Wang

在线三维重建需要在严格因果和有限内存约束下估计相机姿态和场景几何。现有方法在处理长序列时往往会出现漂移、抖动或崩溃。我们将这些失败归因于一个根本性的不匹配：流式几何本质上具有时间异质性，证据涵盖从短期对应关系到持久全局尺度。然而，当前架构施加了统一且病态的影响模式，例如滑窗强制硬截断，而无门控循环与因果注意力则导致缓存饱和及尖峰式注意力下沉。为解决此问题，我们将几何传播形式化为证据影响核，并提出HorizonStream——一种显式分解该核的长时域Transformer。针对长程时间因子，几何线性注意力通过学习逐通道衰减率，实现几何证据的有界多时间尺度传播；针对短程空间因子，结合时空RoPE的几何局部注意力在抑制注意力下沉的同时执行可靠的三维匹配。最后，度量读出令牌直接从持久几何状态中恢复稳定尺度与刚体姿态。大量实验表明，仅用48帧片段训练的HorizonStream，在恒定内存和线性时间下，可稳定泛化至超10000帧序列，达到流式三维重建的最优性能。项目主页：https://3dagentworld.github.io/horizonstream/

RankJudge：一种多轮LLM作为评判的合成基准生成器
RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator

May 20

ByZhenwei Tang, Zhaoyan Liu, Rasa Hosseinzadeh, Tongzi Wu, Keyvan Golestan, Jesse C. Cresswell

随着交互式基于LLM的应用不断被创建和优化，模型开发者需要从多个维度评估生成文本的质量。对于简单系统，人工评估或许可行，但在对话式聊天机器人等复杂系统中，生成的文本量可能远超人工标注资源的处理能力。因此，模型开发者开始严重依赖自动评估方法，即同样利用LLM来评判生成质量。然而，现有的LLM作为评判者的基准测试主要聚焦于简单的问答任务，无法匹配多轮对话的复杂性。我们提出RankJudge，这是一个用于评估LLM在多轮对话中作为评判者的基准生成器，并基于参考文档进行构建。RankJudge生成成对的对话，其中一组对话在某一轮次中注入单一缺陷。这种设计使得成对对话能够被明确标注为优劣，并精确定位失败类别至具体轮次，从而为评判确立严格联合正确性标准。我们在机器学习、生物医学和金融领域实现RankJudge，评估了21个前沿LLM评判者，并通过布拉德利-特里模型对这些评判者进行排序。我们的方法还能为每个对话对分配难度评级，据此动态筛选评估子集以降低标注噪声，这一点已通过人工标注验证。我们发现，在部分可观测性、较宽松的正确性标准以及替代性随机游走评分算法下，评判者的排序保持稳定。

MotiMotion: 基于视觉推理的运动控制视频生成
MotiMotion: Motion-Controlled Video Generation with Visual Reasoning

May 21

ByLee Hsin-Ying, Hanwen Jiang, Yiqun Mei, Jing Shi, Ming-Hsuan Yang, Zhixin Shu

当前基于运动控制的图像到视频生成模型严格遵循用户提供的轨迹，而这些轨迹往往稀疏、不精确且因果不完整。这种依赖常导致结果不自然或不合理，尤其是无法体现次要因果后果。为解决这一问题，我们提出MotiMotion——一个将运动控制重新定义为"先推理后生成"问题的新框架。为促进符合因果关系和常识的交互，我们利用无需训练的视觉语言推理器，细化主轨迹的图像空间坐标，并虚构合理的次要运动。为进一步提升运动自然度，我们提出一种置信度感知控制方案，通过调节引导强度，使模型在高置信度规划下紧密遵循指令，同时在低置信度输入下利用其内部生成先验修正伪影。为支持系统性评估，我们构建了新的图像到视频基准MotiBench，包含以交互为核心的场景，其中运动触发新事件。基于VLM的评估及针对MotiBench的人类研究均表明，MotiMotion生成的视频具有更合理的物体行为与交互，并优于现有方法。

基于实例分割的像素级路面病害评估
Pixel-Level Pavement Distress Assessment Using Instance Segmentation

May 25

ByLogan Dewick, Bibesh Pyakurel, Kong Pheng Yang, Nazim Choudhury, M. G. Sarwar Murshed

自动路面病害评估不仅需要图像级分类或粗略的边界框检测，更要求对细小、分支状及不规则裂缝进行精确定位，以达到维修量化所需的几何精度。本文提出一种基于Mask R-CNN实例分割的视觉路面病害分析系统，并在自行采集的UWGB-StreetCrack道路图像数据集上对其进行评估。该数据集由车载智能手机获取，并针对纵向裂缝、横向裂缝、龟裂和坑槽手动标注了多边形标签。研究在统一的微调协议下，比较了基于Detectron2的五种Mask R-CNN骨干网络变体。性能最优的模型——采用ResNet-101 FPN骨干网络的Mask R-CNN——在项目特定的边界框匹配协议下，实现了84.23%的精确率、90.04%的召回率以及87.04%的F1分数。该模型预测的裂缝面积总占比为2.164%，与真实裂缝面积占比2.170%高度吻合。为将分割系统与面向检测器的替代方案进行对比，还基于CSPDarknet53的YOLO检测器进行了适配和重新训练，该检测器在验证协议下达到27.5%的精确率和20.7%的召回率。结果表明，实例分割是处理野外路面图像及估算裂缝总面积的实用方向，同时也揭示了标注一致性、类别不平衡、混杂因素剔除以及掩膜级基准测试等方面尚待解决的挑战。

ClaimDiff-RL：通过视觉声明比较的细粒度字幕强化学习
ClaimDiff-RL: Fine-Grained Caption Reinforcement Learning through Visual Claim Comparison

May 24

ByTianle Li, Xuyang Shen, Yan Ma, Rongxin Guo, Shaoxiang Chen, Jiacheng Chen, Haochen Wang, Hongyang Tang, Yucong Zhou, Yu Cheng

长格式图像字幕生成暴露了强化学习中的奖励粒度问题：字幕被作为完整序列进行评判，而重要错误发生在单个视觉断言的层面上。一个好的密集字幕应当既忠实又信息丰富，避免幻觉的同时不遗漏显著细节。然而，成对偏好、基于参考的指标和整体标量奖励将这些局部错误压缩为单一序列级信号，掩盖了事实性与覆盖率之间的权衡。我们提出ClaimDiff-RL框架，该框架使用以参考为条件的原子化断言差异作为字幕强化学习的奖励单元。给定图像、演员字幕和参考字幕，多模态评审者枚举与视觉相关的差异，逐条验证每个差异与图像的对应性，分配开放式词汇的错误类型与严重程度，并为奖励组合生成每项差异的统计信息。这使得幻觉性断言与被遗漏的显著事实可分别进行衡量和调节。实验表明，整体标量奖励可能通过增加遗漏事实来减少幻觉，而ClaimDiff-RL揭示了这种忠实度与覆盖率之间的权衡，并实现了更平衡的运行点。在一个包含160幅图像的人工标注诊断基准、公开字幕基准和VQA基准上，ClaimDiff-RL改善了幻觉与遗漏事实的平衡，保持了一般能力，甚至在某些细粒度能力维度（如物体计数、空间关系和场景识别）上超越了Gemini-3-Pro-Preview。这些结果表明，带有类型化、可验证的断言差异是面向细粒度、可诊断的字幕强化学习的有效奖励单元。

解码大型推理模型中的批判机制
Decoding the Critique Mechanism in Large Reasoning Models

May 22

ByHoang Phan, Quang H. Nguyen, Hung T. Q. Le, Xiusi Chen, Heng Ji, Khoa D. Doan

大型推理模型（LRMs）具备回溯和自验证机制，使其能够修正中间步骤并得出正确解，从而在复杂逻辑基准上展现强大性能。我们假设，仅当模型具备足够强的“批判”能力以检测自身错误时，此类行为才具有实际效用。本研究通过在中间推理步骤中插入算术错误，系统探究了当前LRMs如何从错误中恢复。值得注意的是，我们发现了一个奇特但重要的现象：尽管错误在整个思维链（CoT）中传播且未出现任何口头修正，模型在思考过程结束后仍能得出正确的最终答案。这种恢复能力暗示存在一种内部机制帮助模型检测错误并触发自我修正，我们称之为隐藏的批判能力。基于特征空间分析，我们识别出一个高度可解释的批判向量，用以表征该行为。跨多个模型规模和系列的广泛实验表明，利用该向量引导潜在表征，能够在不增加训练成本的前提下提升模型的错误检测能力，并增强测试时扩展的性能。我们的研究为理解LRMs的批判行为提供了宝贵见解，并为控制和改进其自验证机制指出了有前景的方向。相关代码已开源：https://github.com/mail-research/lrm-critique-vectors。

草垛寻针：基于反事实扰动的弱监督日志实例异常定位
Seeing the Needle in the Haystack: Towards Weakly-Supervised Log Instance Anomaly Localization via Counterfactual Perturbation

May 9

ByYutszyuk Wong, Wentai Wu, Yuen-Ying Yeung, Weiwei Lin

日志异常检测是系统运维与安全保证的关键任务。然而，在大规模网络化系统中，日志数据以海量规模产生，而实例级标注成本极高，这给细粒度异常定位带来了巨大困难。为应对这一挑战，本文提出LogMILP（基于原型增强与扰动机制的多实例学习日志异常定位方法），这是一种仅需包级标签即可同时实现包级异常检测与实例级异常定位的弱监督框架。该方法通过原型引导的结构化建模与反事实扰动一致性正则化，指导模型精准定位关键日志条目，从而在粗粒度监督下提升定位可靠性与可解释性。在三个公开数据集上的实验结果表明，LogMILP在实现具有竞争力的检测性能的同时，能够显著提升实例级定位的可靠性。我们的开源代码已发布于 https://github.com/YUK1207/LogMILP。