HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

72 papers found

Crafter：一种从多样输入生成可编辑科学图形的多智能体框架
Crafter: A Multi-Agent Harness for Editable Scientific Figure Generation from Diverse Inputs

May 28

ByHaozhe Zhao, Shuzheng Si, Zhenhailong Wang, Zheng Wang, Liang Chen, Xiaotong Li, Zhixiang Liang, Maosong Sun, Minjia Zhang

107

科学图表是传达复杂研究思想最有效的手段之一，然而生成达到出版质量的插图仍是论文准备过程中最耗时的环节之一。现有自动化系统均针对单一图表类型和纯文本输入条件，未能涵盖研究人员实际使用的多样类型与条件；其栅格输出结果也无法进行局部修正。由于科学图表是由离散语义组件构成的结构化组合，生成器在此类布局中产生的局部错误需要的不是更强的骨干网络，而是一套约束机制。我们将这一约束机制具体化为两个互补系统：Crafter——一种无需架构修改即可跨图表类型与输入条件进行泛化的多智能体图表生成框架；以及CraftEditor——它运用相同范式将栅格输出转换为可编辑的SVG格式。此外，我们推出了CraftBench基准测试，涵盖三种图表类型与四种输入条件，并配备人工质量标注。实验表明，在PaperBanana-Bench和CraftBench上，Crafter显著优于独立生成器及智能体基线，消融实验证实了各模块的独立贡献；CraftEditor能将输出结果忠实地转换为可编辑SVG，并超越所有基线方法。我们的代码与基准测试已开源在 https://github.com/HaozheZhao/Crafter。

论PEFT的规模化：迈向拥有万亿参数的百万个人模型
On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters

Jun 1

ByMind Lab, Song Cao, Vic Cao, Kaijie Chen, Bunny Fan, Hera Feng, Huan Feng, Arthur Fu, Jun Gao, Hongquan Gu, Aaron Guan, Mutian Hong, Hailee Hou, Peixuan Hua, Charles Huang, Miles Jiang, Nora Jiang, Yuyi Jiang, Autumn Jin, Fancy Kong, Kyrie Lei, Alexy Li, Dawn Li, Ray Li, Theo Li, Wenhao Li, Jiayi Lin, Domini Liu, Heshan Liu, Kairus Liu, Logan Liu, Maeve Luo, Runism Lv, Pony Ma, Verity Niu, Anson Qiu, Vincent Wang, Maxwell Yao, Regis Ye, Wenlin Ye, Yanying Ye, Josh Ying, Danney Zeng, Salmon Zhan, Anya Zhang, Ruijia Zhang, Shiyang Zhang, Sueky Zhang, Ya Zhang, Wei Zhao, Ada Zhou, Sizer Zhou, Xinyue Zhu, Murphy Zhuang

参数高效微调（PEFT）通常被视为全参数微调的经济替代方案。本研究探讨其更广泛的应用：将小型可训练适配器作为持久性局部状态，叠加在强大的共享基础模型之上。在此框架下，基础模型提供共享能力，而适配器承载实例特定行为，如偏好、技能、工具使用习惯及类似记忆的更新。我们围绕三个扩展维度组织问题：向上扩展——更强的共享先验使小型局部更新更具价值；向下扩展——研究适配器在保持可靠性的前提下能达到的最小规模；向外扩展——多个持久化适配实例共存。MinT提供了一个管理适配器身份、版本、溯源、评估及运行时驻留的基础设施范例。综合结果表明，PEFT可以作为持久化个性模型的紧凑基座，而不仅仅是全参数微调的预算替代品。

TASTE问题：提升智能体基准测试的覆盖范围与难度
A Matter of TASTE: Improving Coverage and Difficulty of Agent Benchmarks

May 27

ByTomer Keren, Nitay Calderon, Asaf Yehudai, Yotam Perlitz, Michal Shmueli-Scheuer, Roi Reichert

随着智能体能力的不断提升，现有的基准测试（如τ²-Bench）正逐渐趋于饱和。然而，构建新的基准任务仍然复杂、昂贵且劳动密集。此外，标准的任务构建方法——先用自然语言描述场景，再将其映射为工具序列——只能覆盖智能体实际使用的工具模式中的一小部分。本文通过逆向构建任务流程来解决这些问题。我们提出了TASTE：基于工具序列演化的任务合成方法，这是一种能够自动生成具有更广泛工具使用覆盖率的挑战性任务的方法。TASTE利用了一个基于LLM评判的有效性信号训练的适应性对比n-gram模型，从而能够采样出覆盖大量工具组合的有效工具序列。接着，TASTE通过聚类从这些序列中选取代表性样本，将它们实例化为完整的基准任务，并通过迭代的难度演化进行优化。利用TASTE，我们构建了τ^c-Bench，这是对τ²-Bench三个领域的挑战性扩展。我们评估了11组智能体/用户LLM对，发现那些在τ²-Bench上几乎达到饱和的模型在我们的任务中遭遇了严重的性能下降（例如，Gemini-3-Flash从0.82~0.94降至0.28~0.61）。除了提高难度之外，我们生成的任务使智能体必须执行的独特工具组合数量增加了一倍以上。我们的结果表明，在现有基准测试上的高分往往反映了饱和现象，而非稳健的任务解决能力。通过自动化生成高难度、高覆盖率的基准测试，TASTE为未来智能体的持续、可扩展评估提供了可能。

K-BrowseComp：一个基于韩国语境的网页浏览代理基准
K-BrowseComp: A Web Browsing Agent Benchmark Grounded in Korean Contexts

Jun 1

ByNahyun Lee, Dongkeun Yoon, Guijin Son, Geewook Kim, Dayoon Ko, Jeonghun Park, Haneul Yoo, Jaewon Cho, Junghun Park, Changyoon Lee, Kyochul Jang, Jaeyeon Kim, Eunsu Kim, Woojin Cho, Seungone Kim

前沿模型评估正从基础能力（如指令遵循与推理）转向组合型、智能体型能力，但韩语智能体基准仍然稀缺。我们提出K-BrowseComp，一个基于韩语场景的网络浏览智能体基准，包含400个问题。其中300题的K-BrowseComp-Verified子集由母语为韩语的研究人员手工构建并验证。在该子集上，包括GPT-5.5、DeepSeek-V4-Pro和GLM-5.1在内的前沿大语言模型仅达到30.00%至45.67%，相较于BrowseComp大幅下降；而通过韩国专有AI基础模型项目发布的韩语大语言模型仅获得0.00%至10.33%。我们进一步利用硬样本的少量示例和失败模式导向生成，构建了一个100题的合成子集，以利用解决与创建网络浏览问题之间的不对称性。在对抗性过滤后的合成诊断子集上，最强模型仅达到26.00%，我们将该子集作为针对性压力测试单独报告。我们公开了数据和代码。

Harness-1：使用状态外部化框架的搜索代理强化学习
Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

Jun 1

ByPengcheng Jiang, Zhiyi Shi, Kelly Hong, Xueqiang Xu, Jiashuo Sun, Jimeng Sun, Hammad Bashir, Jiawei Han

搜索代理通常通过增量对话记录进行策略训练：模型必须一边决定如何搜索，一边记住已查看的内容、哪些证据是有用的、哪些约束条件尚未解决，以及哪些声明已被实际核实。我们认为，这种表述将过多的常规状态管理置于策略内部——强化学习被迫同时优化语义搜索决策和本可由环境更可靠维护的可恢复性簿记工作。我们提出Harness-1，一个200亿参数的搜索代理（检索子代理），它在一个有状态搜索框架（harness）内通过强化学习训练而成。该框架维护环境侧的工作记忆，包括候选池、按重要性标注的精选集、紧凑的证据链接、验证记录、压缩去重的观测结果，以及预算感知的上下文呈现。策略保留语义决策：搜索什么、保留或丢弃哪些文档、验证哪些内容、何时停止。在涵盖网页、金融、专利和多跳问答的八个检索基准测试中，Harness-1实现了平均0.730的精选召回率（curated recall），比次强的开源搜索子代理高出11.4个百分点，并且与规模大得多的前沿模型搜索器保持竞争力。其优势在保留的迁移基准上尤为显著，这表明基于显式搜索状态的强化学习能够产生超越训练领域的检索行为。我们的代码已开源：https://github.com/pat-jj/harness-1。

Draft-OPD：针对推测草稿模型在策略蒸馏
Draft-OPD: On-Policy Distillation for Speculative Draft Models

May 28

ByHaodi Lei, Yafy Li, Haoran Zhang, Shunkai Zhang, Qianjia Cheng, Xiaoye Qu, Ganqu Cui, Bowen Zhou, Ning Ding, Yun Luo, Yu Cheng

推测解码通过将目标模型与轻量级草案模型配对来实现大语言模型推理加速，草案模型生成的token将被并行验证。构建草案模型的常见方法（如EAGLE3或DFlash）是在目标模型生成的轨迹上进行监督微调。然而，我们观察到监督微调很快达到瓶颈：草案模型在测试数据上的接受长度停止提升。原因在于离线训练与推理阶段存在不匹配：监督微调中，草案从固定的目标生成轨迹中学习，而推测解码时它是在自身策略生成的区块上被评估。这促使我们采用策略内蒸馏（OPD），即让目标模型在草案引发的状态上对草案进行监督。但策略内蒸馏对草案模型仍具挑战性，因为它们无法独立可靠地生成完整序列，而目标辅助生成会导致采集的序列遵循目标分布，从而消除策略内信号。为此，我们提出Draft-OPD方法，该方法利用目标辅助生成实现稳定续写，并从验证暴露的错误位置重放草案生成过程。这使得草案能够同时从被接受和被拒绝的提案中学习目标反馈，将训练聚焦于限制推测接受率的草案引发错误。实验表明，Draft-OPD在各类任务上实现思维模型超过5倍的无损加速，相比EAGLE-3和DFlash分别提升23%和13%。

Domino: 推测解码中因果建模与自回归草稿生成的解耦
Domino: Decoupling Causal Modeling from Autoregressive Drafting in Speculative Decoding

May 28

ByJianuo Huang, Yaojie Zhang, Qituan Zhang, Hao Lin, Hanlin Xu, Linfeng Zhang

推测解码通过草拟多个令牌并与目标模型并行验证，从而加速大语言模型推理。然而，其实际加速效果受限于草稿质量与草拟成本之间的权衡：自回归草稿模型虽能建模草稿令牌间的因果依赖关系，但会引入顺序开销；并行草稿模型虽降低草拟成本，却削弱了块内依赖建模能力。本文提出Domino——一种将因果依赖建模与昂贵的自回归草稿执行相解耦的推测解码框架。Domino首先使用并行草稿骨干为整个块生成初步草稿分布，随后通过轻量级Domino头部利用前缀相关的因果信息对其进行修正。为稳定教师强制因果编码，我们进一步引入基于锚点的训练课程：先强化并行骨干，再逐步将优化重心转移至因果修正后的最终分布。在Qwen3模型上的实验表明，Domino在Transformers后端下可实现最高5.49倍的端到端加速，在SGLang服务下可实现最高5.8倍的吞吐量加速。

线性集成消除水印：论大型语言模型中分布扰动的脆弱性
Linear Ensembles Wash Away Watermarks: On the Fragility of Distributional Perturbations in LLMs

May 28

ByZhihao Wu, Gracia Gong, Qinglin Zhu, Yudong Chen, Runcong Zhao

水印技术通过在AI生成文本中嵌入统计特征，实现检测与溯源。我们揭示了一个根本性漏洞：当用户同时访问多个模型（这是当下的常态），水印便轻易失效。水印使输出分布偏离原始分布，而在竞争性市场中，这些偏离通常在不同提供商之间相互独立。我们从理论上证明，对输出概率分布取均值可以恢复无水印分布，误差仅为二阶项。实验表明，仅需对3-5个模型取均值即可消除这些扰动。我们提出WASH（水印衰减统计混合法），解决了异构模型集成生成中的实际挑战：词汇对齐差异和分词差异。实验覆盖六种水印方案和三种大语言模型，结果显示，对3个模型取均值可将检测z值从5-300降至2以下（低于检测阈值4），在5%假正率下将真正率降至50%以下，同时质量提升27.5%，在长序列生成任务中运行速度比最优基线快6倍。我们的结果表明，通过水印实现可靠的AI文本检测，要么接受这一根本性漏洞，要么需要模型提供商之间进行前所未有的协同合作。

NITP：面向大语言模型预训练的下一隐式令牌预测
NITP: Next Implicit Token Prediction for LLM Pre-training

May 24

ByXiangdong Zhang, Debing Zhang, Shaofeng Zhang, Xiaohan Qin, Yu Cheng, Junchi Yan

标准的下一个词预测（NTP）仅在输出logit空间通过离散标签监督语言模型。我们认为这种稀疏的独热监督使得潜在表示空间约束不足，导致隐状态可能漂移至退化的各向异性结构，从而限制泛化能力。为解决此问题，我们提出隐式下一个词预测（NITP），该方法直接在表示空间中用密集的连续监督增强离散预测。NITP训练模型预测下一个词的隐式语义内容，将同一模型的浅层表示作为稳定的自监督目标。理论分析表明，NITP通过缓解欠约束的自由度并鼓励紧凑、结构化的表示几何，对优化景观进行正则化。实验表明，在0.5B至9B参数规模的密集模型和MoE模型上，NITP以可忽略的计算开销持续提升下游性能。在9B参数的MoE模型上，NITP在MMLU-Pro上实现5.7%的绝对提升，同时在C3和CommonsenseQA上分别提升6.4%和4.3%，仅增加约2%的训练FLOPs且无额外推理成本。我们的实现已开源：https://github.com/aHapBean/NITP。

VLMs通过自适应测试时优化成为视频推理的优秀教师
VLMs are Good Teachers for Video Reasoning via Adaptive Test-Time Optimization

Jun 1

ByJunhao Cheng, Liang Hou, Tianxiong Zhong, Xin Tao, Pengfei Wan, Kun Gai, Jing Liao

近期提出的“视频推理”范式利用视频生成模型（VGM）生成时间连贯的视觉轨迹以完成推理任务。尽管最先进的VGM在视觉质量上表现卓越，但它们往往难以理解并遵循任务特定规则，导致在各类推理场景中出现逻辑错误。现有尝试借助视觉语言模型（VLM）作为问题预求解器，为VGM生成或优化文本指导。然而，文本描述难以捕捉复杂的时空细节，且即便在有效规划下，VGM仍常难以精准执行细粒度或长尾指令。尽管VLM作为求解器存在局限，但其具备强大的感知能力，可评估过程约束满足度与最终目标达成度。基于这一优势，我们提出范式转换，将VLM的角色转变为“教师”。具体而言，VLM教师提取任务特定规则以构建可微分奖励函数，通过测试时轻量级LoRA模块的在线优化来引导VGM推理器。该策略实现了自适应测试时优化，并将推理能力拓展至VGM固有边界之外。在符号视频推理基准（VBVR-Bench）与通用视频推理基准（RULER-Bench）上的评估表明，所提方法平均性能提升16.7个百分点，大幅优于VLM即求解器范式（+0.4个百分点）及Best-of-N缩放策略（+2.2个百分点），且测试时成本相当。这些发现揭示，将VLM作为测试时教师集成，为实现可泛化视频推理提供了有前景的范式。项目页面：https://VLM-as-Teacher.github.io/

X-Stream：探索将多模态大语言模型作为多流理解的多路复用器
X-Stream: Exploring MLLMs as Multiplexers for Multi-Stream Understanding

Jun 1

ByPeiwen Sun, Xudong Lu, Huadai Liu, Yang Bo, Dongming Wu, Huankang Guan, Minghong Cai, Jinpeng Chen, Xintong Guo, Shuhan Li, Rui Liu, Xiangyu Yue

尽管视频流理解已取得显著进展，但现实应用（如体育赛事直播、自动驾驶和多屏协作）本质上要求持续的、多流的交互。然而，现有基准局限于单流范式，在评估在线跨流推理方面存在关键空白。为填补这一空白，我们提出X-Stream——首个专为多流流式理解设计的基准。该基准包含来自932个视频的4,220个精心筛选的问答对，评估跨多窗口、多视角和多设备场景的11个子任务。关键的是，我们的数据集采用新颖的双重验证流水线构建，以避免对单一流的过度依赖。此外，我们率先将多模态大语言模型（MLLM）概念化为朴素复用器，并基于信号复用理论系统评估其性能。通过大规模在线推理实验，我们揭示了一个严峻的现实：最先进的MLLM在处理并发流时表现艰难，仅获得约50%的评分，且主动能力薄弱。最终，X-Stream揭示了当前复用方案的权衡，为下一代多流智能体提供了实用评估协议与实证指导。

VideoMLA: 面向分钟级自回归视频扩散的低秩潜在键值缓存
VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion

May 28

ByHidir Yesiltepe, Jiazhen Hu, Tuna Han Salih Meral, Adil Kaan Akan, Kaan Oktay, Hoda Eldardiry, Pinar Yanardag

长时程因果视频扩散已收敛于固定大小的滑动窗口KV缓存，近期创新主要围绕改变缓存中保留的token或编码方式展开，但作为流式内存和延迟主要贡献者的逐头KV布局本身基本未变。本文首次研究了视频扩散中的多头潜在注意力机制（MLA）。VideoMLA用共享的低秩内容潜在表示和共享的解耦3D-RoPE位置键替换每个头的键和值，在每层缓存中将每个token的KV内存减少92.7%。我们进一步探究了MLA在视频扩散中成功的机制——尽管语言模型中用于论证MLA有效性的谱假设在视频扩散中并不成立：预训练视频注意力并非低秩，其99%能量有效秩远高于任何实际潜在维度。VideoMLA在直接谱近似会预测较大重构误差的压缩比下仍能保持质量。研究表明，决定有效秩的不是预训练谱，而是MLA瓶颈：谱初始化和随机初始化均从初始化阶段就占据了接近满秩预算，训练过程在保持此预算的同时在其内部进行适应。在VBench上，VideoMLA与短时程流式视频扩散基线匹配，在长时程所有评估方法中取得最佳综合得分，并在单块B200上将吞吐量提升1.23倍。

SkillAdaptor: 基于轨迹的LLM智能体自适应技能
SkillAdaptor: Self-Adapting Skills for LLM Agents from Trajectories

May 31

ByZhuoyun Yu, Xin Xie, Wuguannan Yao, Chenxi Wang, Lei Liang, Xiang Qi, Shumin Deng

大语言模型（LLM）智能体日益依赖可重用的外部技能来解决长时程交互任务。现有的免训练技能适配流程通常基于完整轨迹或会话级反馈来更新技能，这使得失败归因较为粗糙，往往产生不稳定或过于宽泛的修订。我们提出SkillAdaptor——一种具有显式失败归因的免训练步骤级技能适配框架，可无缝接入OpenClaw类智能体框架。面对失败轨迹时，SkillAdaptor识别首个可操作的故障步骤，将责任关联至候选技能，并在显式接受校验下执行针对性更新，同时保持主干网络冻结。我们在WebShop、PinchBench和Claw-Eval三个套件上，基于Kimi-K2.5、GLM-5和GPT-5.2进行评估。SkillAdaptor在所有三个套件上均优于无技能和技能适配基线，其中单指标最大提升分别为：PinchBench平均得分率+1.5个百分点，Claw-Eval平均得分+1.8，WebShop成功率+1.7。这些结果表明，步骤级归因支持更稳定且可审计的免训练技能维护。代码将在https://github.com/zjunlp/SkillAdaptor公开。

何处观察：基础模型能否通过主动探索到达目标视角？
Where to Look: Can Foundation Models Reach a Target Viewpoint Through Active Exploration?

May 31

ByLiyang Li, Muzhi Zhu, Zhiyue Zhao, Hengyu Zhao, Ke Liu, Linhao Zhong, Hao Chen, Chunhua Shen

人类能够通过主动的头部和身体运动复现目标图像所指定的视角，但基础模型中的空间智能长期以来主要被研究为对预采集观测数据的被动理解。我们提出目标视角复现（Target Viewpoint Reproduction, TVR）——一种主动任务，要求智能体在3D环境中调整视角直至其观测与给定目标图像匹配——并构建了TVRBench，一个涵盖场景尺度与目标视角视觉丰富度的室内仿真基准。TVR远未得到解决：在评估集上，最强的开源和闭源模型仅达到7.8%和12.0%的成功率。细粒度分析揭示两个一致的瓶颈：现成模型难以处理多轮视觉历史，且当视角复现需要身体平移而非原地旋转时性能急剧下降，这暴露了空间差异映射到具身运动之间的鸿沟。为缩小这一差距，我们构建了统一的TVR后训练框架，涵盖专家轨迹SFT、理由监督的CoT-SFT、离线单轮GRPO以及基于实时仿真器交互的策略内多轮GRPO。视觉-动作SFT提供了主要增益，将9B开源模型提升至50.8%的成功率；多轮GRPO提供了针对性的多房间细化能力，整体达到51.4%，而CoT监督和单轮GRPO反而降低了闭环性能。这些结果使TVRBench成为衡量和训练具备主动感知与行动能力的3D环境基础模型的测试平台。我们的代码、数据和模型已开源至https://github.com/aim-uofa/TVRBench。

哪种预训练范式更有利于空间智能？视觉语言模型与视频生成模型的实证比较
Which Pretraining Paradigm Better Serves Spatial Intelligence? An Empirical Comparison of Vision-Language and Video Generation Models

May 27

ByHaozhan Shen, Tiancheng Zhao, Kangjia Zhao, Jianwei Yin

空间智能需要能够同时捕捉物理世界中语义对象与几何结构的视觉表征。为此，目前有两种主要的预训练范式被广泛用作基础骨干：视觉-语言模型（VLM）利用语言监督将视觉观测与语义概念对齐，而视频生成模型（VGM）则通过随时间演变的视觉世界进行学习。然而，这两种预训练范式究竟哪种能为空间智能提供更优的表征基础，目前尚不明确。本文首次系统性地对VLM和VGM在空间智能三个代表性维度（语义标注、实例分组、三维几何预测）上进行了冻结特征探测研究。通过轻量级探测模块，我们的框架能够对这两类模型家族中已编码在冻结表征中的信息进行受控比较。实验结果表明两者具有显著的互补性：VLM在语义标注和实例分组方面表现更优，而VGM则为稠密几何和相机运动提供了更易获取的信号。此外，对两者进行简单融合得到的表征在几何与语义任务上均表现优异，这为通过有效整合两类模型家族的特征来构建更强的空间智能骨干指明了有前景的方向。我们的代码已开源：https://github.com/om-ai-lab/Probing-VLM-VGM

屏蔽过时观测有助于搜索智能体——直至失效：一个机制图及其机理
Masking Stale Observations Helps Search Agents -- Until It Doesn't: A Regime Map and Its Mechanism

May 29

ByHaoxiang Zhang, Qixin Xu, Zhuofeng Li, Lei Zhang, Pengcheng Jiang, Yu Zhang, Julian McAuley

长视野搜索代理在多次工具调用中会积累大量检索内容，这使得上下文预算效率变得愈发重要。一种最小干预措施是在轨迹推进过程中从上下文中掩码过时的观测，但目前尚不清楚这种上下文管理方式何时有效及其原因。我们通过系统性地梳理不同代理骨干网络（4B至284B参数）及三种检索器在离线与实时网页代理搜索基准上的表现，对观测掩码进行了研究。研究发现，当以无上下文管理时的模型准确率为横轴时，掩码带来的准确率提升呈非对称倒U形：在弱检索器条件下出现平台期，当强检索器与中等容量模型相遇时达到峰值，而在模型饱和时则急剧下降。这一模式反映了检索器召回率与模型隐式过滤能力之间的相互作用，而非单一因素的独立影响。从机制上看，掩码实现了"令牌换轮次"的权衡：它移除了模型已基本停止关注的观测，以及代理极少重新打开的页面。新增加的轮次在能够将失败转化为成功时发挥作用，但当掩码移除了模型本可使用的证据时则会导致失败。因此，我们将上下文管理重新定义为一种基于能力区间的干预措施，并为分析代理深度搜索中的上下文使用提供了整体视角。我们在此发布了相关框架及轨迹数据（https://github.com/i-DeepSearch/observation-masking），以支持未来研究。

ESPO：早停近端策略优化
ESPO: Early-Stopping Proximal Policy Optimization

May 28

ByZihang Li, Rui Zhou, Yingcheng Shi, Wenhan Yu, Zhewen Tan, Zixiang Liu, Zeming Li, Binhua Li, Yongbin Li, Tong Yang, Jieping Ye

在强化学习下的大语言模型若在生成轨迹早期出现推理错误，标准算法会强制其继续生成直至最大步数上限，这不仅将计算耗费在永远无法获得正奖励的token上，还会因失败后的噪声污染优势估计。为此，我们提出ESPO（早停式近端策略优化），该方法能在生成过程中实时检测轨迹失败并提前终止。在每一步生成中，ESPO仅利用采样时已计算出的logits计算替代遗憾，当平滑累积遗憾显著超过其估计值时即终止生成。被截断的轨迹视为带有终止奖励的吸收失败状态，使得负时序差分误差集中在检测到的失败步骤附近，无需额外的奖励模型或人工标注。在基于DeepSeek-R1-Distill-Qwen-7B训练的数学推理任务中，ESPO在AIME 2024（46.28% vs. 45.25%）、AMC 2023（85.83% vs. 82.94%）和MATH-500（87.42% vs. 85.43%）上均超越PPO，同时累计节省超过20%的rollout tokens。

多智能体强化学习何时能改善LLM工作流？工作流、规模与策略共享权衡
When Does Multi-Agent RL Improve LLM Workflows? Workflow, Scale, and Policy-Sharing Tradeoffs

May 22

ByYifan Zeng, Yiran Wu, Yaolun Zhang, Wentian Zhao, Kun Wan, Qingyun Wu, Huazheng Wang

多智能体LLM工作流通过专业化角色分配推理路径以提升最终任务精度，但使用强化学习联合训练这些角色时，其不稳定性在机理上尚不明确。我们研究了端到端RL训练多智能体LLM工作流相比基模型的提升效果，比较了共享策略训练（所有角色更新同一策略）与隔离策略训练（各角色拥有独立参数）两种方案。实验矩阵涵盖Eval-Opt、Voting和Orch-Workers三种工作流，数学与代码两类任务，以及三个模型规模（0.6B、1.7B、4B）。研究发现：多智能体RL通常优于基模型，但增益同时取决于工作流、任务和规模，而非仅由策略共享决定。隔离策略训练往往能达到更高的峰值精度，但更频繁地遭遇终端精度悬崖；而共享策略训练并未消除失败，只是将失败重新分布为性质不同的模式。我们进而通过工作流拓扑与策略路由引发的角色级梯度动力学解释了其中最显著的模式：在隔离策略下，共享提示的并行同角色智能体会放大各角色梯度，导致Voting和Orch-Workers工作流出现终端退化；在共享策略下，非对称的逐步梯度质量导致共享策略被主导角色捕获，从而在任务与工作流维度产生不同的失败特征。综上，实证图谱及其内在机制表明，策略共享并非提供均匀稳定性，而是将训练压力导向不同通道，使其成为需权衡工作流与任务条件的设计选择。

MCP-Persona：通过环境模拟对LLM代理在现实世界个人应用中进行基准测试
MCP-Persona: Benchmarking LLM Agents on Real-World Personal Applications via Environment Simulation

Jun 1

ByWenhao Wang, Peizhi Niu, Gongyi Zou, Xiyuan Yang, Jingxing Wang, Haoting Shi, Yaxin Du, Jingyi Chai, Xianghe Pang, Shuo Tang, Yanfeng Wang, Siheng Chen

模型上下文协议（MCP）已成为连接大型语言模型（LLMs）与外部数据源及工具的一项变革性标准，并迅速在个人应用和开发平台中得到采用。然而，现有基准测试主要聚焦于通用信息检索工具，未能捕捉个人社交应用中的实际挑战——此类应用中的工具需与个人账户或本地数据库交互。为弥补这一关键缺口，我们提出MCP-Persona，这是首个专门用于评估智能体在真实世界个性化MCP工具上表现的基准测试。MCP-Persona涵盖多样化的广泛使用应用，从Reddit、小红书（Rednote）等社交媒体平台，到飞书（Lark）、Slack等企业协作套件。我们对多种最先进（SOTA）智能体进行的广泛实验表明，它们在个性化工具使用方面存在显著困难，从而凸显出该基准测试在识别和应对这些局限性方面的关键作用。MCP-Persona现已公开，访问地址为：https://github.com/wwh0411/MCP-Persona。

LVSA：无需训练的稀疏注意力用于长视频扩散
LVSA: Training-Free Sparse Attention for Long Video Diffusion

May 29

ByGael Glorian, Ioannis Lamprou, Zhen Zhang, Yujie Yuan, Hongsheng Liu

密集自注意力是长视频扩散推理的计算与质量瓶颈：其计算量随序列长度呈二次增长，且超出训练时域后模型会收敛至接近静态输出，即“冻结”的重复视频。现有顶尖方法要么成本过高（例如需要重新训练），要么无法同时以可扩展方式满足性能与质量目标。为此，我们提出长视频稀疏注意力（LVSA）——一种无需训练、与模型无关的块稀疏注意力机制，应用于视频扩散变换器。该方法结合结构化窗口模式与旋转全局锚点，消除了导致长程时间伪影的固定网格偏差。结合FlashInfer内核，LVSA在密集注意力的基础上，将Wan 2.1 1.3B模型的6倍时域计算量降低3.17倍，Wan 2.1 14B模型的6倍时域计算量降低2.98倍，HunyuanVideo 1.5模型的1.5倍时域计算量降低3.33倍。除减少计算量外，LVSA使得HunyuanVideo 1.5模型可在2倍时域下生成（否则单张GPU将内存不足）。此外，在Wan 2.1 1.3B模型上，LVSA相比RIFLEx加速最高达2.41倍，相比UltraViCo加速最高达3.27倍。为验证跨平台适用性，我们在NPU上应用LVSA，与密集注意力相比，Wan 2.2 A14B加速最高达2.71倍，Wan 2.1 1.3B加速最高达3.24倍。为实现公平的质量评估，我们引入VQeval工具——该工具能正确评判循环视频缺陷，而此类缺陷在VBench-Long等现有评估器中反会被奖励。LVSA在训练时域长度的生成中保持质量中性，在扩展时域中则呈现质量积极效果。

基于新颖性信号的联合智能体记忆与探索学习
Joint Agent Memory and Exploration Learning via Novelty Signals

Jun 1

ByShizuo Tian, Xiaohong Weng, Rui Kong, Yuxuan Chen, Guohong Liu, Yuebing Song, Jiacheng Liu, Yuchen Li, Dawei Yin, Ting Cao, Yunxin Liu, Yuanchun Li

在开放式环境中，探索对于自主智能体至关重要，然而当前基于语言模型的智能体在此方面存在不足。有效的探索需要记忆支撑，但保留原始交互历史在长轨迹中计算成本极高。潜在记忆虽能压缩交互历史，但其训练缺乏可靠的监督信号。我们提出联合智能体记忆与探索学习框架（JAMEL），该框架通过新颖性驱动的交互同时训练智能体记忆与探索策略。我们观察发现记忆与探索构成相互依赖的循环：持续探索需要记忆区分已耗尽行为与未见过行为，而追求新颖性的交互则为记忆提供了使其对未来探索有用的监督信号。通过利用图形用户界面领域中代码覆盖率等确定性且持久的创新信号，我们为记忆模块提供了天然、无需标注的监督。实验评估表明，JAMEL成功泛化至未见环境，其探索能力超越开放权重基线模型，并达到闭源模型的探索深度，同时降低了令牌消耗。我们的代码与模型已在https://github.com/MobileLLM/JAMEL开源。

LongLive-RAG：一种用于长视频生成的通用检索增强框架
LongLive-RAG: A General Retrieval-Augmented Framework for Long Video Generation

Jun 1

ByQixin Hu, Shuai Yang, Wei Huang, Song Han, Yukang Chen

自回归（AR）视频扩散能够实现变长合成，但长时生成常面临累积误差和身份漂移问题。为提升效率，现有方法在生成过程中普遍采用滑动窗口注意力机制，这导致了不可逆的生成轨迹：一旦活动窗口累积外观误差，后续生成只能基于退化轨迹继续演化，进而偏离目标。我们通过将长视频生成建模为检索增强生成（RAG）问题来突破这一限制。不同于仅依赖近期窗口，我们将先前生成的潜变量视作动态可检索的历史库。为此提出LongLive-RAG——面向AR视频生成的通用检索框架。在每个新块生成时，LongLive-RAG通过查询嵌入向量检索相关历史潜变量。这一轻量级检索步骤相较于生成过程仅增加微小开销，使生成器能够以非局部上下文而非仅限近期窗口为条件。为增强检索区分度，我们引入窗口时域差分损失函数，该损失可抑制冗余的局部相似性，促使嵌入向量捕捉有意义的时域变化。上述组件协同作用，有效缓解了滑动窗口注意力引发的误差累积。在多种AR骨干网络和生成时长下的实验表明，该方法能够提升长视频质量，并取得了目前最优的VBench-Long平均排名。据我们所知，在开放式AR长视频生成方法中，LongLive-RAG首次将自生成潜变量历史构建为可寻址检索记忆。代码已开源：https://github.com/qixinhu11/LongLive-RAG。

Brain-IT-VQA：从脑信号到答案
Brain-IT-VQA: From Brain Signals to Answers

May 28

ByRoman Beliy, Matias Cosarinsky, Oliver Heinimann, Navve Wasserman, Michal Irani

从观看图像时记录的fMRI信号中解码视觉内容，并针对所见图像回答具体问题，是一项长期存在的挑战。尽管近年来基于fMRI的视觉问答（VQA）研究取得了显著进展，但其性能仍存在局限。此外，尽管现有模型能做出日益精准的预测，却很少被用作理解大脑视觉表征结构的工具。我们提出了Brain-IT-VQA——一个基于fMRI进行视觉问答的框架。该方法在脑交互变压器（Brain-IT）的基础上，从脑活动中解码语言标记，并将其与语言模型整合以回答视觉问题。我们的模型显著优于以往基于fMRI的图像描述和VQA方法。我们进一步引入了NSD-VQA——一个用于fMRI视觉问答的新数据集与基准。与现有图像-fMRI VQA数据集通常每张图像仅提供少量宽泛且控制薄弱的问题不同，NSD-VQA为每张图像平均提供20组问答对，涵盖20个受控问题类别，这些类别解构了多层次视觉理解。这使得在有限的fMRI测试数据下，评估更可靠且更具可解释性。Brain-IT-VQA和NSD-VQA共同构建了一个强大的预测框架，同时成为研究大脑表征的工具。借助这一基准，我们量化了从自然图像的fMRI响应中可可靠解码的视觉与语义信息形式，并进一步分析了不同脑区在不同问题类型中的贡献。

StreamChar：基于解耦编排的长程流式角色音频-视频生成
StreamChar: Long-Horizon Streaming Character Audio-Video Generation with Decoupled Orchestration

May 25

ByLinrui Tian, Qi Wang, Bang Zhang

实时流式联合音视频生成用于角色动画时，要求生成器能够朗读指定文本、在片段间保持视觉一致性，并在严格的播放预算内运行。这些要求难以同时满足：逐片段的自回归生成会累积文本-音频错位和视觉漂移，而低延迟所需的少步数蒸馏则常损害空间多样性与时间质量。我们提出StreamChar，一种将长程编排与短窗音视频去噪分离的流式框架。基于LLM的编排器利用文本和历史上下文生成帧对齐的音频条件，而联合音视频DiT则通过参考帧和运动帧条件进行局部双向去噪。为高效部署，我们采用两阶段蒸馏流水线：先压缩采样器，再在在线块展开下微调学生模型。在展开训练中，进度感知指针对齐部分文本与生成的音频，sink块记忆则提供持久视觉锚点以减少长程漂移。在短片段和长程协议上的实验表明，StreamChar在单个H100 GPU上实现实时运行，在文本保真度、音视频同步、视觉质量和流式稳定性方面，相比近期联合式及音频驱动基线，提供了更优的系统级权衡。

技能并非一刀切：面向LLM智能体的模型感知技能对齐
Skill is Not One-Size-Fits-All: Model-Aware Skill Alignment for LLM Agents

May 29

ByJianxiang Yu, Jiapeng Zhu, Bochen Lin, Qier Cui, Zichen Ding, Xiang Li

大语言模型智能体越来越多地通过检索外部技能库——即在决策时检索的程序性指令——来提升在长周期交互任务中的表现。现有技能库通常被视为与模型无关，在不同能力与行为差异显著的主干模型上复用相同的技能表述。然而，我们在多个模型规模上的控制实验表明，技能的有效性与模型高度相关：对一个主干模型有益的技能可能损害另一个主干模型。基于这一观察，我们提出MASA（模型感知技能对齐）框架，该框架无需调整智能体权重即可将技能适配至每个目标主干模型。MASA分为两个阶段运行：（1）一个分层技能进化流水线，通过爬山法和基于UCB的树搜索，在环境反馈与模型能力档案引导下，迭代重写通用及任务特定技能；（2）一个轻量级、以模型为条件的技能重写器，基于进化轨迹训练，能够在单次前向传播中复现适配过程。在三个交互环境与四个主干模型上的实验表明，MASA始终取得最佳整体性能，相比最强基线提升高达25.8个点。训练好的重写器还能泛化至未见任务与环境，无需额外搜索，且以极低的推理成本持续超越更大的教师大语言模型。

OpenWebRL：揭秘面向视觉网页代理的在线多轮强化学习
OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents

Jun 1

ByRui Yang, Qianhui Wu, Yuxi Chen, Hao Bai, Wenlin Yao, Hao Cheng, Baolin Peng, Huan Zhang, Tong Zhang, Jianfeng Gao

构建强大的视觉网络代理需要长程推理、精确的基础能力，以及与动态真实网络环境的稳健交互。尽管进展迅速，但最先进的系统仍多为专有，而开源代理则严重依赖对大量精选网络轨迹进行监督式后训练。这种依赖性造成了显著的扩展性瓶颈：高质量示范数据的收集成本高昂，且静态数据集对多样化、不断变化的开放网络的覆盖范围有限。尽管在线强化学习在基于文本的代理中已展现出潜力，但其直接应用于真实网站以训练视觉网络代理的潜力尚待充分探索。本文提出 OpenWebRL，一个用于在真实网站上通过在线多轮强化学习训练视觉网络代理的开放框架。OpenWebRL 覆盖完整训练流程，包括可扩展的实时浏览器基础设施、监督式初始化、多模态上下文管理、轨迹级成功判定以及高效的多轮策略优化。利用该框架，我们训练了 OpenWebRL-4B，在具有挑战性的实时网络基准测试中确立了新的开源最优水平。仅使用 0.4K 初始化轨迹和 2.2K 开放式强化学习训练任务，OpenWebRL-4B 在 Online-Mind2Web 上达到 67.0% 的成功率，在 DeepShop 上达到 64.0%，超越了相似或更大规模的先前开源代理，并与包括 OpenAI CUA 和 Gemini CUA 在内的专有系统保持竞争力。除了强大的基准性能外，我们系统性研究了使在线强化学习对视觉网络代理有效的关键设计选择，并分析了强化学习如何提升代理推理能力。总体而言，我们的工作为构建更强大、可复现且成本效益更高的开放网络代理提供了实践路径。我们将发布训练数据、模型和代码以支持未来研究。

推测性流水线解码：通过流水线并行实现更高准确性与零气泡推测
Speculative Pipeline Decoding: Higher-Accruacy and Zero-Bubble Speculation via Pipeline Parallelism

May 29

ByYijiong Yu, Huazheng Wang, Shuai Yuan, Ruilong Ren, Ji Pei

推测性解码（SD）通过采用“先草拟后验证”的范式，加速了低并发大语言模型（LLM）推理。然而，主流方法通常依赖多令牌预测，这会引入递增的预测难度和串行草拟延迟。为解决这些问题，我们提出了推测性流水线解码（SPD），这是一个突破性框架，能够释放流水线并行的真正潜力。通过将目标LLM划分为n个流水线阶段，SPD允许LLM并行处理n个令牌以加速解码。为了在单序列解码中持续填充流水线，一个推测模块整合了不同流水线深度的中间特征来预测下一个令牌，严格与目标模型的流水线步骤并行执行，从而实现有界的预测难度、更高的接受率和零延迟气泡。实验表明，与主流基线相比，SPD实现了显著更高的理论加速，为LLM解码加速提供了一种高度可扩展的解决方案。我们的代码开源在：https://github.com/yuyijiong/speculative_pipeline_decoding。

语言智能体的策略与世界建模协同训练
Policy and World Modeling Co-Training for Language Agents

Jun 1

ByNing Lu, Baijiong Lin, Shengcai Liu, Jiahao Wu, Haoze Lv, Yanbin Wei, Lingting Zhu, Shengju Qian, Xin Wang, Ying-Cong Chen, Qi Wang, Ke Tang

强化学习通过训练大型语言模型代理识别哪些行动能获得高奖励来提升其性能，但对这些行动如何影响环境提供的监督极少。世界建模可以弥补这一缺陷，然而现有方法通常需要独立的模拟器、额外的训练阶段或额外的推理时计算。我们观察到，在策略强化学习轨迹已经包含了所需的信号：每次状态转移都将一个行动与其产生的后续观察配对。基于这一观察，我们提出了PaW（策略与世界建模联合训练框架），该框架在不改变推理范式的前提下，在强化学习过程中为同一策略添加辅助的世界建模监督。为使辅助世界建模监督具备信息性和稳定性，PaW引入了三个组件：基于动作熵的世界模型数据选择、抗噪的世界模型损失函数以及奖励自适应的损失平衡。在三个代理型任务基准上的实验表明，在多种模型和强化学习算法上，该方法均较强大的强化学习基线实现了一致改进。这些结果表明，标准强化学习轨迹是语言代理训练中世界模型监督的实用来源。

AFUN：面向功能理解的可供性基础模型
AFUN: Towards an Affordance Foundation Model for Functionality Understanding

Jun 1

ByZhaoning Wang, Yi Zhong, Jiawei Fu, Henrik I. Christensen, Jun Gao

功能可供性理解连接了视觉感知与物理动作，为机器人操作在开放、非结构化的真实世界环境中提供了可解释的接口。然而，构建一个不仅能理解交互发生的位置与方式，还能在多样化环境、物体和任务中泛化的功能可供性基础模型，仍是一个长期的研究挑战。现有方法通常仅解决部分挑战——要么定位任务相关区域但未指定可执行运动，要么预测运动但可扩展性有限。本文提出我们的模型，旨在迈向功能理解的功能可供性基础模型。该模型通过单张RGB-D观测和语言任务描述，预测任务条件功能掩膜（交互位置）和三维接触后运动曲线（交互方式）。为支持开放世界泛化，我们构建了一个大规模标准化数据管道，将异构机器人、人类、仿真及真实世界扫描数据转换为共享的功能可供性架构，包含语言、掩膜和以物体为中心的三维运动标签。我们从三个方面评估模型：在功能可供性分割方面，模型在来自4个基准的8个测试集上大幅优于所有基线，平均gIoU/cIoU提升+23.9/+26.3；在接触点预测方面，模型预测的点精度显著提高，相比最佳基线命中率提升12.7%~61.3%；在三维运动预测方面，模型在全部三个测试集上达到最优性能。该模型可直接部署于真实世界机器人操作任务，无需对机器人本体进行微调或使用任务特定启发式方法，展现出适应开放世界功能可供性任务的能力。项目页面：https://www.zhaoningwang.com/AFUN

智能体技能应超越文本：视觉技能的必要性
Agent Skills Should Go Beyond Text: The Case for Visual Skills

May 31

ByBinxiao Xu, Ruichuan An, Bocheng Zou, Hang Hua

可复用技能是扩展智能体能力的关键机制，使智能体能积累经验并解决日益复杂的任务。然而，现有大多数技能学习方法仅将可复用经验存储为纯文本资产，例如指令、推理轨迹或轨迹摘要。我们认为，这种纯文本范式在以视觉为中心的任务中造成了根本性瓶颈——这类任务的可复用知识往往依赖于空间布局、视觉定位、细粒度外观及局部状态变化。为突破这一局限，我们提出\NAME，一种融合声明性文本逻辑与显式视觉支持的多模态技能范式。我们区分出三种可复用形式：用于稳定空间惯例的静态先验、用于原位视觉工作记忆的动态先验，以及将有序文本步骤与源帧、截图或页面区域（作为步骤合理性依据）绑定的交错视觉技能。视觉技能不仅描述“做什么”，还编码“看哪里”“如何检查”以及“如何验证视觉结果”。为扩展视觉技能构建规模，我们引入\SYSTEM自动化系统，通过保留任务轨迹中的文本推理、空间引用、视觉边界及交互模式，将智能体经验转化为可复用多模态技能。在图形用户界面及其他以视觉为中心的任务上的实验表明，视觉技能始终优于纯文本技能——尤其当任务成功需要空间对应关系、视觉证据及状态感知交互时。这些结果支撑了我们的核心论点：可复用智能体技能应当超越文本，成为未来多模态智能体的多模态资产。

RoboStressBench：具身场景中VLM对物理视觉压力的鲁棒性基准测试
RoboStressBench: Benchmarking VLM Robustness to Physical Visual Stress in Embodied Scenes

May 30

ByLeyi Wu, Yifan Zhao, Jinjie Zhang, Suzeyu Chen, Wosong Chen, Zhifei Chen, Tianshuo Xu, Qingchun He, Hongxin Hu, Haojian Huang, Yangkai Wei, Wenqian Li, Yinchuan Li, Ying-Cong Chen

视觉语言模型（VLM）已展现出强大的视觉理解能力，并被越来越多地部署在具身AI系统中。在这些系统中，真实条件下可靠的感知能力至关重要。然而，现有基准测试使用干净图像或孤立扰动来评估VLM，而非由物理场景形成过程产生的应力。这种设计存在两个局限：仅覆盖日常视觉应力中的一小部分子集，且部分扰动在真实具身场景中鲜有出现。这一差距引出一个根本性问题：我们如何以原则性的方式定义视觉应力，以捕捉物理环境中遇到的各种因素？针对此问题，我们从逆图形视角构建视觉感知框架，并引入RoboStressBench——一个用于评估VLM在具身场景中应对物理视觉应力鲁棒性的基准。受物理渲染方程启发，RoboStressBench将视觉应力分解为四个物理可解释的维度：材质（M）、视角（V）、光照（L）和几何（G）。这一设计使RoboStressBench能够覆盖真实世界中广泛的视觉应力类型，同时允许对其影响VLM能力（如视觉识别、推理和规划）进行受控分析。通过对当前最先进VLM的全面评估，我们识别出特定应力下的失败模式，并揭示不同物理因素会削弱不同具身能力——这些差异往往被聚合准确率所掩盖。我们进一步引入一种应力感知型智能求解器，它能在推理前检测视觉应力源并调用视觉编辑技能，从而提升高压场景下的鲁棒性。总体而言，RoboStressBench提供了一个原则性的评估框架，用于诊断和改进VLM在真实物理应力下的感知能力，支持开发更可靠的具身AI系统。

PARCEL: 池锚定重采样与条件化弹性查询的高效视觉语言理解
PARCEL: Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding

May 28

BySelim Kuzucu, Alessio Tonioni, Vasile Lup, Bernt Schiele, Federico Tombari, Muhammad Ferjad Naeem

大型视觉语言模型（LVLMs）将视觉输入映射为密集的令牌序列，给推理带来了二次方的计算瓶颈。弹性视觉令牌压缩通过训练单一模型使其能够在多种视觉令牌预算下运行来解决这一问题。然而，现有方法在激进压缩下表现不佳。仅基于空间的压缩（如嵌套池化）表现为不完美的低通滤波器，引发频谱混叠，从而模糊了细粒度细节。仅基于查询的压缩（如嵌套查询重采样）用非局部摘要替换了显式的网格对齐令牌，并大幅降低了空间定位能力。为了解决这一表征冲突，我们提出了PARCEL（基于池锚定的弹性查询条件重采样以实现高效视觉语言理解），这是一种动态划分特征提取任务的视觉令牌化架构。PARCEL将空间池化令牌建立为低频布局锚点，并通过池化条件查询重采样使弹性查询令牌依赖于这些锚点。这促使查询令牌专注于互补的视觉特征，而非冗余的空间映射。在27个基准上的广泛评估表明，PARCEL改善了性能-效率帕累托前沿，在多种视觉令牌预算下始终优于现有的嵌套式基线，同时保留了“一次训练，随处部署”的范式。

MineExplorer：评估Minecraft中MLLM智能体的开放世界探索能力
MineExplorer: Evaluating Open-World Exploration of MLLM Agents in Minecraft

May 29

ByTianjie Ju, Yueqing Sun, Zheng Wu, Wei Zhang, Yaqi Huo, Xi Su, Qi Gu, Xunliang Cai, Gongshen Liu, Zhuosheng Zhang

多模态大语言模型（MLLMs）在感知、推理和行为生成方面展现出强大能力，但它们在动态开放世界中持续探索的能力仍不明确。现有基于具身智能和游戏的基准测试常将交互压缩为短时任务，或将成功与特定领域游戏机制相纠缠。本文提出MineExplorer基准，用于评估MLLM智能体在《我的世界》中的开放世界探索能力。我们首先筛选出依赖《我的世界》特有知识解决的原子任务，以更好地反映通用开放世界推理。随后，我们基于ReAct风格的能力框架组织基准测试，并将原子任务组合为隐式多跳任务。为构建可靠实例，MineExplorer采用多智能体合成工作流，联合设计任务图、沙盒场景及基于规则的里程碑评估器。人工评估表明，多智能体合成工作流生成的实例可靠性显著优于单智能体基线。对先进MLLM智能体的实验表明，开放世界探索仍具挑战性——强模型能处理众多单跳任务，但需在更长轨迹中协调隐藏先决条件时性能急剧下降。进一步分析发现，任务难度与智能体完成度相关，且更大规模模型或思维模式并不总能转化为更优性能。代码与数据集见https://github.com/Jometeorie/MineExplorer。

RoboSemanticBench: 诊断VLA模型动作预测中的语义基础
RoboSemanticBench: Diagnosing Semantic Grounding in Action Prediction for VLA Models

Jun 1

ByBin Yu, Yao Zhang, Haishan Liu, Shijie Lian, Yuliang Wei, Xiaopeng Lin, Zhaolong Shen, Changti Wu, Ruina Hu, Bailing Wang, Cong Huang, Kai Chen

视觉-语言-动作(VLA)模型建立在这样一个前提上：预训练语言或视觉-语言主干网络的语义理解应指导机器人动作预测。然而，机器人微调作为对任务特定动作分布的模仿进行优化，许多评估可以通过视觉或指令-动作捷径来解决。我们推出RoboSemanticBench(RSB)，这是一个具身基准测试，用于诊断动作预测中的语义基础：后训练的VLA模型能否利用复杂指令语义来选择和操作正确的物理目标。在每个回合中，机器人接收一道数学或常识知识选择题，观察候选答案块，并必须抓取对应正确答案的块。RSB涵盖四选一和十选一的受控算术、小学水平数学理解以及常识或事实理解题。在代表性VLA模型上的实验表明，许多策略学会了抓取候选块，但在控制抓取成功率后，选择语义正确块的表现接近随机或低于随机水平，揭示了主干网络层面的语义能力与动作预测之间的持续差距。

现成大语言模型作为过程评分器：数学推理中无需训练的过程奖励模型替代方案
Off-the-Shelf LLMs as Process Scorers: Training-Free Alternative to PRMs for Mathematical Reasoning

Jun 1

ByAtoosa Chegini, Soheil Feizi

使用更强的评分模型从多个小模型样本中选择最佳响应是一种简单的推理时策略，但当小模型已陷入错误推理路径时便会失效。PRM引导搜索通过在生成过程中对候选续写进行评分来避免这一问题，但需要基于步骤级标签训练奖励模型。我们提出**块级引导生成**（Chunk-Level Guided Generation），这是一种无需训练的替代方案，可直接利用现成的大型语言模型作为过程评分器。在每一步中，小模型采样k个固定长度的候选块，大模型则基于似然性对候选块进行评分而不生成任何文本。被选中的块在下一步之前被确定，从而在错误传播之前引导生成过程。我们通过两种选择规则实例化该框架：**似然引导选择**（LGS），选择长度归一化后大模型对数概率最高的块；以及**对比引导选择**（CGS），通过减去小模型的对数概率来优先选择大模型偏好与小模型存在差异的块。我们证明，使用大模型似然性对变长推理步骤进行评分由于存在系统性的长度偏差（即使经过长度归一化后仍存在）而不可靠，而固定长度块可避免这一干扰因素。在GSM8K、MATH、Minerva Math、AMC23和AIME24数据集上，使用Qwen2.5-1.5B由Qwen2.5-32B引导、以及Llama-3.2-1B由Llama-3.1-70B引导的实验中，CGS相比多数投票方法性能提升最多达28个百分点；在匹配的引导预算下，其性能在多数基准测试中达到或超越了使用Qwen2.5-Math-PRM-72B引导搜索的方法（无需奖励模型训练）。当使用Qwen2.5-7B由Qwen2.5-72B引导时，CGS在k=16条件下于MATH和Minerva Math上分别达到81.8%和63.6%的准确率，相比多数投票方法提升4-6个百分点。最后，块级引导生成产生的推理路径长度远短于PRM引导搜索。

多智能体计算机使用
Multi-Agent Computer Use

Jun 1

ByJing Yu Koh, Ruslan Salakhutdinov, Daniel Fried

当前的计算机使用智能体（CUA）主要部署为单一序列化智能体。这种架构对于需要任务分解、并行执行及基于新信息持续重规划的复杂长周期任务而言，并非最优方案。本文主张应转向评估和构建多智能体计算机使用（MACU）系统。这类强调规划与并行执行的系统，能够有效缓解单智能体CUA的诸多缺陷。我们提出一种通用多智能体框架：管理者模型将计算机使用任务解构为有向无环图（DAG），为子智能体编码相关依赖关系与目标。在每次迭代中，管理者将并行派发CUA子智能体执行DAG就绪边界上的节点，并随子智能体返回的新发现持续修订DAG（增删或重写节点）。该设计将计算机使用的部分可观测环境视为首要挑战：下游智能体可能无法重新观测到的信息，将通过管理者与DAG结构得以保留与传递。实验表明，MACU在桌面任务（OSWorld）与网页导航（Online-Mind2Web、WebTailBench、Odysseys）基准测试中，相较强大的单智能体基线系统始终提升3.4%-25.5%的性能，展现出更优的测试时扩展性，并能解决单智能体CUA无法完成的复杂长周期任务。在长周期网页导航基准Odysseys上，MACU将任务完成平均耗时缩短约1.5倍，证明了其在加速传统CUA流程方面的有效性。我们的研究揭示，多智能体协调是推动计算机使用智能体在更长时间内高效工作的富有前景的扩展方向。相关代码与交互式可视化工具已发布于https://jykoh.com/multi-agent-computer-use。

SOCO: 视觉基础模型中语义对象对应关系的基准测试
SOCO: Benchmarking Semantic Object Correspondence in Vision Foundation Models

May 29

ByOlaf Dünkel, Basavaraj Sunagad, Haoran Wang, David T. Hoffmann, Christian Theobalt, Adam Kortylewski

在视觉基础模型中测量结构化对象理解能力仍面临挑战，原因在于评估协议不一致以及部分级标注有限。语义对应（SC）通过检验对象部件能否在实例和类别间跨外观、视角和几何形态的大幅变化中进行匹配，来评估这一能力。为支持系统化的SC评估，我们引入了SOCO——一个面向语义对象对应的新基准。该基准提出了对应类型的分类体系，并在100个类别和超过100万对对应关系上提供了一致且功能上有意义的关键点标注。此外，SOCO还包含关键点语言描述，使得评估大型视觉语言模型（LVLMs）及其细粒度部件级理解能力成为可能。综合实验表明：（i）视觉基础骨干网络编码了强语义结构，但在相关类别间传递对应关系时表现不佳，且仅部分捕获了对象部件的位置；（ii）LVLMs在文本提示的部件定位方面强于基于视觉参考的跨图像匹配，揭示了语言引导定位与细粒度视觉对应之间的差距；（iii）对应关系性能对密集下游任务（包括分割、跟踪、3D姿态估计和3D检测）的预测能力优于ImageNet分类。综合来看，这些发现将SOCO定位为评估视觉和多模态基础模型中结构化部件级表示质量的基准。

通过激活修补测量大语言模型遗忘的深度
Measuring the Depth of LLM Unlearning via Activation Patching

May 23

ByJaeung Lee, Dohyun Kim, Jaemin Jo

大语言模型（LLM）反学习已成为隐私保护与AI安全领域至关重要的后置机制，然而，审计目标知识是否被真正擦除仍具挑战性。现有的输出级指标无法检测到当这些知识可以从内部表征中恢复的情形。近期的白盒研究表明此类残留知识的存在，但往往依赖于辅助训练或特定数据集的适应性调整，缺乏通用化的评估指标。为解决这些局限性，我们提出了反学习深度得分（UDS），这是一种通过激活修补来量化反学习机制深度的指标。UDS首先利用保留模型基线识别编码目标知识的层，然后以0-1尺度衡量反学习模型中该知识被擦除的程度。在涵盖8种方法的150个反学习模型上的20项指标元评估中，UDS取得了最高的忠实性与鲁棒性，证实了我们基于因果的方法在反学习评估中最为可靠。案例研究进一步揭示，白盒指标可能在层级别上存在分歧，且擦除深度因示例而异。我们提供了将UDS集成到现有基准框架并简化评估流程的指导方针。代码与数据见https://github.com/gnueaj/unlearning-depth-score。

HakushoBench：基于政府白皮书的日本图表与表格VQA基准
HakushoBench: A Japanese Chart and Table VQA Benchmark from Governmental White Papers

May 31

ByIssa Sugiura, Shuhei Kurita, Yusuke Oda, Naoaki Okazaki

理解图表和表格图像对于将视觉语言模型（VLM）应用于现实世界的文档理解至关重要。尽管英文基准测试发展迅速，但非英文基准测试仍然稀缺，这让人不清楚这些进展能否跨越语言障碍实现泛化。一个关键障碍在于大规模收集真实且多样化的非英文图表和表格图像存在困难。为解决这一问题，我们利用政府白皮书作为超越英文的基准构建的可扩展来源，因为这些文件包含自然出现的、格式和领域多样的图表和表格，且在许多国家可免费获取。作为首次实践，我们推出了HakushoBench——一个基于33份政府白皮书构建的、具有挑战性的日文图表VQA基准测试。HakushoBench包含2,053张图像，涵盖超过10种图像类型，并配有手动标注的问答对，旨在评估对图表和表格的深入全面理解，而非仅依赖局部视觉线索。对多种VLM的实验表明，HakushoBench对开源权重模型仍具挑战性：最佳开源模型的准确率仅为58.6%，而开源权重模型与专有模型之间34.9个百分点的差距凸显了复杂图表理解领域仍有巨大的改进空间。我们公开发布了数据集和代码。

SVI-Bench：一种用于策略视频智能的动态微世界
SVI-Bench: A Dynamic Microworld for Strategic Video Intelligence

May 29

ByYulu Pan, Han Yi, Seongsu Ha, Md Mohaiminul Islam, Benjamin Zhang, Lorenzo Torresani, Gedas Bertasius

真正的视频智能不仅需要识别可见内容，更需要理解事件为何发生、预判不同条件下的变化并决定下一步行动。我们将这种从感知到因果推理与模拟、再到战略规划的进阶过程称为"战略视频智能"（Strategic Video Intelligence, SVI）。现有基准均无法评估这一能力体系：野外视频缺乏因果与战略问题的可验证真实标注，而合成环境又牺牲了真实多智能体系统的复杂性。为弥补这一空白，我们提出SVI-Bench——一个大规模基准，以团队体育作为动态微世界，既保留真实世界多智能体交互的复杂性（10-22名智能体在对抗压力下做出协调决策），又具备明确规则与确定性结果的验证性。该基准涵盖约3.5万小时转播视频、1500万个标注动作、1.5万小时专家解说、2.3万份比赛报告及10.3万条结构化统计记录，覆盖篮球、足球和冰球项目，所有数据均通过数据引擎将原始比赛数据转化为密集交叉引用的语料库。我们将评估划分为9项任务，构成渐进式四柱层级：动态场景理解、因果推理、战略模拟与智能体综合。对主流多模态与智能体基线模型的评估显示存在能力断层：模型在感知任务中表现尚可（细粒度动作问答准确率约73%），但每升至更高认知层级性能便急剧下降。其中智能体任务最为困难：最强模型在需自主收集并整合180万个片段语料证据时，准确率仅达5%。

FineVerify: 通过细粒度自验证扩展测试时计算以用于智能体搜索
FineVerify: Scaling Test-Time Compute with Fine-Grained Self-Verification for Agentic Search

May 30

ByJames Xu Zhao, Hui Chen, Bryan Hooi, See-Kiong Ng

智能体搜索需要语言模型智能体探索多个信息来源并回答复杂的信息检索问题。扩展测试时计算是提升这些智能体性能的前景方法，但现有方案可能失效，因为正确答案往往稀疏，且基于得分的筛选依赖模型校准效果。我们提出FineVerify——一种细粒度自验证框架，该框架将每个问题分解为可核验的子问题，针对每个子问题验证采样候选答案，并选择聚合得分最高的候选答案。这种逐项核验结构将选择过程简化为局部判断，并在统一明确标准下生成得分。在四个智能体搜索基准测试和两个模型上的实验表明，FineVerify始终优于标准扩展基线方法。仅使用四条采样轨迹，FineVerify使GPT-5-mini平均提升8.2个准确率百分点，Gemini-3-flash平均提升5.6%。使用12条采样时，FineVerify使GPT-5-mini在BrowseComp-Plus上超越前沿模型GPT-5。除准确率提升外，FineVerify还生成可解释的验证轨迹，有助于审计基准测试错误，这预示着其在审查智能体搜索系统方面具有更广泛的应用前景。代码与数据已开源至https://github.com/XuZhao0/fineverify

物理AI中的静默故障：自主系统运行时动作授权的文献综述
Silent Failures in Physical AI: A Literature Review of Runtime Action Authorization for Autonomous Systems

May 23

ByBarak Or

物理AI系统日益将多模态观测、语言指令和学习的世界表征映射为具有物理后果的动作。机器人基础模型、视觉-语言-动作模型以及基于世界模型的自主系统能够约束决策，驱动车辆、机器人、无人机和工业设备移动。这一转变暴露了一个安全问题，该问题无法被传统AI内容审核或单一经典机器人安全措施完全涵盖：黑箱模型可能在看似自信、合理且语义一致的情况下，发出具有物理后果的动作。由此产生的故障可能是无声的，源于传感器漂移、遮挡、状态估计误差、分布偏移、幻觉可供性，或在下游硬件控制器检测到违规之前就已存在的无效物理假设。在具身基础模型、世界模型、机器人仿真、具身安全基准、安全控制、运行时保障、不确定性估计、验证和护栏评估等领域，模型能力与安全机制大致沿着独立的技术轨道发展。本文综合发现一个反复出现的空白：本次综述考察的任何单一技术流均未能在黑箱物理AI模型与物理执行之间提供完整的运行时授权边界。由此得出的分析建立了有界的问题表述、无声物理动作故障的定义、运行时护栏功能的分类，以及将护栏作为物理AI保障机制进行比较的评估要求。

不仅关注位置，还关注时间：面向RLVR的时间调度
Not only where, But when: Temporal Scheduling for RLVR

May 25

ByJinghao Zhang, Ruilin Li, Feng Zhao, Jiaqi Wang

基于可验证奖励的强化学习（RLVR）已成为大型语言模型（LLM）后训练的核心技术。尽管策略优化由所有采样令牌在全局广播的标量奖励驱动下进行，但轨迹中呈现的异质性策略行为在很大程度上被忽视，未加以区分。现有工作通过信用分配来处理这一问题，包括令牌级优势重加权和选择性令牌优化，然而，这些分配准则在整个训练过程中基本停滞不变，限制了策略的弹性演化。在本工作中，我们认为学习信号的调度时机与信号在令牌间的分配位置同样重要，并引入了时间维度，即在RLVR优化过程中动态调度信用分配准则。我们发现，优先关注具有特定策略行为的目标令牌，并逐渐衰减至通用优化，能够带来更稳定且高效的学习动态。此外，我们证明了简单的轨迹百分位数可以为区分策略行为提供自然视角，并与时间调度有效配合。我们的分析表明，标准优化在同时容纳异质性行为时会显著牺牲策略熵，而时间调度则产生更健康的策略演化动态。在数学和通用推理基准上的实验显示出一致的改进，表明时间调度构成了一个有前景的优化维度。

通过跨语言分词器手术与离线蒸馏将多语言嵌入模型适应土耳其语
Adapting Multilingual Embedding Models to Turkish via Cross-Lingual Tokenizer Surgery and Offline Distillation

May 28

ByM. Ali Bayram, Banu Diri, Savaş Yıldırım

句子嵌入是语义搜索、聚类、分类和检索增强生成的基础组件。本文提出embeddingmagibu-200m模型——一个专注于土耳其语的句子嵌入模型，可生成768维L2归一化向量，并支持8192个token的上下文窗口，远超此前基于BERT的土耳其语编码器仅512个token的限制。本工作未进行完整的预训练，而是引入了一个高效的三阶段适应流程：(1) 通过从教师分词器的词汇表中剪枝冗余标记，并结合基于40种语言语料库频率分析引入多语言标记，构建一个词汇量为131,072的土耳其语优化多语言分词器；(2) 克隆教师嵌入模型，保持变压器骨干权重不变，并通过均值组合标记映射为新的词汇表初始化兼容的嵌入表；(3) 使用预计算的教师向量，在平衡的40种语言维基百科语料库上以余弦相似度为目标进行离线嵌入蒸馏。所得学生模型约含2亿参数，通过在训练过程中避免在线教师推理，可在单个GPU上约四小时内完成训练，总成本为5-20美元。实验结果表明，该模型在STSbTR上的皮尔逊/斯皮尔曼相关系数分别达到77.55%/77.45%，超越了含3亿参数的教师模型（73.84%/72.92%）。在TR-MTEB（26项任务）上，平均得分63.9%（在26个模型中排名第7），以比教师模型少33%的参数提供了有竞争力的性价比。为促进可复现性和下游应用，所有成果均已开源，包括模型权重、分词器文件、预计算嵌入数据集以及开源克隆与蒸馏工具。

3DCodeBench：通过代码对智能体程序化3D建模进行基准测试
3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code

May 31

ByYipeng Gao, Lei Shu, Genzhi Ye, Xi Xiong, Ameesh Makadia, Meiqi Guo, Laurent Itti, Jindong Chen

通过代码进行程序化3D建模正成为一种多功能的范式，能够提供确定性、引擎就绪且可精确编辑的资产，而这些是神经3D生成器所固有的缺失。然而，编写此类程序化内容需要对3D软件API、参数化设计以及代码级几何推理有深入的专业知识。本文提出3DCodeBench，这是一个系统化的基准测试，用于评估视觉语言模型（VLM）智能体在3D建模软件中执行程序化3D生成的能力。具体而言，3DCodeBench通过将文本和图像参考转换为3D建模软件的程序化代码，评估12种先进VLM作为程序化3D建模器的有效性。考虑到自动化指标可能无法完全捕捉3D形状的感知质量，我们构建了3DCodeArena，一个基于成对人工偏好对生成的3D输出进行排名的平台。通过广泛的评估和结果，我们观察到：（1）失败主要源于API不匹配，而成功渲染的模型仍存在3D几何组件断开或浮动的缺陷。（2）测试时扩展（如更高的思考预算和多轮优化）总体上提升了性能。我们的发现凸显了对高质量程序化编码数据的迫切需求，以推动商业VLM的进步。此外，有效的程序化3D建模需要一个稳健的执行环境，为迭代优化提供高保真反馈。我们发布了3DCodeBench，包括精心策划的大规模多模态（文本/图像）提示数据集、程序化代码、3D对象三元组、评估协议，以及公共3DCodeArena平台，作为探索基于VLM的程序化3D建模器的基础工具包。

LongAttnComp：跨家族上下文压缩用于长上下文推理
LongAttnComp: Cross-Family Context Compression for Long-Context Reasoning

May 31

ByMengmeng Ji, Ravi Shanker Raju, Jonathan Lingjie Li, Chen Wu

随着实际应用日益需要处理超过10万令牌的输入，上下文长度与推理效率之间的差距已成为关键瓶颈。上下文压缩提供了一种在保持任务准确性的同时降低预填充成本的方法。然而，现有基于注意力机制的无训练方法在代码推理等长上下文任务中仍存在显著差距。我们提出LongAttnComp——一种针对长上下文场景适配的AttnComp变体，通过微调轻量级交叉注意力评分层，引入令牌级分块、令牌预算Top-P算法、位置重排序以及格式无关的查询解析器。我们进一步设计了压缩器的两阶段微调方案：第一阶段基于NIAH风格数据构建通用检索基础，第二阶段通过多跳推理数据拓展其长上下文任务覆盖范围。在InfiniteBench Code-Debug基准上，LongAttnComp在准确率上达到或超越全上下文方案，显著优于无训练基线方法，并能跨三个模型家族的四个目标模型进行迁移。在LongBench v2基准上，两阶段微调方案大幅缩小了第一阶段在多文档推理任务上的性能差距，同时保持了Code-Debug任务的效果。

EVA01: 通过混合Transformer实现统一原生3D理解与生成
EVA01: Unified Native 3D Understanding and Generation via Mixture-of-Transformers

May 16

ByZongyuan Yang, Mingjing Yi, Wanli Ma, Chenzhuo Fan, Bocheng Li, Baolin Liu, Yuke Lou, Yingde Song, Yongping Xiong, Zhengdong Guo, Shimu Wang

本文提出了一种将3D网格作为原生模态集成到多模态大语言模型（MLLMs）中的挑战性方法。基于扩散的大型重建模型将语义理解与几何推理解耦，作为以稠密2D像素先验为条件的无状态重建器运行。近期基于MLLM的方法将3D模态视为外部输出而非多模态序列的原生组件，采取增量式调整，缺乏对几何流形与MLLM特征空间对齐的系统性分析。我们提出EVA01，这是一个统一框架，将MLLM的模态边界扩展至原生整合3D网格的理解、生成及上下文感知编辑。EVA01基于混合变换器（Mixture-of-Transformers, MoT）架构构建，将模型解耦为预训练的"理解专家"（E\_und）和结构镜像的"生成专家"（E\_gen），两者通过共享全局自注意力机制与硬模态路由耦合。该设计使MLLM主干网络的语义隐空间与几何流形对齐，从而无需中间2D表征即可直接迁移多模态先验。结果表明，EVA01在原生文本到3D生成保真度上达到最优水平，并实现了鲁棒的长上下文多轮几何编辑与身份保持能力，这是无状态重建流水线从根本上无法企及的功能。我们的发现进一步为2D基础模型与3D任务的集成提供了架构洞见，为3D原生多模态系统的设计提供了参考。项目页面：https://www.seeles.ai/research/pages/EVA01

ACL-Verbatim：面向研究领域的无幻觉问答
ACL-Verbatim: hallucination-free question answering for research

May 20

ByGábor Recski, Szilveszter Tóth, Nadia Verdha, István Boros, Ádám Kovács

学术研究者需要高效且可靠的方法从可靠来源中收集高质量信息，但当前用于AI辅助研究的现代工具仍存在大语言模型（LLM）生成事实性错误或毫无意义输出的倾向，即所谓的“幻觉”。我们将VerbatimRAG抽取式问答系统应用于ACL Anthology中的研究论文，直接将用户查询映射到检索文档中的原文文本片段。我们为“将用户查询映射至研究论文相关文本片段”这一任务贡献了一个新的真实数据集，并利用该数据集训练和评估了多种抽取式模型。人工标注由NLP研究人员完成，基于我们使用ScIRGen方法定制流程生成的合成用户查询，并与VerbatimRAG检索到的研究论文片段配对。在该基准测试中，一个1.5亿参数的ModernBERT令牌分类器（基于我们流程生成的银级监督训练）取得了最佳词级F1值（53.6），领先于表现最强的LLM抽取器（48.7）。

面向专家混合的置信自适应SwiGLU
Confidence-Adaptive SwiGLU for Mixture-of-Experts

May 30

ByShaohua Li, Xiuchao Sui, Xiaobing Sun, Yuhang Wu, Liangli Zhen, Yong Liu, Rick Siow Mong Goh

SwiGLU已成为现代Transformer MLP中的标准门控激活函数，但其门控锐度——即门控函数的平滑性与选择性——在训练过程中通常固定不变。本文提出一种针对混合专家（MoE）模型的SwiGLU变体——置信度感知型SwiGLU（κ-SwiGLU），该变体根据词元级别的路由置信度动态调整专家门控锐度。具体而言，κ-SwiGLU将SiLU门控锐度系数参数化为路由器对数几率（logit）的可学习函数，使每个专家门控单元能够在平滑宽泛激活与锐利选择性激活之间进行插值。我们在FineWeb-Edu数据集上对8至28层的MoE Transformer模型进行了评估。在多种设置下，κ-SwiGLU在仅增加少量参数且仅产生微小计算开销的前提下提升了平均CORE性能，表明置信度感知的门控锐度是改进MoE MLP的一种有前景的机制。代码已开源至https://github.com/askerlee/kappa-swiglu。

TVIR：构建面向图文交错报告生成的深度研究智能体
TVIR: Building Deep Research Agents Towards Text--Visual Interleaved Report Generation

Jun 1

ByXinkai Ma, Zhiqi Bai, Dingling Zhang, Pei Liu, Yishuo Yuan, He Zhu, Jiakai Wang, Qianqian Xie, Yifan Zhao, Xinlong Yang, Hao Cong, Zhiheng Yao, Fengxia Xie, Zihao Xu, Haoran Xu, Zhaohui Wang, Minghao Liu, Shirong Lin, Yingshui Tan, Yuchi Xu, Wenbo Su, Zhaoxiang Zhang, Bo Zheng, Jiaheng Liu

深度研究代理在多步信息检索、推理和长文报告生成方面展现了强大能力，但现有基准和系统仍以文本为中心，对视觉元素是否事实可靠且与周围分析良好对齐的评估有限。为弥补这一空白，我们提出了TVIR（文本-视觉交错报告生成），其中包括TVIR-Bench——一个由100个专家策划的多模态深度研究任务组成的基准，要求视觉元素服务于特定的分析子目标；以及TVIR-Agent——一个分层多代理框架，作为构建大纲、检索图像、生成带有可追溯来源的图表以及通过上下文感知的序列写作撰写报告的强基线。我们进一步开发了双路径评估框架，结合了文本评估和视觉评估。在九个深度研究系统上的实验表明，TVIR-Agent取得了优异的整体性能，凸显了显式多模态设计和评估对于证据驱动报告生成的重要性。

MindZero：零标注下的在线心智推理学习
MindZero: Learning Online Mental Reasoning With Zero Annotations

May 29

ByShunchi Zhang, Jin Lu, Chuanyang Jin, Yichao Zhou, Zhining Zhang, Tianmin Shu

实现有效的现实世界辅助需要具备强大理论心智（ToM）能力的AI智能体：即根据人类行为推断其心理状态。尽管近期取得了进展，但仍存在几个关键挑战，包括：(1) 对多种假设进行鲁棒不确定性更新的在线推理；(2) 适合实时辅助的高效推理；(3) 现实领域缺乏真实心理状态标注。我们通过引入MindZero——一种自监督强化学习框架，来训练多模态大语言模型（MLLMs）实现高效且鲁棒的在线心理推理。训练过程中，模型因生成能最大化规划器估计的观察动作可能性的心理状态假设而获得奖励，这类似基于模型的心理理论推理。该方法因此消除了对显式心理状态标注的需求。训练完成后，MindZero将基于模型的推理内化为快速的单次推理。我们在网格世界和家庭领域的具有挑战性的心理推理与AI辅助任务中，将MindZero与基线方法进行了评估。研究发现，仅依赖大语言模型是不够的；基于模型的方法虽能提升准确性，但速度慢、成本高，且受限于基础MLLM能力。相比之下，MindZero增强了MLLM的内在理论心智能力，在准确性和效率上均显著优于基于模型的方法，表明心理推理可以作为一种自监督技能被有效学习。

基于区域感知双模态直接偏好优化的组合式文本到图像生成
Compositional Text-to-Image Generation Via Region-aware Bimodal Direct Preference Optimization

May 27

ByZhuohan Liu, Wujian Peng, Yitong Chen, Zuxuan Wu

尽管文本到图像（T2I）模型取得了快速进展，但在生成准确反映复杂组合提示（涵盖属性绑定、对象关系、计数等）的图像方面仍面临挑战。为解决这一问题，我们提出了BiDPO框架，旨在增强T2I模型在组合式文本到图像生成中的能力。我们首先引入了一种精心设计的流水线，用于构建大规模偏好数据集BiComp，并严格进行质量控制。随后，我们将扩散DPO扩展到联合优化图像和文本偏好，实验证明该方法在提升模型遵循复杂文本提示生成图像方面非常有效。为进一步实现细粒度对齐，我们采用了一种区域级引导方法，聚焦与组合概念相关的区域。实验结果表明，我们的BiDPO显著提高了组合保真度，在多个基准测试中均优于以往方法。本方法凸显了基于偏好的微调在复杂文本到图像任务中的潜力，为现有技术提供了一种灵活且可扩展的替代方案。

StressDream：引导视频世界模型实现鲁棒的策略评估与改进
StressDream: Steering Video World Models for Robust Policy Evaluation and Improvement

May 29

ByJunwon Seo, Sushant Veer, Ran Tian, Wenhao Ding, Apoorva Sharma, Karen Leung, Edward Schmerling, Marco Pavone, Andrea Bajcsy

视频世界模型通过依据机器人自身行为条件想象未来的真实观测，已在策略评估与改进方面展现出潜力。尽管世界模型能对未来分布进行建模，但策略评估与改进通常依赖于名义想象，除非抽取数量庞大的样本，否则这可能会遗漏机器人行为的高影响结果。为实现基于世界模型想象力的鲁棒策略评估与改进，我们提出StressDream方法，该方法通过在推理时优化扩散式世界模型的初始噪声，将想象力导向文本指定的高影响但合理的未来结果。然而，优化高维噪声颇具挑战：优化过程需在生成视频中推理细微且依赖场景的目标事件，同时避免产生导致不合理想象的分布外噪声。我们通过两个互补目标解决这一问题：一是基于视觉语言模型的语义目标，通过对生成视频进行推理提供信息丰富的梯度；二是合理性目标，防止优化后的噪声偏离分布。通过采用用于自动驾驶和机器人操作的最先进视频世界模型，我们证明StressDream能有效将想象力导向推理时文本指定的高影响但合理的未来结果（如任务失败），从而通过识别其合理未来包含不良后果的行为，实现鲁棒的策略评估与改进。视频结果可见于https://junwon.me/StressDream/。

统一神经缩放定律
Unified Neural Scaling Laws

May 25

ByEthan Caballero, Priyank Jaini, David Krueger, Irina Rish

我们提出了一种函数形式（称为统一神经缩放定律，简称UNSL），它能够精确建模并外推深度神经网络在多个维度同时变化时的缩放行为（即目标评估指标如何随模型参数量、训练数据集规模、训练步数、推理步数、计算量以及各种超参数的同时变化而变化），适用于多种架构及多样化的上游与下游任务。该任务集涵盖大规模视觉、语言、数学及强化学习领域。与其他神经缩放函数形式相比，该函数形式在此任务集上对缩放行为的外推精度显著更优。

预测动力学能否存在于物理世界中？
Can Predicted Dynamics Exist in the Physical World?

May 23

ByBarak Or

预测性物理人工智能系统输出状态展开、动作片段和潜在规划，但低均方根误差（RMSE）并不意味特定方案在物理上可执行。我们将物理可容许性定义为预测-控制接口：在执行前，将解码后的方案视为候选动力学特性，并通过运动学、动力学以及直接到复合的视界条件进行评估。通过并不代表任务成功；拒绝则表明违反了特定物理包络，并提供组件层面的理由。在Hugging Face LeRobot PushT上，受控伪造实验表明，单步预测RMSE与标准化动力学残差达到受试者工作特征曲线下面积（AUC）0.982和0.972，仅运动学条件达到AUC 0.592，而完整门控达到AUC 0.957，并附带条件级归因。在基于回放的中介实验中，残差滤波器与完整物理可容许性门控可阻止87%-89%的无效方案，同时保持平均进度接近0.998。

几何潜在推理促使大语言模型生成更短的输出
Geometric Latent Reasoning Induces Shorter Generations in LLMs

Jun 1

ByShashi Kumar, Yacouba Kaloga, Petr Motlicek, Ina Kodrasi, Andrea Cavallaro

大型语言模型通过生成长链显式推理令牌来解决复杂问题。这种方法虽然有效，但导致推理成本高昂、对长度敏感，且受限于（离散）自然语言。尽管潜在推理提供了连续的替代方案，但如何确定中间潜在状态的有效结构仍是一个开放挑战。本文将潜在推理定义为模型预训练令牌嵌入空间中的几何路径逼近问题。我们提出几何潜在推理（GLR），该方法使用轻量级过渡头来预测嵌入空间中的迭代方向更新。GLR以文本思维链轨迹作为锚点，学习近似离散推理轨迹，同时允许与精确令牌嵌入存在连续偏差。在Qwen3模型的数学推理基准评估中，揭示了一个新兴现象：几何潜在推理能在无显式长度目标的情况下，诱导出大幅缩短的生成序列。通过用连续潜在步骤替代早期显式推理，模型常能以更少的总生成步骤到达正确答案。这些发现表明，连续轨迹可作为紧凑的中间推理状态，揭示了潜在计算预算、输出长度与准确率之间的新型权衡关系。

ChartArena：跨语言、场景与格式的图表解析基准测试
ChartArena: Benchmarking Chart Parsing across Languages, Scenarios, and Formats

May 31

ByShangpin Peng, Gengluo Li, Xingyu Wan, Chengquan Zhang, Hao Feng, Binghong Wu, Huawen Shen, Weinong Wang, Ziyi Cai, Zhuotao Tian, Han Hu, Can Ma, Yu Zhou

图表是传递定量和关联信息的主要媒介，然而系统性地评估图表解析模型仍然困难重重。现有基准测试局限于狭窄的图表类型，流程图和思维导图等图表结构在很大程度上未被涉及；同时，模型输出格式不兼容，数据集也鲜少包含实际应用中常见的打印或手绘图像。为解决这些问题，我们提出了ChartArena，一个涵盖八大图表族（包括数值型图表和图表结构）的综合性双语基准测试。每个图表族在三种视觉场景下进行评估：数字渲染图、打印照片和手绘照片。该数据集通过人机协作的标注流程构建，并经过多阶段人工验证以确保标注可靠性。为实现公平的跨模型比较，我们进一步设计了一种格式无关的评估协议，将异构输出映射到两个规范语义空间——归一化三元组视图和有向图视图，并采用结构感知指标进行评分。通过对26个领先多模态大语言模型（MLLMs）的广泛评估，我们观察到三个一致的发现：（i）Gemini 3.1 Pro等前沿专有模型总体领先，但最强的开源系统正在迅速缩小差距；（ii）文档解析模型在数值型图表上表现尚可，但在图表结构上显著落后；（iii）专家级图表解析器仍局限于狭窄的图表族。在所有模型中，雷达图和手绘场景尤其具有挑战性。这些发现表明，ChartArena揭示出明确的能力差距，并为未来的进展提供了统一基础。ChartArena已在 https://github.com/pspdada/ChartArena 公开提供。

在Blender中思考：基于视觉-语言模型的分阶段可执行逆向图形构念方法
Thinking in Blender: Staged Executable Inverse Graphics with Vision-Language Models

Jun 1

ByGuangzhao He, Rundong Luo, Wei-Chiu Ma, Hadar Averbuch-Elor

逆图形学是一个长期存在且高度欠约束的问题，旨在将图像重建为可渲染、重新照明和操控的可编辑3D场景。在本研究中，我们探究了预训练的视觉-语言模型（VLMs）是否能够直接从单张图像执行可执行的逆图形学任务，通过将场景重建为可编辑的Blender程序，而无需依赖专门的2D或3D基础模型、可微分渲染或多视角监督。我们提出了阶段性可执行逆图形学（SEIG）框架，这是一种基于智能体的方法，能够通过逐步优化场景要素（包括几何形状、材质、构图和光照），直接在可执行的Blender代码空间中将单张图像重建为3D场景。我们使用涵盖像素级、感知级和语义保真度的一系列重建指标，在多种场景下评估了该框架。实验表明，阶段性重建显著提升了重建保真度，突出了任务分解对于使用通用VLMs进行可执行逆图形学的重要性。最后，我们展示了由重建的可编辑Blender场景所支持的各种下游应用。

Lean 4 中一个经过形式化验证的数理金融库
A Formally Verified Library of Mathematical Finance in Lean 4

May 31

ByRaphael Coelho

我们描述了一个构建在Lean 4证明助手之上的数学金融库，该库基于Mathlib和BrownianMotion包。其涵盖范围广泛：包含11个领域、超过200个无"sorry"的定理，从连续时间随机微积分的测度论基础到衍生品定价，再到应用风险、投资组合和固定收益理论——据我们所知，这是迄今为止最全面的机器验证的数学金融发展成果。广度是背景，而非重点所在。有两方面使其超越了单纯的目录汇编：它深入连续理论，足以将L²伊藤积分构造为有界线性等距，并推导（而非假设）风险中性定价测度；同时，它审查自身的忠实性——每个结果都根据其Lean陈述与所声称数学内容之间的关系进行分类，而一个由构建过程强制实施的"门控"机制限制了每条证明实际使用的公理，从而让读者能够精确分辨哪些是被证明的结论，哪些仅仅是在附加假设下才被证明。最后，我们坦诚地指出一个发现：在经典金融数学基础上进行形式化，得到的是已知结果的认证统一，而非新的金融理论。因此，贡献在于方法论和基础设施层面：可复用的、经过验证的数学金融基础，以及该基础的忠实性审计。

FreeForm：基于粒子蒙皮本征模的降阶变形模拟
FreeForm: Reduced-Order Deformable Simulation from Particle-Based Skinning Eigenmodes

May 28

ByDonglai Xiang, Vismay Modi, Rishit Dagli, Ty Trusty, Gilles Daviet, Anka He Chen, Nicholas Sharp, David I. W. Levin

我们提出了一种新颖的公式，用于可变形超弹性物体的无网格降阶模拟。现有降阶弹性动力学模拟方法中，输入几何体通常由网格表示，但复杂形状的扫描与三角剖分存在困难，或由需要逐形状优化的神经场表示。我们提出采用再生核粒子方法（RKPM）表示，通过求解弹性能量Hessian矩阵上的广义特征系统，能够构建降阶蒙皮权重。实验表明，与神经场的逐形状优化相比，该公式不仅实现40倍训练加速，而且在与有限元方法收敛结果对比时，模拟误差更低。我们在网格和高斯飞溅等多种表示形式的不同物体上展示了模拟结果，并验证了该方法在机器人模拟下游任务中的应用。

基于模型的大规模多语言平行数据质量评估
Model-Based Quality Assessment for Massively Multilingual Parallel Data

May 29

ByAbdelaziz M. A. Ibrahim, Zihao Li, Jörg Tiedemann, Shaoxiong Ji

大规模多语言双语语料通常包含两个不同问题：非平行句对和低质量翻译。我们将对此类数据的基于模型评估分解为两个独立组件：基于多语言嵌入的平行度评估和无参考质量估计。针对平行度评估，我们在FLORES-200和BOUQuET检索任务上对四种嵌入模型进行基准测试，涵盖目标语言对清单中的6,654个源语—目标语方向。针对质量估计，我们在专业的FLORES-200翻译上，跨越41,412个有序的源语—目标语方向，评估了九种无参考评估器。结果表明，没有任何模型能在所有翻译方向上表现可靠。简单的质量估计集成会稀释强模型信号，而有记录的目标语言覆盖范围与更高的质量估计分数密切相关。总体而言，这些发现表明，多语言平行数据评估最好被视为一个方向感知的路由与校准问题，因为预计没有单一的通用指标能够适用于所有语言。

链条保持，答案崩溃：对抗压力下推理模型中的轨迹-答案分离
The Chain Holds, the Answer Folds: Trace-Answer Dissociation in Reasoning Models Under Adversarial Pressure

May 27

ByYubo Li, Ramayya Krishnan, Rema Padman

推理模型在单轮基准测试中评估，却在多轮对话场景中部署，而多轮对话中用户会对正确答案提出质疑。在持续对抗性压力下，我们发现了一种此前未被记录的失败模式：思维链从首轮到末轮始终保持事实正确，但输出的答案却发生错误翻转。我们将此现象称为"不忠屈从"（UC），并通过一个2×2的潜在-行为框架将其分离，该框架揭示了既有的翻转率指标和单轮忠实度探针均无法捕捉的问题。在三个数据集（MT-Consistency、MMLU-Pro、GSM8K）中，行为翻转时的潜在正确率在思考模式下接近50%，而在无思考模式下骤降至11–15%——这一配对模型内因果证据表明，推理过程制造了差距。不同模型中，效应随推理通道变化（在Qwen3-32B和GPT-OSS-20B中较高，在内联思维链模型Gemma-4-31B-it中较低）。独立的GPT-4o评估者验证了86%的UC标签；词元级探针显示，84%的UC单元中答案槽的argmax是正确的；而一种朴素基于轨迹的防御方法适得其反。我们公开所有轨迹、追踪记录及评估者标签。

同一问题，不同来源，不同答案：医学多源RAG中的来源依赖性审查
Same Question, Different Source, Different Answer: Auditing Source-Dependence in Medical Multi-Source RAG

May 27

ByYubo Li, Rema Padman, Ramayya Krishnan

部署于多作者机构语料库的检索增强生成（RAG）系统可能因检索来源不同，对同一问题给出不同答案——这一故障模式是当前主导的单一标准答案范式无法诊断的。我们认为，源依赖是NLP评估中缺失的维度，对其进行审计意味着将评估单元从答案正确性转向源间关系。我们以移植患者教育领域为例实现这一理念，该领域的机构来源明显存在分歧，并发布三项成果：TransplantQA基准（包含真实患者问题，每道题均通过将生成过程锚定于多个机构手册作为候选来源）；HERO-QA分层检索策略（既能锚定也能审计每个答案）；以及一个结构化输出评判器（基于经过验证的五标签分类法对源间关系评分）。大规模实验表明，更好的检索所暴露的分歧远超先前估计——其低估的是分歧的普遍性而非强度。该框架具有领域通用性，可迁移至法律和教育领域的RAG：衡量源依赖是面向多来源NLP系统部署普遍应当承担的责任。

评论回廊：论LLM评论的人类对齐与可博弈性
Review Arcade: On the Human Alignment and Gameability of LLM Reviews

May 27

ByHans Ole Hatzel, Sebastian Steindl, Jan Strich

近年来，基于大语言模型（LLM）生成的学术论文评审正受到广泛关注，甚至被主流会议正式试点采用。我们必须意识到，不仅评审者会借助LLM辅助工作，作者也会在投稿前使用LLM修改论文。本研究基于2025年ACL滚动审稿（ARR）的论文开展实证实验，从作者与评审者双重视角评估LLM生成的评审意见。首先，我们发现LLM评审与人工评审一致性有限——在最佳情况下虽有一定匹配度，但不同提示词和模型下的LLM-人类一致性差异显著。最后，我们探究了作者采用“草稿-修订”迭代工作流，根据LLM评审意见改进投稿的场景。结果表明，这种针对LLM评审的“策略性利用”在特定情形下效果显著，可使高达35%的论文获得整体评分的统计显著提升。本文代码已开源：https://github.com/uhh-hcds/reviewarcade。

AI，请掌舵：人机协同问答中的委托与信任驱动因素探究
AI, Take the Wheel: What Drives Delegation and Trust in Human-Computer Cooperative Question Answering?

May 27

ByMaharshi Gor, Yoo Yeon Sung, Yu Hou, Eve Fleisig, Irene Ying, Tianyi Zhou, Jordan Boyd-Graber

人工智能系统并非完美无缺，人类在判断是否应信任AI而非自身判断时也可能犯错。因此，提升人机协作水平需要理解人类在何时、因何以及如何决定依赖AI。我们研究两种截然不同的依赖决策：授权选择——决定何时让AI在未知其输出结果的情况下自主行动；以及采纳选择——评估AI建议并决定如何运用这些建议。这两种解耦的依赖模式共同塑造了协作过程，但此前研究极少在真实场景中对相同用户同时考察这两类决策。为弥补这一空白，我们通过研究人机协作团队在问答游戏中的竞争关系展开分析——人类参与者可自主选择何时及如何与AI代理合作以赢得比赛。在24场对决中，23位专家级人类用户与16个AI代理组队协作，我们共采集了387次授权决策与1440次采纳决策。研究显示，虽然人机协作的整体表现优于纯人类或纯AI系统，但人类在协作决策中仍存在次优选择：既存在对正确AI建议的低度依赖（错失3.9%的潜在机会），也存在因AI误导导致的过度依赖（占比1.7%）。双方都会贡献错误答案：当人类与AI意见相左时，模型报告的置信度接近随机水平；而确认偏误则导致当AI建议与人类初始错误答案一致时，低度依赖比例显著升高至64.5%。为弥合这一差距，我们建议采用校准的置信度、基于证据的解释机制，以及能帮助用户优化信任判断的工具。

深度学习的哈密顿-雅可比理论
The Hamilton-Jacobi Theory of Deep Learning

May 27

ByJose Marie Antonio Miñoza, Erika Fille T. Legara, Christopher P. Monterola

本文准确地将神经网络的训练识别为哈密顿-雅可比初值问题上的搜索：每个梯度步选择粘性哈密顿-雅可比方程的初始数据，其霍普夫-科尔传播子最拟合观测值；在推理时，输入是该解被评估的空间点，且初始条件已编码于权重中。该对应关系对对数-求和-指数层是精确的，对更广泛架构（残差网络、变换器、循环架构如RNN、LSTM、SSM）则是结构性的——它们离散化同一类哈密顿-雅可比方程，仅哈密顿量和粘性因架构而异。单个形变参数ε将网络、热带代数、粘性偏微分方程、凸优化四种视角统一于一个满足Lipschitz条件的交换图中。定量结果包括：固定t时的极小化最优泛化速率O(n^{-1/(d+2)})；由ε控制的对抗鲁棒性；残差网络中反向传播等同于哈密顿系统的协态方程（庞特里亚金最大值原理）；通过偏微分方程求积得到与数据本征维度一致的标度指数；以及闭式O(N)影响函数（softmax归因权重π_j），其熵景观随ε增加经历折叠分岔，每次合并归因盆地。

迷失在翻译中？探索从拉丁语到奥克语的语法性别转变
Lost in Translation? Exploring the Shift in Grammatical Gender from Latin to Occitan

May 26

ByAhan Chatterjee, Matthias Schöffel, Matthias Aßenmacher, Marinus Wiedner, Esteban Garces Arias

拉丁语向罗曼语系的历时演变过程中，多数罗曼语的语法性别系统经历重组，从三分结构（阳性、阴性、中性）变为二分结构（阳性、阴性）。本研究提出一种可解释的深度学习框架，从词汇和语境两个层面探讨这一现象。首先，我们发现传统分词策略在这种低资源历史环境下鲁棒性不足，而我们所提出的分词器性能优于这些基线方法。在词汇层面，我们评估了形态特征对性别预测的贡献；在语境层面，则量化了不同词性类别对语法性别预测的影响。这些分析共同揭示了词元与其句子语境之间性别信息的分布特征。我们将代码库、数据集及结果公开于https://github.com/ahan-2000/Lost-in-Translation-{https://github.com/ahan-2000/Lost-in-Translation-}。

DOT-MoE: 面向MoE化的可微分最优传输
DOT-MoE: Differentiable Optimal Transport for MoEfication

Jun 1

ByUdbhav Bamba, Arnav Chavan, Aryamaan Thakur, Steve Teig, Deepak Gupta

大语言模型（LLMs）的规模扩展带来了显著的性能提升，但同时也给推理效率带来了巨大挑战。尽管混合专家（MoE）架构通过解耦模型规模与推理成本解决了这一问题，但从零开始训练MoE模型往往不稳定且计算密集。将预训练稠密模型转换为稀疏MoE模型已成为一种替代方案；然而，现有方法通常依赖启发式神经元聚类或随机拆分来将前馈网络（FFN）划分为专家。本文提出DOT-MoE，一种新颖框架，将稠密层的分解形式化为可微最优传输（DOT）问题。与静态启发式方法不同，我们将神经元分配建模为平衡传输问题，利用可微的Sinkhorn-Knopp迭代来强制执行严格的专家容量约束。此外，我们利用直通估计器（STE）联合学习离散的神经元到专家分配策略以及令牌到专家的路由策略，实现端到端的优化。在多种架构和基准上的大量实验表明，DOT-MoE显著优于结构化剪枝、启发式聚类和随机拆分等基线方法，在减少50%活跃参数的同时，保留了原始稠密模型90%的性能。

语义运动锚点：桥接伴随言语手势中的运动与意义
Semantic Motion Anchors: Bridging Motion and Meaning in Co-Speech Gestures

Jun 1

ByVarsha Suresh, Mohammad Mahdi Abootorabi, Mohamed Salman, M. Hamza Mughal, Christian Theobalt, Ashwin Ram, Jürgen Steimle, Vera Demberg

在口语文本与手势之间学习共享表示，对于共语手势的检索、生成与理解至关重要，但对于语义有意义的手势而言，其交际意图无法仅通过运动捕捉，这使得该任务仍具有挑战性。转录文本与连续运动嵌入之间的直接对比对齐往往过度强调低级运动学特征，而忽略了语义手势的符号内容。我们提出了语义运动锚点，即手势运动的自然语言抽象，用于捕捉物理形式与交际意图。该方法将三维手势离散化为体手运动基元，将其转化为结构化描述，并基于转录文本进行接地，从而提供辅助对比监督。在BEAT2数据集上，与直接文本-运动基线相比，我们的方法将文本到手势的R@1提升了8.2%，并在文本到手势和手势到文本的检索方向上均优于现有检索方法。除聚合检索指标外，语义运动锚点监督有助于检索与口语查询语义匹配的手势，而非默认选择通用运动模式。一项下游检索增强手势生成研究表明，用户显著偏好由我们方法检索得到的手势（相较于检索增强生成基线），这表明语义接地检索能够转化为在下游生成中更有效传达交际意图的手势。

谁在NLP中进行标注？2018至2025年间人类标注报告的大规模评估
Who Annotates in NLP? A Large-scale Assessment of Human Annotation Reporting between 2018 and 2025

Jun 1

ByMaria Kunilovskaya, Gagan Bhatia, Lisa Sophie Albertelli, Yanran Chen, Christian Greisinger, Lotta Kiefer, Christoph Leiter, Subhadeep Roy, Tewodros Achamaleh, Muhammad Arslan Manzoor, Sebastian Pohl, Yufang Hou, Steffen Eger

人类标注是自然语言处理研究中从数据集构建到模型评估的经验基础，但论文往往未明确说明标注者身份及标注过程如何受控。我们首次对主要NLP venues中的人类标注报告进行大规模、任务级审计，探讨哪些标注细节被记录、哪些缺失，以及报告方式如何随时间、主题、会议场所及人类判断的预期用途而变化。我们提出统一的标注报告实践分类体系，并基于人工裁决的金标准数据集Annotated-gold（涵盖41篇论文和72项标注任务）验证了LLM辅助提取流程的有效性，其中最佳模型与裁决标签的Krippendorff alpha值为0.606，接近人类间一致性（0.585）。利用该流程，我们构建了覆盖2018-2025年ACL venue论文的数据集Annotated-llm，从1,603篇论文中提取2,667项标注任务，发现论文常报告招聘策略、标注者专业知识和标注量等操作细节，但往往缺失评估标注有效性所需的细节，包括培训、语言熟练度、报酬、社会人口学信息、裁决过程和一致性数值，尤其在模型评估研究中尤为突出。我们的结果表明，NLP领域的标注报告随时间推移有所改善但仍不均衡，同时我们建立了可扩展的框架和最低限度报告建议，以提高人类标注的可靠性、可复现性和可解释性。

τ_0-WM: 面向机器人操作的统一视频-动作世界模型
τ_0-WM: A Unified Video-Action World Model for Robotic Manipulation

May 31

ByPengfei Zhou, Shengcong Chen, Di Chen, Jiaxu Wang, Rongjun Jin, Bingwen Zhu, Yike Pan, Songen Gu, Kuanning Wang, Shufeng Nan, Xingyu Qiu, Chenhao Qiu, Pu Yang, Yunuo Cai, Jianxiong Gao, Yifan Li, Yanwei Fu, Xiangyu Yue, Zhi Chen, Jianlan Luo

机器人操作需要能够生成可执行动作的模型，并在物理执行之前预测并评估其未来后果。我们提出τ₀-世界模型（τ₀-World Model, τ₀-WM），这是一个统一的视频-动作世界模型，将策略学习、视频预测和动作评估整合在单个未来预测框架中。τ₀-WM构建于共享的视频扩散主干网络之上，提供两种互补接口。首先，视频动作模型从多视角观测、语言指令和机器人状态中联合预测未来视觉潜在表示与连续动作片段。其次，基于动作条件的视频模拟器将候选动作片段展开为多视角未来画面，并预测密集的任务进度分数。该模型基于约27,300小时的真实机器人遥控操作、UMI式交互、第一人称人类视频以及使用模态特定监督掩码的展开或失败轨迹数据进行训练。在推理阶段，τ₀-WM利用测试时计算来采样动作候选，以重新去噪一致性对其进行排序，并对低质量候选调用基于模拟器的修正。在具有挑战性的长时域和精细机器人操作任务中，τ₀-WM展现出优于其他相关基线的性能。

展示而非告知：可解释的AI生成文本检测
Show, Don't TELL: Explainable AI-Generated Text Detection

May 27

ByAldan Creo, Suraj Ranganath

关于AI生成文本检测的研究已提出了多种区分人类与AI文本的方法，其中一些在分布内测试中表现优异。然而，由于检测结果与用户（如教授）需求脱节——他们仅获得无解释的数值评分——实际应用进展缓慢。针对这一问题，我们提出了一种新型架构TELL，从底层构建可解释性。尽管为便于比较，我们的系统仍像其他检测器一样提供数值评分，但TELL采用根本不同的方法：旨在向用户展示模型认为文本由AI或人类撰写的“线索”，使用户能结合写作背景及所谓作者的情境，自主判断文本来源。我们在定制化SFT数据集（包含领域特定的作者标注）上训练TELL，并进一步采用课程学习的GRPO方法优化系统，提升性能。在实现与最先进检测器相当的性能（AUROC 0.927）的同时，TELL原生提供解释检测决策依据的标注。我们进一步利用人工标注数据集评估解释质量，报告了在标注具体性、可证伪性、连贯性、合理性和依据性方面的高胜率（平均72.3%），使用户能够批判性思考并自主决策。因此，我们的工作从人本视角重新定义了AI生成文本检测问题，为聚焦原生可解释性的新一类检测器铺平了道路。