HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

46 papers found

OmniDirector：无需交叉配对数据的通用多镜头相机克隆
OmniDirector: General Multi-Shot Camera Cloning without Cross-Paired Data

Jun 11

ByJiwen Liu, Shujuan Li, Zhixue Fang, Xiaohan Li, Yan Zhou, Zijie Meng, Zhimin Zhang, Yawen Luo, Guoxin Zhang, Yu-Shen Liu, Pengfei Wan

从参考视频中克隆相机运动是视频生成领域的一项重要任务，因为视频能够提供直观且精确的控制。现有方法要么直接使用无法处理多镜头生成的参数化表示，要么合成交叉配对数据，但受限于数据稀缺，导致在复杂相机运动克隆方面表现不佳。为解决这些问题，我们提出了一种通用的相机运动表示方法，将相机编码为网格运动视频。这种相机网格以可视化形式表示相机参数，并支持整合多样化的轨迹以实现多镜头视频生成。在此基础上，我们提出了OmniDirector，这是一个基于百万级相机网格-视频对训练的统⼀框架，能够协调角色、动作和相机，为多模态扩散Transformer提供导演级别的控制。此外，我们设计了一种新颖的分层提示扩展代理，通过理解信号关系系统性地描述相机运动和视觉内容，从而将不同的控制信号和谐地整合在一起。大量实验表明，我们的框架具有卓越的性能和出色的可控性。项目页面：https://ymlinfeng.github.io/OmniDirector.github.io/

APPO：智能体程序化策略优化
APPO: Agentic Procedural Policy Optimization

Jun 10

ByXucong Wang, Ziyu Ma, Yong Wang, Yuxiang Ji, Shidong Yang, Guanhua Chen, Pengkun Wang, Xiangxiang Chu

智能体强化学习（RL）的最新进展显著提升了大语言模型智能体的多轮工具使用能力。然而，现有方法大多基于粗粒度的启发式单元（如工具调用边界或固定工作流）进行信用分配，导致难以识别哪些中间决策影响了后续结果。本文从两个角度研究智能体强化学习：分支位置选择及分支后的信用分配方式。初步分析显示，有影响力的决策点广泛分布于整个生成序列中，而非集中在工具调用处，而仅凭词元熵无法可靠反映其对最终结果的影响。基于这些发现，我们提出了智能体程序化策略优化（Agentic Procedural Policy Optimization, APPO），该方法将分支与信用分配从粗粒度的交互单元转移到序列中的细粒度决策点上。APPO 使用结合词元不确定性与后续续写策略诱导似然增益的分支分数来选择分支位置，在过滤掉虚假高熵位置的同时实现更具针对性的探索；该方法进一步引入了程序级优势缩放，以在分支展开中更好地分配信用。在13个基准上的实验表明，APPO 在保持高效工具调用和行为可解释性的同时，持续将强智能体强化学习基线提升近4个百分点。

记忆是重构的，而非检索的：面向LLM智能体的图记忆
Memory is Reconstructed, Not Retrieved: Graph Memory for LLM Agents

Jun 4

ByShuo Ji, Yibo Li, Bryan Hooi

尽管近期取得了一定进展，但大语言模型（LLM）智能体在处理长交互历史推理时仍面临挑战。当前基于记忆增强的智能体依赖静态"检索-推理"范式，这种僵化的流水线设计使其无法根据推理过程中发现的中间证据动态调整记忆访问。为解决这一局限，我们提出MRAgent框架，该框架将联想记忆图与主动重构机制相结合。我们将记忆表示为线索-标签-内容图，其中联想标签作为语义桥梁，连接细粒度线索与记忆内容。基于此结构，主动重构机制将LLM推理直接融入记忆访问过程，使智能体能够基于累积证据迭代式地探索和修剪检索路径。这确保记忆检索能根据推理上下文动态调整，同时避免无约束扩展导致的组合爆炸问题。在LoCoMo基准和LongMemEval基准上的实验表明，该方法相比强基线模型取得了显著提升（最高达23%），同时大幅降低了令牌消耗与运行时间成本，凸显了主动联想重构在长跨度记忆推理中的有效性。

从聊天机器人到数字同事：迈向持久自主AI的范式转变
From Chatbot to Digital Colleague: The Paradigm Shift Toward Persistent Autonomous AI

Jun 12

ByYongheng Zhang, Ziang Liu, Jiaxuan Zhu, Shuai Wang, Xiangqi Chen, Haojing Huang, Jiayi Kuang, Siyu Chen, Ao Shen, Hao Wu, Qiufeng Wang, Qian-Wen Zhang, Junnan Dong, Wenhao Jiang, Ying Shen, Hai-Tao Zheng, Yinghui Li, Di Yin, Xing Sun, Philip S. Yu

大型语言模型正在经历根本性转变，从对话生成器进化为具备推理、行动、记忆和自我完善能力的综合人工智能系统。我们将这一转变概念化为从聊天机器人到数字同事的跃迁：从对话式回答转向持续性工作。我们沿着两个紧密耦合的维度组织这一转变。首先，在认知核心层面，大语言模型正从聊天机器人时代由下一个词元预测驱动的"快速思维"系统，发展为思考型大语言模型——这类模型利用推理时计算、思维链推理、反思、过程监督及强化学习来支撑更审慎可靠的认知能力。其次，在工具增强的任务执行层面，大语言模型正从临时调用外部资源的工具调用智能体，进化为配备持久工作区、技能、验证循环和治理机制的"开放式爪钳"工作站系统。"工作区+技能"范式通过状态持久化、可复用流程、任务闭合与经验重用，将偶发性的工具使用转变为同事式协作。我们考察了数据构建从指令-响应对到状态-行动-观测轨迹的转型，以及评估体系从静态基准到沙盒化、可审计、自我演进的人工智能生态系统的演化。

Orchestra-o1: 全模态智能体编排
Orchestra-o1: Omnimodal Agent Orchestration

Jun 10

ByFan Zhang, Vireo Zhang, Shengju Qian, Haoxuan Li, Hao Wu, Jinyang Wu, Donghao Zhou, Zhihong Zhu, Zheng Lian, Xin Wang, Pheng-Ann Heng

近期智能体集群的成功应用，将基于大语言模型的智能体范式从单智能体工作流转向多智能体系统，凸显了智能体编排在任务分解与协作中的关键作用。然而现有编排框架仅能支持有限模态类型，难以泛化至异构模态共存且相互交互的复杂场景。这种局限在全模态情境下尤为突出——此类任务要求对文本、图像、音频、视频等多源输入进行统一理解与协调。为此，本文提出Orchestra-o1全模态智能体编排框架，旨在支持跨模态的高效智能体协作。Orchestra-o1通过统一编排机制实现模态感知的任务分解、在线子智能体专业化分工及并行子任务执行。这种可扩展设计使智能体系统能有效处理涉及异构信息源的复杂现实任务——在OmniGAIA基准测试中，其准确率较次优方法提升10.3%。此外，我们提出决策对齐的群体相对策略优化方法，这是一种高效的智能体强化学习训练策略，用于训练Orchestra-o1-8B模型，该模型在所有现有开源全模态智能体中亦达到最优性能。

HarnessX: 一种可组合、自适应且可演化的智能体框架铸造平台
HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry

Jun 12

ByTingyang Chen, Shuo Lu, Kang Zhao, Weicheng Meng, Hanlin Teng, Tianhao Li, Chao Li, Xule Liu, Jian Liang, Zhizhong Zhang, Yuan Xie, Heng Qu, Kun Shao, Jian Luan

AI代理的性能关键取决于运行时支架，包括提示、工具、记忆和控制流，这些组件中介了模型如何观察、推理和行动。然而，当前的支架仍大多依赖手工构建且静态固化：每个新模型或新任务仍需定制化的支撑框架，执行过程中产生的丰富轨迹也鲜少被提炼为系统性改进。我们提出HarnessX——一个可组合、自适应且可进化的代理支架铸造平台。HarnessX通过替换代数组装类型化支架原语，借助AEGIS（一种基于轨迹驱动的多代理进化引擎，在符号适应与强化学习之间建立操作镜像）实现自适应调整，并通过将轨迹转化为支架更新与模型训练信号，闭合支架-模型循环。在五项基准测试（ALFWorld、GAIA、WebShop、tau^3-Bench及SWE-bench Verified）中，HarnessX平均提升+14.5%（最高达+44.0%），且基线越低进步越显著。这些结果表明，代理性能的提升不必仅依赖模型规模扩展：基于执行反馈组合并进化运行时接口，是一个可操作且互补的杠杆。完整代码库将在未来版本中开源。

重新思考长视频中的RAG：检索什么以及如何使用？
Rethinking RAG in Long Videos: What to Retrieve and How to Use It?

Jun 11

ByYuho Lee, Jisu Shin, Nicole Hee-Yeon Kim, Jihwan Bang, Juntae Lee, Kyuwoong Hwang, Fatih Porikli, Hwanjun Song

检索增强生成正从文本领域拓展至长时、以第一人称视角呈现的视频领域，在此类系统中，系统需跨多种模态和时间粒度选择与查询相关的片段。然而，视频检索增强生成（VideoRAG）的进展受限于两个不足：现有基准测试允许无需视频即可回答查询，掩盖了检索错误；此外，先前方法为每个查询采用单一的模态-粒度配置，忽略了片段层面的变异性。为解决这些问题，我们引入了V-RAGBench——一个包含⟨查询，证据片段，答案⟩三元组的基准，支持对检索与生成进行忠实且解耦的评估；以及CARVE——一种简单方法，该方法并行运行多种配置下的检索器，并通过片段自适应重排序为每个片段确定最优配置。每个片段随后以其检索阶段选定的最优配置进入生成器，形成一种交错证据形式，其中片段层面的决策贯穿两个阶段。CARVE的性能优于八种近期VideoRAG基线方法，其提供给生成器的片段混合了多种配置而非共享单一配置，这是查询层面方法无法实现的行为。

OmniVideo-100K：一个通过结构化脚本和证据链进行视听推理的数据集
OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains

Jun 12

ByXinyue Cai, Chaoyou Fu, Yi-Fan Zhang, Ran He, Caifeng Shan

当前的音视频问答（QA）自动管道普遍采用“视频-字幕-问答”范式。然而，这类方法通常将视频分割为短片段，并为音频和视觉模态分别生成独立描述。这种解耦处理切断了声音与其视觉来源之间的固有联系，而独立的片段处理常导致同一实体在不同片段中出现不一致的描述。此外，将长文本理解与问答生成耦合至单一处理步骤，往往使模型局限于局部事件，从而产生缺乏长期时间关联和深度跨模态推理的问题。针对上述问题，我们提出一种包含两种机制的自动数据引擎：（1）基于实体的视频脚本化（Entity-Anchored Video Scripting）将视频转化为结构化脚本，包含摘要、主要实体列表及逐片段的音视频描述。其中实体列表作为全局先验信息，确保跨片段的指代一致性并重建音视频关联。（2）线索引导的问答生成（Clue-Guided QA Generation）引导模型首先从脚本中挖掘跨片段、多模态的线索，进而基于这些高价值线索生成问答对。借助该管道，我们构建了指令微调数据集OmniVideo-100K及人工验证测试集OmniVideo-Test。在OmniVideo-100K上微调VITA-1.5、Qwen2.5-Omni-7B和Qwen3-Omni-30B模型后，其在OmniVideo-Test上的性能提升高达20.59%，并在Daily-Omni和JointAVBench等现有基准上展现出强大的泛化能力（性能提升最高达12.64%）。

从通用人工智能到超级人工智能
From AGI to ASI

Jun 10

ByTim Genewein, Matija Franklin, Alexander Lerchner, Laurent Orseau, Samuel Albanie, Adam Bales, Cole Wyeth, Stephanie Chan, Iason Gabriel, Joel Z. Leibo, Allan Dafoe, Marcus Hutter, Thore Graepel, Shane Legg

过去十年，构建人类水平的通用人工智能已从遥不可及的猜测转变为许多大型AI组织未来十年的具体目标。实现这一目标将对人类社会产生深远而广泛的影响，这为未来十年提出了诸多复杂问题。本报告探讨了在后AGI世界中，AI如何沿着机器智能连续谱继续演进。这一连续谱的终结点——通用AI——在理论上已有深刻理解，这为本报告的核心内容提供了形式化基础：从人类水平AGI向通用超级智能的过渡。直观上，ASI可理解为比大型人类组织更智能、认知能力更强的系统。在界定ASI特征后，报告讨论了从AGI到ASI的四种潜在路径：规模化AGI、AI范式转换、递归改进，以及大规模多智能体集群涌现出的ASI。随后报告探讨了这些路径中可能存在的摩擦与瓶颈。判断这些摩擦的影响可忽略还是重大，会引发一系列具体的研究开放问题。由于预测ASI进展存在巨大不确定性，不能排除未来几年AI发展持续加速的可能性。这意味着将人类水平AGI引入社会所引发的单一变革性飞跃图景可能并不准确。更为贴切的展望或许是：由AI驱动的科学和技术领域多项突破引发的系列性社会变革。为应对这一前景，需开展具有全球规模和利益的跨学科大规模努力。

较小模型是GRPO中策略级多样性的天然探索者
Smaller Models are Natural Explorers for Policy-Level Diversity in GRPO

Jun 2

ByYiming Ren, Yiran Xu, Zicheng Lin, Chufan Shi, Yukang Chen, Dingdong Wang, Tianhe Wu, Junjie Wang, Yujiu Yang, Yu Qiao, Ruihang Chu

我们识别出在面向大语言模型的群体相对策略优化（GRPO）中，增强推演多样性的一个新维度。尽管GRPO依赖于多样化推演，但现有策略主要通过注入更多token级随机性来增加多样性，这可能会引入逐步噪声并导致不连贯的轨迹。我们发现，同一模型系列中的较小模型天然具有更高的策略级多样性，表现为随着样本数量增加，其pass@k指标优于较大模型。与token级噪声不同，这种多样性在时间上具有相关性，能保持逻辑一致性，并为梯度估计提供结构化的探索信号。为此，我们提出S2L-PO（小到大规模策略优化）框架，该框架利用固定的小模型作为自然探索器来训练更大模型。为平衡探索与利用，我们设计了一种渐进退火策略，从离线的小模型推演逐步过渡到大学习器自身的采样。这一转变巧妙避免了因小模型容量限制导致的训练中期性能下降，从而实现更快的收敛并解锁更高的性能上限。S2L-PO在多样化数学推理基准测试中提升了准确率（例如，使用1.7B探索器指导8B模型在AIME 24上提升8.8%），同时减少了推演计算量。

跳过一层还是循环使用？大语言模型中的层程序学习
Skip a Layer or Loop It? Learning Program-of-Layers in LLMs

Jun 4

ByZiyue Li, Yang Li, Tianyi Zhou

大语言模型（LLMs）通过固定深度与顺序的非循环逐层执行进行推理。我们发现了一种广泛存在的免训练、灵活、动态的"层程序化"（PoLar）范式：预训练层可被打包为模块，随后针对每个输入跳过或循环形成定制化程序。对于大多数输入而言，显著缩短的程序执行即可达到相同或更优的准确率，而原始LLM的错误预测也可通过使用更少层的替代程序加以纠正。这些现象表明，推理过程存在超越标准前向传播的多种有效潜在计算路径。为在实践中高效实现PoLar，我们提出了一种轻量级PoLar预测网络，该网络学习为每个输入生成动态跳过或重复预训练层的执行程序。数学推理基准实验表明，PoLar在多数场景下通过执行更少的层，持续提升了标准推理与现有动态深度方法的准确率，且在分布外评估中仍保持这一优势。我们的结果表明，固定深度执行仅捕获了大语言模型潜在推理能力的一小部分。

在误导性医疗语境下测量大语言模型的知识韧性
Measuring Epistemic Resilience of LLMs Under Misleading Medical Context

Jun 10

ByHongjian Zhou, Xinyu Zou, Jinge Wu, Sean Wu, Junchi Yu, Bradley Max Segal, Tobias Erich Niebuhr, Sara Amro, Michael Petrus, Sheikh Momin, Alexandra M. Cardoso Pinto, Rachel Niesen, Laura Sophie Wegner, Dhruv Darji, Jung Moses Koo, Joshua Fieggen, Kapil Narain, Mingde Zeng, Lei Clifton, Linda Shapiro, Fenglin Liu, David A. Clifton

大型语言模型现在能够在医学执照考试中达到专家级分数，这促使人们假设高分即意味着安全的医学判断能力，而患者正越来越多地使用这些模型获取健康建议。我们证明这一假设是脆弱的：当原本能正确回答的问题被注入误导性上下文时，模型会放弃正确答案。我们将这种在对抗性上下文下保持正确判断的能力称为"认知韧性"，并引入MedMisBench基准来测量它。MedMisBench包含10,932个医学问题条目和48,889对误导性上下文-选项组合，涵盖医学推理、智能体能力及患者病程评估。在11种模型配置下，原始问题的平均准确率从71.1%降至针对性误导上下文下的38.0%，攻击成功率达51.5%。最具破坏性的注入是形式化、规则化的虚假信息：权威框架虚假陈述的攻击成功率达69.5%，例外投毒式主张达64.1%。由来自7个国家的14名临床专家组成的评审组认定，38.2%的审查案例存在严重潜在危害。MedMisBench揭示了医学场景中大型语言模型评估的结构性盲点：现有基准衡量的是模型"知道什么"，而非在误导性上下文下能否保持正确的医学判断。

RedAct：遮蔽智能体能力痕迹以保护程序性技能
RedAct: Redacting Agent Capability Traces for Procedural Skill Protection

Jun 10

ByShuwen Xu, Zhitao He, Yi R. Fung

用户依赖执行轨迹来观察智能体行为、诊断故障并确保可问责性。这些轨迹包含丰富的流程细节，包括工具调用、中间决策和错误恢复逻辑。然而，这些细节可能暴露私有的流程技能，使得下游方法能够在无需访问模型权重或技能文件的情况下，恢复关键公式、阈值和策略。为量化此风险并评估防护措施，我们构建了CapTraceBench基准测试，包含75个专业长周期任务和横跨七个领域的154个精心设计的技能。我们还提出了RedAct（https://github.com/XuShuwenn/RedAct）——一种受保护的轨迹发布框架，该框架能够定位受保护的关键信息，在保留验证器关键证据的同时改写轨迹，并为下游溯源分析嵌入行为水印。在典型的轨迹复用方法中，RedAct将归一化技能转移（NST）从原始轨迹的44.7%至67.1%降至低于无技能基线，同时保留审计证据。其独立的动态水印在假警报率最高仅1.9%的情况下，实现了93.6%至100.0%的真实检测率。这些结果将公共智能体轨迹视为安全接口，并表明选择性编辑能够在不移除审计证据的前提下减少流程技能泄露。

LLM智能体能够查看代码仓库
LLM Agents Can See Code Repositories

Jun 12

ByDongjian Ma, Silin Chen, Yufei Yang, Yulin Shi, Yanfu yan, Xiaodong Gu

基于大语言模型的编码智能体在软件工程任务中已展现出强劲性能。然而，大多数智能体几乎完全以文本形式处理代码仓库，这与人类开发者利用文件夹层级、依赖关系等视觉结构在大型代码库中定位自身的方式不同。借助多模态大语言模型（MLLMs），智能体能否有效利用代码仓库的视觉表征仍是一个开放性问题。本文首次系统性地实证研究了基于LLM的智能体在仓库级问题解决中应用仓库视觉表征的效果。我们评估了四种最新多模态模型，结果显示：纯视觉模式会降低准确率并增加令牌成本——因为智能体缺乏足够的符号细节，只能通过反复的视觉查询来弥补。与之相反，将仓库结构的可视化图表作为标准文本界面的辅助模态，能更高效地帮助智能体理解结构：输入令牌消耗最多降低26%，同时问题解决准确率得以保持或提升。可视化在故障定位阶段以及智能体自主控制探索深度时最为有用。这些发现为下一代编码智能体提供了实用的文本-视觉混合设计方案。

RepFusion: 利用多模态先验在表示空间中进行去噪
RepFusion: Leveraging Multimodal Priors for Denoising in Representation Space

Jun 12

ByXichen Pan, Aashu Singh, Satya Narayan Shukla, Xiangjun Fan, Shlok Kumar Mishra, Saining Xie

大型语言模型（LLMs）被广泛应用于文本到图像（T2I）系统，但通常仅用于文本编码，而去噪过程则由新训练的生成主干网络处理。表示自编码器（RAEs）的出现将生成目标转向语义结构化的视觉表示，从而构建出与预训练LLM先验更兼容的潜在空间。受多模态大语言模型（MLLMs）启发——其中仅需一个MLP投影器即可将干净视觉表示与预训练LLM对齐——我们将MLLM本身重新用作噪声表示编码器，将这一机制从干净输入扩展到含噪输入。我们提出RepFusion，利用由此生成的MLLM输出作为扩散变换器的条件信号。在相似推理预算下的控制对比实验中，RepFusion在性能上优于将相当容量分配给新初始化解码器的基线方法。这些结果表明，MLLM为视觉表示的去噪提供了强先验，并且通过以演化中的噪声表示为条件，现代T2I系统可以将测试时的计算资源有效投入到重复的MLLM条件处理中。

iMaC：将动作转化为运动与接触图像，用于具身世界模型
iMaC: Translating Actions into Motion and Contact Images for Embodied World Models

Jun 8

ByZhenyu Wu, Xiuwei Xu, Yukun Zhou, Yifan Li, Qiuping Deng, Xiaofeng Wang, Zheng Zhu, Bingyao Yu, Ziwei Wang, Jiwen Lu, Haibin Yan

具身世界模型已成为视觉机器人决策与交互环境模拟的关键范式。然而，传统具身框架依赖低维结构化动作向量（如关节角度与末端执行器位姿），存在表达能力有限、跨不同具身形态泛化能力弱、复杂物理交互动态建模不自然等局限性。为解决上述问题，本文提出iMac（图像即动作控制）——一种将原始视觉图像作为具身世界模型原生动作表征的新型统一控制范式。与传统的显式运动学动作编码不同，iMac将连续视觉操作任务形式化为基于图像的动作标记，这些标记天然蕴含空间运动意图、交互几何约束与细微物理动态。我们构建了由图像动作编码器与动态世界预测器组成的双分支具身架构：编码器将目标驱动视觉图像压缩为紧凑动作嵌入，预测器则学习以图像动作为条件的环境转移规则，实现高保真未来状态预测与闭环具身控制。在公开具身操作基准与真实机器人场景上开展大量实验，结果表明iMac在预测精度、任务成功率与跨场景泛化能力上全面超越基于向量的动作控制基线。此外，我们的图像动作设计消除了对人工定义动作空间的依赖，实现了异构具身智能体的灵活通用控制。本工作为具身世界模型提供了创新的视觉动作视角，为可扩展机器人感知与操作建立了简洁有效的范式。

Hy-Embodied-0.5-VLA：从视觉-语言-动作模型到真实世界机器人学习栈
Hy-Embodied-0.5-VLA: From Vision-Language-Action Models to a Real-World Robot Learning Stack

Jun 12

ByHe Zhang, Lingzhu Xiang, Haitao Lin, Zeyu Huang, Minghui Wang, Dingyan Zhong, Yubo Dong, Yihao Wu, Yongming Rao, Dongsheng Zhang, Wanjia He, Ling Chen, Kai Huang, Jiahao Chen, Sichang Su, Xumin Yu, Ziyi Wang, Chengwei Zhu, Xiao Teng, Yuchun Guo, Yufeng Zhang, Yuandong Liu, Rui Wang, Zisheng Lu, Han Hu, Zhengyou Zhang

本报告介绍Hy-Embodied-0.5-VLA（简称HyVLA-0.5），这是一套覆盖机器人学习全栈的端到端系统，具体包括数据采集、模型设计、持续预训练与监督微调、强化学习后训练以及实际场景部署。该堆栈中的每个组件均承担着独特的功能。

Pythagoras-Prover：通过增强的Lean形式化推进高效形式化证明
Pythagoras-Prover: Advancing Efficient Formal Proving via Augmented Lean Formalisation

Jun 10

ByJoshua Ong Jun Leang, Zheng Zhao, Mihaela Cătălina Stoian, Qiyuan Xu, Haonan Li, Wenda Li, Shay B. Cohen, Eleonora Giunchiglia

现代Lean定理证明器只有通过大量的训练和推理计算才能实现强大性能，这在一定程度上源于已验证证明数据的稀缺性以及形式化证明搜索中的长推理轨迹，导致监督微调（SFT）和采样成本高昂。我们提出Pythagoras-Prover，这是一个面向实际计算预算、计算高效的开放源码Lean定理证明器系列。该系列涵盖两种生成范式：参数规模为4B和32B的自回归模型，以及首个基于扩散的证明器概念验证（4B），该模型在推理时通过迭代方式精炼Lean证明。在训练效率方面，我们构建了一个经Lean验证的语料库，将其分层为简单、中等和困难问题以用于课程式监督微调，使模型能够从较短、较简单的证明逐步掌握到较长、较困难的证明技能。在监督微调过程中，我们采用动态证明推理过滤方案，在保留信息量丰富的证明轨迹的同时，将每个实例控制在8k token的上下文预算内。我们还引入了增强型Lean形式化（ALF），它将稀缺的验证语料扩展为形式化语句的变体，通过自蒸馏方式提供额外的训练信号，而无需对每个变异后的实例进行形式化验证。通过扰动已知问题同时保留其形式化特征，ALF减少了对任何语句表面形式的依赖。实验结果表明，Pythagoras-Prover-4B在MiniF2F-Test上的pass@32指标（86.1%对阵82.4%）超越了DeepSeek-Prover-V2-671B，而参数规模仅为后者的约1/167；Pythagoras-Prover-32B在MiniF2F-Test上达到93.0%，创下了开放源码的最优水平，并在PutnamBench的672个问题中解决了93个。我们发布了MiniF2F-ALF，这是一个经ALF变异处理的污染敏感基准测试集，所有经过评估的模型在此基准上的准确率均有下降；在此基准上，我们的32B模型仍然是最强的，而4B模型则与先前的最优模型Goedel-Prover-V2-32B性能相当。

无需隐藏提示！仅通过呈现方式修改即可操纵AI同行评审
No Hidden Prompts Needed! You Can Game AI Peer Review with Presentation-Only Revisions

Jun 11

ByXu Yang, Zhizhou Sha, Junbo Li, Jian Yu, Yifan Sun, Matthew Zhao, Jinrui Fang, Xinyue Guo, Yining Wu, Xu Hu, Yifu Luo, Qiang Liu, Zhangyang Wang

随着人工智能生成式评审从实验性工具过渡到同行评审基础设施，多数鲁棒性研究聚焦于显式攻击，如隐藏指令和提示注入。我们研究了一种更棘手且更具政策相关性的失效模式：无隐藏文本、无提示注入，且对方法、实验、图表、公式、证明或数值结果均不修改。攻击者仅改动展示层面内容，如摘要、贡献框架、相关工作、讨论和叙述结构。我们引入对抗性重构：一种闭环攻击方法，借助AI评审者的反馈搜索展示层面的修订策略，同时保持科学证据不变。针对三种主流AI评审系统，对抗性重构实现了75.1%的攻击成功率，平均评分提升+1.21/10分。该效应无法用常规的润色工艺解释。我们还发现，改变评审者解读论文方式的策略（如相关工作重新定位、分析性讨论拓展）显著优于表面编辑（如局部润色、表格格式化、算法框图）。分析揭示两种更深层的结构性失效模式。其一，AI评审者更易被"打动"而非"说服"：突出优势能可靠提升感知价值，而试图化解弱点往往适得其反。其二，AI评审者可能混淆"应对局限性的表象"与"实际解决局限性"之间的区别，使得未修改的证据被重新解读为更强的科学贡献。这些结果表明，部署风险不仅来自恶意隐藏指令，更在于论文呈现本身已成为可优化的曲面。我们发布一个无污染的滚动基准数据集及攻击框架，用于检验AI评审者在仅修改展示层时是否仍能锚定科学内容。

VISTA: 视角一致的自验证训练用于GUI定位
VISTA: View-Consistent Self-Verified Training for GUI Grounding

Jun 12

ByXinyu Qiu, Yunzhu Zhang, Heng Jia, Shuheng Shen, Changhua Meng, Linchao Zhu

在应用组相对策略优化（GRPO）进行GUI元素定位时，轨迹采样仅来自单一截图视角；对于困难样本，组内常全部失败，而简单样本则全部成功，从而无法产生有效的相对优势。我们提出VISTA（视角一致自验证训练），一种基于GRPO的训练框架，该框架从同一GUI实例的多个保持目标元素的视角构建每个比较组。每个视角通过裁剪生成，确保目标元素可见并精确映射其边界框，从而使模型轨迹在语义等价但几何不同的输入之间进行比较。为了在不将强化学习退化为无条件模仿的情况下稳定短坐标生成，VISTA进一步引入了一种自验证跨视图锚点：一个采用优势加权损失优化的真实答案，该锚点被排除在组基线之外，且仅在模型产生最大奖励轨迹时激活。在五个GUI元素定位基准和多个Qwen骨干网络上，VISTA consistently提升了定位精度。在ScreenSpot-Pro上，它将Qwen3-VL 4B/8B/30B-A3B的准确率从55.5/52.7/53.7提升至63.4/65.8/67.0。鲁棒性分析进一步表明，最差视角准确率更高，预测翻转率更低。

MBench：一个关于视频世界模型记忆能力的全面基准
MBench: A Comprehensive Benchmark on Memory Capability for Video World Models

Jun 8

ByShengjun Zhang, Zhang Zhang, Simin Huang, Zhenyu Tang, Hanyang Wang, Chensheng Dai, Min Chen, Yifan Li, Yuxin Li, Yingjie Chen, Hao Liu, Chen Li, Jing Lyu, Yueqi Duan

基于视频的世界模型的最新进展展示了合成高保真视觉序列的前所未有的能力。然而，在视觉上合理的视频生成与世界模型的功能需求之间仍存在根本性差距，尤其是在长时间范围内维持稳定且合理的内部状态方面。现有基准主要强调视觉质量、运动一致性和文本-视频对齐，但很大程度上忽略了记忆——即世界模型在长期时间跨度和复杂交互中保持一致性的核心能力。为弥补这一差距，我们提出了MBench，这是一个专门用于量化和评估视频世界模型记忆能力的综合性基准。我们将视频世界模型的记忆能力系统地分解为三个层次化且互补的核心维度：实体一致性、环境一致性和因果一致性，并进一步细化为12个可量化的子维度，以全面表征长期记忆。我们的基准建立在经过严格筛选的真实拍摄的长视频之上，并通过基于规则的量化指标和视觉语言模型进行评估，从而实现客观且全面的一致性评估。对主流最先进的视频世界模型进行的广泛评估，揭示了现有方法在长期状态保持方面的关键系统性局限，为该领域的发展提供了标准化的基准和明确的研究方向。

μ_0：一种可扩展的三维交互轨迹世界模型
μ_0: A Scalable 3D Interaction-Trace World Model

Jun 11

BySeungjae Lee, Yoonkyo Jung, Jusuk Lee, Jonghun Shin, Amir Hossein Shahidzadeh, Yao-Chih Lee, H. Jin Kim, Jia-Bin Huang, Furong Huang

捕捉动作如何引发物理变化的世界模型，能够在无需依赖具身特定动作标签的情况下实现可扩展的机器人学习。像素空间视频模型提供了广泛的视觉先验，但将模型能力消耗在密集外观重建上；而直接动作模型则需要具身特定标签，这阻碍了可扩展性。我们提出μ₀——一种基于3D轨迹的可扩展世界模型。该模型不预测密集像素或直接建模动作，而是预测显著交互点（如物体、工具、手部及接触区域）的平滑3D轨迹，形成一种紧凑且与具身无关的运动接口。为支持从多样化视频源进行训练，我们的TraceExtract系统通过选择关键点、构建全局对齐轨迹、将运动段与分层语言描述相关联，自动提取3D监督信号。这种TraceExtract监督信号将预训练的视觉-语言骨干与模块化轨迹专家相结合，以预训练μ₀：该轨迹专家通过B样条控制点表征每个查询点并预测未来轨迹。实验表明，μ₀在2D和3D轨迹预测（包括轨迹预测模型和标记化VLM方法）上均优于基线方法。由于μ₀可冻结复用，它能与动作专家配对，用于下游机器人具身。尽管采用无动作预训练，由此产生的轨迹条件化策略在性能上可与使用动作监督预训练的VLA模型（如π₀）相媲美。这些结果确立了3D轨迹作为跨具身操纵任务中可扩展、可迁移的表示。

仲裁代理：持续监控多智能体对话以检测涌现的不对齐性
The Arbiter Agent: Continually Monitoring Multi-Agent Conversations to Detect Emergent Misalignment

Jun 9

ByFilippo Tonini, Federico Torrielli, Anton Danholt Lautrup, Peter Schneider-Kamp, Mustafa Mert Çelikok, Lukas Galke Poech

随着由多个语言模型智能体构建的人工智能系统日益普及，它们越来越多地被用于共同决策：讨论、协商并执行共享任务。尽管单个智能体在独立测试时可能表现出良好的一致性，但它们之间的交互方式可能引发问题。我们引入"仲裁者"（Arbiter）这一智能体，旨在实时监控多智能体对话，识别哪些参与者可能存在行为失调。仲裁者在有限的"检查预算"下运作，这意味着它必须谨慎决定如何分配资源。在逐步观察对话的过程中，它可以选择等待、质询某个参与者、检查内部信息（如系统提示或推理轨迹），或记录可疑行为。最终，它会生成一份报告，指出失调的可能来源。我们在五种对话条件下评估仲裁者，涵盖从高风险财务建议的模型有机体到评估感知型与共谋型智能体，测试了五种能力递增的工具配置及两种骨干模型。研究发现，仲裁者能在对话结束前可靠地检测到失调智能体，主动检查工具既提升了检测准确率也加快了检测速度。权重引发的失调最难检测，而指令引发的失调即使在被动观察下也能被可靠识别。记录工具呈现出双重效应：以牺牲精确率为代价提高了召回率。这些结果表明，持续且预算感知的监控能有效捕捉失调行为，而监督多智能体系统可能需要将审计者视为流程中的主动参与者。相关代码已开源至 https://github.com/aisilab/arbiter。

虚拟形象V：扩展视频参考的虚拟形象视频生成
Avatar V: Scaling Video-Reference Avatar Video Generation

Jun 11

ByBenjamin Liang, Ce Chen, Desmond Lin, Ivan Somov, Jiajun Zhao, Jiewei Yuan, Jingfeng Zhang, Junhao Huang, Nik Nolte, Pedram Haqiqi, Penghan Wang, Rong Yan, Rui Zhang, Sam Prokopchuk, Sivan Wang, Viktor Goriachko, Yi Ren, Yuanming Li, Yutao Chen, Zhenhui Ye, Zhibin Hong, Zilong Nie, Zujin Guo

生成不仅在外观上、而且在行为上可被识别的数字人视频，忠实复现其说话节奏、手势习惯和表情动态，仍是一项开放性挑战。现有方法主要依赖单张静态图像作为条件输入，这缺乏足够的身份信息且无法捕捉动态运动特征，而标准的像素级损失函数对决定数字人保真度的感知关键面部区域关注不足。我们提出Avatar V——一个生产级框架，通过视频参考条件身份建模解决上述局限。该模型不再将身份信息压缩为固定维度嵌入，而是直接以参考视频的完整标记序列为条件，通过注意力机制从参考上下文中学习复制静态身份属性（面部几何、皮肤纹理）与动态行为模式（说话节奏、微表情）。我们引入稀疏参考注意力（Sparse Reference Attention），这是一种非对称机制，能够以线性复杂度对任意长度的参考视频进行条件控制；同时提出运动表征流，实现闭环的说话风格迁移；以及继承完整参考条件的身份感知超分辨率精炼器。这些技术依托于数据引擎——从5000万原始视频中精选超过1亿训练片段，以及五阶段训练流程：流匹配预训练、个性微调、两阶段蒸馏（实现超10倍加速）和基于强化学习人类反馈的对齐，部署于数千块GPU上。Avatar V可生成不限时长的1080p视频，在我们的跨场景基准测试中，其在身份保留、唇形同步和生成质量上达到最优，并在自动化指标和人工评估中持续优于Seedance 2.0、Kling O3 Pro、Veo 3.1及OmniHuman 1.5等领先系统。

RhymeFlow: 基于异步去噪流调度的免训练视频生成加速方法
RhymeFlow: Training-Free Acceleration for Video Generation with Asynchronous Denoising Flow Scheduling

Jun 4

ByChensheng Dai, Shengjun Zhang, Yifan Li, Zhang Zhang, Zheng Zhu, Yueqi Duan

基于扩散变换器（DiTs）的视频生成模型在视频合成中取得了显著性能，但由于3D注意力的二次复杂度，其推理延迟和计算成本较高。现有加速方法主要通过稀疏注意力和KV缓存等技术降低单个去噪步骤内的计算复杂度，但它们严格遵循标准扩散流程的固有约束：目标视频序列中的每一帧都必须在所有扩散时间步中经历完整的密集去噪过程。我们观察到，由于相邻帧之间内容与运动的对应关系，当锚定具有关键语义转换的关键帧时，其他帧的中间状态往往遵循更可预测的轨迹，这表明这种均匀、密集的去噪过程对于自然视频数据而言本质上是冗余的。为此，我们提出RhymeFlow——一种无训练框架，用于解耦不同帧的去噪轨迹。具体而言，我们首先识别出一组稀疏的关键帧，它们主导着潜在语义演化。随后，仅对这些关键帧进行密集、逐步的去噪以保持结构完整性，而非关键帧则逐步跳过去噪步骤以最小化计算成本。由于非关键帧跳过的中间状态破坏了关键帧去噪步骤中的时间一致性，导致视觉质量下降，我们进一步引入潜在轨迹投影模块，使关键帧能够与完整且时序一致的序列表示进行交互。在现有基于DiT的视频生成模型上的大量实验表明，我们的方法在推理速度和视觉质量上均优于现有基线。

LoRA优化中缩放因子的隐藏力量
The Hidden Power of Scaling Factor in LoRA Optimization

Jun 11

ByZicheng Zhang, Haoran Li, Jiaxing Wang, Guoqiang Gong, Anqi Li, Yudong Hu, Ting Xiong, Yurong Gao, Junxing Hu, Zhida Jiang, Yifeng Zhang, Pengzhang Liu, Qixia Jiang

在低秩适应（LoRA）中，缩放因子α常被视为学习率的简单补充，但其在优化过程中的具体作用仍未被充分理解。本文揭示了缩放因子α与学习率在功能上的本质差异：α作为有效优化的核心驱动力，能够带来单纯依靠学习率缩放无法实现的效果增益。通过大规模实证分析与理论框架“信号-漂移”的协同研究，我们获得了关于LoRA缩放机制的三项发现：第一，LoRA的频谱抑制效应平滑了优化景观，使得标准超参数过于保守，从而产生优化差距；第二，在利用这种平滑性加速收敛时，α通过放大任务信号且不增加漂移比，其表现优于学习率；第三，最优缩放因子与秩之间存在次线性关系，该关系遵循平方根定律，且系数异常之大，揭示了现有秩相关启发式方法的缩放不足。基于这些发现，我们提出LoRA-α这一极简框架，将α恢复至其原理性的调控范围，使LoRA能够兼容标准小学习率。多项任务中的广泛评估表明，LoRA-α能始终如一地提升性能，同时简化超参数搜索，充分释放LoRA的学习潜力。

你的大语言模型何时可引导？
When is Your LLM Steerable?

Jun 10

ByChenrui Fan, Yize Cheng, Ming Li, Soheil Feizi, Tianyi Zhou

激活引导提供了一种轻量级的方法，可在推理时控制语言模型的行为，但其成败在很大程度上取决于提示词、概念、模型和引导配置。要找到成功引导的范围和边界，通常需要进行昂贵的网格搜索以及对完整自回归生成序列的事后评估。本研究探讨了能否从模型生成过程初期（例如生成前几个词元后）的内部状态预测其可引导性，以及如何利用这种预测器提高引导成功率。为此，我们首先引入ASTEER测试平台，其中包含140万次受引导的生成结果，涵盖150个概念，每次引导均标注为成功或失败。基于该测试平台，我们通过提取特征来分析模型的早期解码动态，这些特征比较了不同层和初始解码步骤中引导前后的隐藏状态。这些特征有助于理解引导效果如何在层和词元位置间传播，从而为可引导性预测提供关键信息。随后，我们基于这些特征训练梯度提升决策树分类器，以预测干预会产生欠引导、成功还是过引导，而无需执行完整生成序列。该预测器在未见概念上实现了约0.7的宏平均F1分数，表明早期隐藏状态编码了大量有关最终引导效果的结构化信息。我们进一步将该可引导性预测器作为引导强度搜索的指导，以极小的解码成本实现了接近最优的性能。

ClinHallu：用于诊断医学MLLM推理中分阶段幻觉的基准
ClinHallu: A Benchmark for Diagnosing Stage-Wise Hallucinations in Medical MLLM Reasoning

Jun 12

BySicheng Yang, Hangjie Yuan, Wenjun Zhang, Jinwang Wang, Yichen Qian, Weihua Chen, Fan Wang, Lei Zhu

构建值得信赖的医学多模态大语言模型（MLLMs）对于可靠的临床决策支持至关重要。现有的医学幻觉基准测试主要关注数据收集，但往往忽略了幻觉在推理过程中的起源位置。我们发现幻觉来源因样本而异：错误可能源于视觉识别错误、医学知识回忆不准确，或推理整合中的缺陷。为了实现源头级幻觉诊断，我们引入了ClinHallu，这是一个用于医学MLLM推理中分阶段幻觉诊断的基准测试。ClinHallu包含7,031个经过验证的实例，每个实例都配有结构化的推理轨迹，分解为视觉识别、知识回忆和推理整合三个阶段。我们还采用阶段替换干预方法，评估纠正特定阶段对最终答案的影响。除评估外，研究表明轨迹监督微调能够减少阶段幻觉。ClinHallu为诊断和缓解医学MLLM中的推理失败提供了一个细粒度的幻觉测试平台。该基准测试已在https://github.com/alibaba-damo-academy/ClinHallu上公开提供。

LoSoNA：群体对话中局部社会规范适应的基准测试
LoSoNA: A Benchmark for Local Social Norm Adaptation in Group Conversations

Jun 12

ByMateusz Winiarek, Maksymilian Bilski, Mateusz Jacniacki

在线群聊是存在局部会话规范的社交空间，但这些规范很少被明确陈述。基于大语言模型的智能体识别并适应这些规范的能力与意愿仍鲜有探讨。我们提出LoSoNA基准，用于评估多方聊天中的局部社交规范适应能力。每个场景向目标模型提供一份经过整理的群聊记录，其中非目标参与者会展示某种隐性的局部规范，随后通过最终对话轮次迫使模型回答，从而揭示其是否推断出该规范。我们评估了8种前沿及开源权重模型在四种提示条件下的表现，这些条件在要求模型将先前对话作为回答依据的明确程度上有所差异。对多数模型而言，朴素提示的效果依然有限；显式的规范感知提示虽能带来不均衡的提升——Gemini 3.1 Pro达到84.2%，Claude Fable 5达到81.6%，但其他多个模型仅获得小幅提升甚至出现倒退。LoSoNA通过检验模型能否从先例中推断局部会话规范并在单轮群聊回应中加以运用，回应了近期关于评估大语言模型社交能力的学术倡议。

针对跨尺度科学挑战的AI智能体基准测试
Benchmarking AI Agents for Addressing Scientific Challenges Across Scales

Jun 10

ByTianyu Liu, Allen Xin Wang, Antonia Panescu, Lisa Xinyi Chen, Wenxin Long, Xinyu Wei, Yueqian Jing, Ziyao Zeng, Jihang Chen, Sihan Jiang, Ziqing Wang, Siyi Gu, Siyu Chen, Xinyang Hu, Haoran Shao, Leqi Xu, Wangjie Zheng, Zhiyuan Cao, Ada Fang, Botao Yu, Kunyang Sun, Rex Ying, Arman Cohan, Qingyu Chen, Lingzhou Xue, Kaize Ding, Yuanqi Du, Wengong Jin, Zhuoran Yang, Marinka Zitnik, James Zou, Hua Xu, Hongyu Zhao

AI代理正日益被开发用于加速科学发现，但它们在真实研究环境中的实际能力仍缺乏深入理解。现有针对AI代理的基准测试很少捕捉科学工作所需的复杂性、异质性和扩展推理能力，而面向科学任务的基准测试往往将研究简化为静态的直接问题，对交互式评估的支持有限。本文提出SciAgentArena——一个系统化的基准测试框架，用于评估AI代理在多领域新兴需求驱动的真实科学研究场景中的表现。SciAgentArena包含约200项任务，配备分步验证机制和一个与代理无关的交互式环境，可评估不同类型的AI代理。通过该基准测试，我们发现当前AI代理在任务结构和评估标准明确的场景下，能够有效参与具体指定的数据分析工作流。然而，其表现因科学领域不同而参差不齐：代理在生成真正新颖的见解、维持自主探索方向以及为开放式研究问题制定稳健解决方案方面仍存在困难。我们进一步归纳了各代理的常见失败模式，并识别了提升其可靠性、自主性和科学推理能力的潜在改进方向。综上，SciAgentArena为衡量AI代理在科学领域的进展提供了实用框架，同时为设计能够应对复杂科学挑战的未来代理提供了指导。全部代码、任务和数据集可通过以下链接获取：https://sciagentarena.github.io/。

密集监督，稀疏更新：论在线策略蒸馏的稀疏性与几何结构
Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation

Jun 11

ByGuo Yu, Wenlin Liu, Yulan Hu, Hao-Xuan Ma, Jun-Peng Jiang, Han-Jia Ye

在线策略蒸馏（OPD）近期已成为一种重要的后训练范式，因其融合了两大理想特性：在线策略的学生轨迹与密集的教师监督。然而，这种混合机制如何改变模型参数尚不清楚。通过分析多组语言模型与视觉-语言模型对及其使用场景，本研究得出两个主要发现。关于稀疏性：OPD式更新具有小幅度且坐标稀疏的特点，这些更新分布在各层之间，且通常以FFN层为主。这种稀疏结构具有实际应用价值：仅训练所发现的子网络即可恢复接近完整OPD的性能。然而，在优化器消融实验中，稀疏性诱导的SGD优化器表现逊于AdamW，其原因在于密集教师监督保留了异构的坐标级梯度尺度，而AdamW的自适应缩放机制在此场景下仍具优势。关于几何特性：这些更新在数值上具有满秩结构但谱集中分布；它们主要偏离源权重的主奇异子空间，且不成比例地落在源权重接近零的坐标上。这些发现表明，密集教师监督并未将OPD转变为普通的密集参数重写，相反，OPD保留了在线策略后训练的重要几何特征。

AFFORDANCE20Q: 基于物理属性的可供性推理评估
AFFORDANCE20Q: Evaluating Affordance Reasoning from Physical Properties

Jun 12

ByYifan Jiang, Meige Yang, Zitong Li, Jay Pujara

可供性推理是指从物体的物理属性（如形状和材料）推断其动作可能性，这是人类物理理解的基础，并且对大型语言模型（LLMs）日益重要。然而，现有的可供性基准测试大多在评估设置中直接暴露物体身份，使模型能够依赖记忆的物体-可供性映射而非基于物理属性进行推理。为弥补这一空白，我们提出了Affordance20Q，这是一个新颖的可供性推理基准测试，采用20个问题游戏的形式，不暴露物体身份。在每局游戏中，模型通过询问关于物体物理属性的是/否问题，从候选集中识别隐藏物体的可供性。Affordance20Q包含1,009局游戏，涵盖454个物体和59种可供性，所有数据均经过人工筛选、精炼和标注。我们使用15个最先进的大语言模型进行了全面实验，发现与人类表现存在显著差距（约20个百分点）。基于KL散度的信息增益分析进一步表明，模型在游戏进行中未能提出有区分度的问题。为缩小这一差距，我们开发了基于知识库锚定的规则归纳（KARI），这是一种基于LLM的流水线，可生成以知识库证据为基础的可供性规则。KARI将开源大语言模型的性能提升了高达15.2个百分点，但知识库覆盖范围有限制约了进一步提升。我们将所有代码和数据发布在https://github.com/1171-jpg/Affordance20Q.git。

人工推理之谜：探究大型推理模型中的生成-评估差距
An Enigma of Artificial Reason: Investigating the Production-Evaluation Gap in Large Reasoning Models

May 31

ByMingzhong Sun, Teresa Yeo, Armando Solar-Lezama, Tan Zhi-Xuan

对人类推理的研究表明，人们在评估推理时的能力通常强于从零开始进行推理。相比之下，大型推理模型（LRM）经过训练，擅长生成冗长的推理链以解决复杂问题。那么，LRM在评估推理方面的表现如何？我们通过有效答案-无效推理（VAIR）数据集对此进行了探究：该数据集包含存在琐碎推理缺陷但答案正确的数学问题及解答，旨在将推理评估与推理生成这一干扰因素分离开来。不同于人类（我们发现人类在评判此类问题时的表现仅比解出问题差6%），LRM在推理生成与评估之间表现出显著差距：前沿模型在评估VAIR解答时的得分低至48%，尽管它们生成解答的表现接近完美。为何出现这一谜题？通过思维链（CoT）分析，我们发现了答案确认偏误的证据：LRM往往先得出答案，再验证其正确性，而非逐步仔细核查推理过程，甚至在发现异常推理时也会编造合理化解释。线性探针进一步证实了这一点：虽然LRM的激活编码能部分表征有效推理，但无法稳健地将VAIR解答表征为无效。对最终答案表征进行因果修补会导致LRM的判断和激活产生反转，表明答案有效性是模型确认偏误的根源。这些发现揭示了当前主流推理训练方法的显著局限：该方法鼓励LRM围绕正确答案生成并确认推理过程，而非稳健地评估潜在推理逻辑。

P3D-Bench: 多模态大语言模型参数化三维生成与结构推理的基准测试
P3D-Bench: Benchmarking MLLMs for Parametric 3D Generation and Structural Reasoning

Jun 9

ByYikang Yang, Zhanpeng Hu, Youtian Lin, Mengqi Zhou, Jingxi Xu, Feihu Zhang, Jiaheng Liu, Yao Yao

多模态大语言模型能够编写代码生成复杂程序，并利用程序进行3D建模，这为基于其先验知识、世界模型和推理能力的3D生成开辟了新途径。然而现有基准测试极少通过代码来评估3D建模能力。此类建模的要求远超于生成可运行代码：模型需根据文本或视觉规范，生成在几何精度、语义对齐和装配一致性方面均满足要求的参数化3D程序。为此，我们提出P3D-Bench——一个用于参数化3D生成的基准测试。与3D网格不同，参数化3D程序可显式呈现尺寸参数、构建操作及零部件关系，从而揭示模型是否真正恢复设计结构而非仅重现外观。在统一协议框架下，P3D-Bench涵盖三大任务族（文本到3D、图像到3D和装配到3D），并从可执行性、几何保真度、拓扑结构、文本约束满足度、多视图语义对齐及零件级结构六个维度对输出进行评分。我们基于400个文本案例、400个图像案例和203个带注释装配体，评估了前沿多模态大语言模型与纯文本大语言模型的表现，并以领域专用模型作为参照基准。广泛评估得出三项发现：第一，装配任务最具挑战性，模型仍难以将多个部件组合成连贯结构；第二，模型通常能恢复目标物体的整体形状和语义特征，但无法复现输入所指定的精确参数化几何；第三，装配场景下零件级建模能力薄弱，模型既无法恢复每个零件的几何结构，也无法确定正确的零件数量。这些结果使P3D-Bench成为评估参数化3D生成中精确参数化几何和零件级结构的关键基准。

APT: 动作专家预训练提升视觉-语言-动作策略的指令泛化能力
APT: Action Expert Pretraining Improves Instruction Generalization of Vision-Language-Action Policies

Jun 10

ByKechun Xu, Zhenjie Zhu, Anzhe Chen, Rong Xiong, Yue Wang

将预训练的视觉-语言模型（VLM）与连续动作专家相结合的视觉-语言-动作（VLA）模型在操作任务中表现出色，但对分布外（OOD）语言指令的泛化能力仍然薄弱。一个已知挑战是VLA数据中的结构性不平衡：语言的多样性远低于视觉和动作内容，导致策略容易依赖视觉捷径。尽管离散动作方法通过视觉-语言协同训练缓解了这一问题，但连续动作专家缺乏这种保护：它们从随机初始化开始，完全从不平衡数据中学习，产生噪声梯度，从而破坏VLM并未能利用其语言能力。我们从贝叶斯视角出发，将策略分解为与语言无关的视觉-动作（VA）先验和语言条件化的VLA似然，并提出了APT——一种强调动作专家预训练（Action expert PreTraining）的两阶段训练方法。在第一阶段，动作专家作为VA先验在来自冻结VLM的视觉-动作对上进行预训练，从而绕过语言不平衡问题。在第二阶段，通过一种门控融合机制注入语言标记，该机制在保留已学习的视觉运动先验的同时整合VLM特征。APT适用于主流VLA架构，包括π和GR00T风格架构。综合实验验证了APT在未见指令和组合任务上实现了一致的性能提升。项目页面：https://xukechun.github.io/papers/APT/

世界追踪：超越可见的生成式像素对齐几何
World Tracing: Generative Pixel-Aligned Geometry Beyond the Visible

Jun 11

ByHao Zhang, Mohamed El Banani, Jen-Hao Cheng, Paul Zhang, Yi Hua, Ben Mildenhall, Christoph Lassner, Narendra Ahuja, Gengshan Yang

图像到三维方法通常在忠实性与完整性之间进行权衡：深度估计器锚定于输入像素，但仅限于可见表面；而图像到三维模型可生成完整形状，却常与输入存在错位。我们提出世界追踪（World Tracing），这是一种生成式像素对齐几何表示，它能预测与观测像素对齐的三维点，同时补全可见表面之外的几何结构。对于每个输入像素，世界追踪预测一组有序的相机空间三维点堆栈，其中第一层表示可见表面，后续层表示从前到后与遮挡表面的交点。我们通过世界追踪扩散变换器（WT-DiT）实例化该表示，该模型将多个几何层视为独立的去噪令牌，并通过分解注意力和全局注意力耦合。WT-DiT 采用像素空间流匹配和混合噪声调度进行训练，以平衡可见表面重建与遮挡几何生成。世界追踪在物体、场景和动态基准测试的可见表面重建与完整几何生成上均取得强劲性能，超越了深度预测器和图像到三维生成器。它还保留了二维到三维的对应关系，从而实现文本驱动的三维场景编辑、几何条件的新视角视频合成，以及与纹理网格生成器的无需训练集成。

AlloSpatial：面向基础模型空间推理的智能体调控框架
AlloSpatial: Agentic Harness Framework for Spatial Reasoning in Foundation Models

Jun 8

ByShouwei Ruan, Bin Wang, Zhenyu Wu, Qihui Zhu, Yuxiang Zhang, Jingzhi Li, Yubin Wang, Xingxing Wei

多模态基础模型（MFMs）已取得显著进展，但在物理世界的空间推理方面仍然脆弱。关键瓶颈在于它们无法将局部自我中心观测转化为全局异我中心空间表征。为解决这一问题，我们提出AlloSpatial——一种面向基础模型的异我中心空间认知智能体框架。AlloSpatial引入了World2Mind，一个即插即用的认知映射沙盒，可将自我中心观测转化为结构化异我中心先验，包括支持对象拓扑、几何关系、可通过性及轨迹查询的异我中心空间树与路线图。为了在噪声重构和模糊视觉证据下可靠利用这些先验，AlloSpatial提出了一种空间推理约束机制，用于工具使用判断、模态解耦线索收集以及几何-语义仲裁。我们进一步通过冷启动强化学习，结合约束门控轨迹级奖励，在Qwen3-VL中内化这一过程。在VSI-Bench和MindCube上的实验表明，AlloSpatial在免训练设置下将专有模型的性能提升了5%-18%；即便移除视觉输入，仅使用异我中心空间树也能支持强大的空间推理。训练后的AlloSpatial智能体进一步超越了更大的通用模型及具有竞争力的空间基线，这表明结构化的异我中心表征、主动工具使用以及可验证的推理为构建具备空间能力的基础模型提供了一条有前景的路径。

针对随机Minimax树的双保真度最佳行动识别
Two-Fidelity Best-Action Identification for Stochastic Minimax Tree

Jun 1

ByPeter Chen, Xi Chen

我们研究随机极小极大树中的固定置信度最优动作识别（BAI）问题。这一问题在现代人工智能规划中日益重要，深度极小极大搜索和基于语言模型长rollout的蒙特卡洛树搜索（MCTS）面临一个根本性权衡：启发式评估成本低廉但存在偏差，而精确rollout结果可靠却代价高昂。为此，我们提出双保真度树搜索算法2FFS，将多保真度平面赌博机思想引入树结构。该算法融合极小极大式快速扩展与MCTS式随机采样，自适应地决定何时利用廉价有偏评估，何时调用昂贵精确评估进行局部验证。我们证明了固定置信度下的正确性，建立了精确识别的有限停止性，并给出了通用深度树的多项式深度成本上界。在数值随机树实验中，与现有BAI-MCTS基线相比，2FFS使用的样本量和计算操作显著减少。

最快检测幻觉起始：延迟界与学习型CUSUM统计量
Quickest Detection of Hallucination Onset: Delay Bounds and Learned CUSUM Statistics

Jun 10

ByIgor Itkin

令牌级幻觉检测器通过所有令牌的AUC作为分类器进行评估，而流式监控器则依据反应时间判断性能：即从幻觉出现到警报触发的间隔令牌数。我们将幻觉起始检测构建为最快变化检测问题。基于RAGTruth验证的潜在忠实/幻觉状态一阶马尔可夫模型，将该任务纳入经典变点理论框架，并导出Lorden检测延迟下界：在虚警率为0.01时，延迟约为1.3个令牌。进一步研究表明，因果循环标注器相当于具有学习增量的CUSUM检测器：在匹配的虚警率下，其检测延迟为11-13个令牌，而线性逐令牌基线为31个；通过受控分解，该优势主要源于更优的逐令牌评分，而非时间累积效应。Donsker-Varadhan型信息率最优性定理解释了剩余量级差距：学习评分仅实现特征携带散度的1/4.5，该缺陷无法通过重新校准消除，其余部分源于有限时间效应。分类指标掩盖了这种延迟结构，而序列分析使其变得可量化。

FVSpec: 现实世界中的基于属性测试作为Lean挑战
FVSpec: Real-World Property-Based Tests as Lean Challenges

May 31

ByQuinn Dougherty, Max von Hippel, Hazel Shackleton, Mike Dodds

我们提出了一项基准，用于评估AI模型和智能体在真实世界形式化软件验证任务上的表现。首先，我们从真实世界的Python代码库中抓取了11,039个属性基测试（PBT），然后自动将其中2,772个（25%）转化为9,415条包含`sorry`占位符的Lean 4规范（平均每个PBT对应约3个形式化版本；当没有单一版本在质量指标上占优时，我们会保留多次尝试的结果）。将PBT转换为Lean规范颇具挑战性：需要在Lean中模拟Python语义，推断命令式PBT中编码的逻辑属性，并处理一个鲜少使用的语言中依赖类型编程的固有难点。我们描述了一个三智能体LLM流水线，用于将PBT转译为Lean规范，评估了覆盖率和质量指标，并提供了基于自动化方法和模型驱动方法的多种证明生成基线。所有代码（抓取器和智能体）与数据（PBT和Lean规范）均已开源。我们的基准旨在推动AI辅助形式化验证真实世界软件这一尚未充分探索问题的进展，而随着AI生成越来越多全球代码，该问题的重要性与日俱增。

ActiveMimic：基于主动感知的第一人称视频预训练
ActiveMimic: Egocentric Video Pretraining with Active Perception

Jun 4

ByXingyao Lin, Guojin Zhong, Tianyi Lu, Ziyi Ye, Yichen Zhu, Zuxuan Wu, Yu-Gang Jiang

以自我为中心的人类视频为机器人预训练提供了一种可扩展的替代数据源，然而基于此类视频预训练的模型始终不如基于机器人数据预训练的模型。我们将这一差距归因于一个缺失的信号——自我中心视频中的主动感知行为：人类在操作过程中会持续调整视点，导致摄像机运动，而标准流程将其视为噪声。为此，我们提出ActiveMimic，一种预训练框架，能够从单个穿戴式RGB摄像头恢复同步的摄像头和手腕轨迹，将摄像头运动建模为视点动作，并在面向目标机器人进行适应之前，从野外自我中心人类视频中联合学习主动感知与操作。实验表明，在具有不同主动感知需求的各类任务中，ActiveMimic始终优于基于人类视频预训练的基线模型，并达到与基于机器人数据预训练的最先进模型相当的性能。进一步分析证实，主动感知能力源于自我中心人类视频预训练而非机器人特定微调，从而确认主动感知是解锁自我中心人类视频用于机器人预训练的关键。

CARVE：基于包络的交互式驾驶中被否决操控的认证经济性修复
CARVE: Certified Affordable Repair of Vetoed Maneuvers via Envelopes for Interactive Driving

May 31

ByYifan Wang

交互式驾驶暴露了一种在规则感知的自动驾驶系统中容易忽视的失效模式：即使无优先权的代理做出微小的合法让步可以恢复可行性，自车候选动作的硬规则裕度仍可能为负值。现有的规则手册、防护屏障和可达性过滤器能有效否决不安全动作，而基于预测的规划器则用于建模最可能的响应。但两者均无法返回运行时证明对象，该对象需说明：哪些有界多方编辑可修复机动操作、编辑归属于谁、请求是否具有路权可负担性、以及若请求未被遵守时自车可执行何种冗余方案。我们将这一缺失对象形式化为**交互修复认证**，并提出**CARVE**——一种基于有限格结构（由自车和他人所有战术算子构成）且无需预测的证书层。他人所有请求仅在合作包络 \(B_j(s) = β(π_j)α_j^{\max}(s)\) 内允许，该包络将运动学可达性与规范性优先级分离。生成的证书记录了绑定规则、修复类别、修复集合、责任加权成本分摊及冗余方案。在589个基于Lanelet2几何的INTERACTION回放场景中，CARVE-Greedy接受了98.64%最初被否决的机动动作，恢复了370/378个人类判定的错误否决，同时保持589/589次路权尊重、零优先代理误报和400/400次负压力否决。我们证明了证书的可靠性、结构性路权尊重、精确有限格极小性、冗余应急方案及责任一致性条件。CARVE不预测也不要求他人司机遵守规则；它仅认证在声明假设下，所提议的交互是否具有有界性、可归因性及规范性可接受性。

AdaSR：基于分层相对策略优化的自适应流式推理
AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization

Jun 12

ByJunlong Tong, Wenqi Xu, Yingqi Fan, Anhao Zhao, Xuan Lu, Yang Tan, Xiaoyu Shen

大型推理模型通常遵循“先读后思考”的范式：它们观察完整的输入，在静态上下文中进行推理，然后生成答案。然而，许多现实场景本质上是动态的，例如音频和视频流，信息以连续流的形式到达，模型必须在部分观测的条件下进行推理、更新和响应。最近的流式推理方法允许模型在阅读的同时进行思考，但它们主要依赖对预构建轨迹的监督模仿，这限制了其灵活性。本文提出AdaSR，一个自适应流式推理框架，使模型能够在输入流式传输过程中进行推理，并在流式传输完成后进行最终深思，从而学习何时思考以及在不同阶段分配多少计算资源。为了优化这一分层推理过程，我们引入了分层相对策略优化（HRPO），将策略优化分解为流式推理和深度推理两个阶段，提供更细粒度的优势分配，而不是将单个序列级优势均匀地分布到所有令牌上。HRPO整合了格式、准确性和自适应思考奖励，以强制实施有效的推理协议、保持最终任务性能，并鼓励延迟感知的计算分配。实验表明，与监督微调基线相比，AdaSR在推理准确性、计算效率和流式延迟之间实现了更好的平衡。我们已在https://github.com/EIT-NLP/StreamingLLM/tree/main/AdaSR 上公开代码。

挤压-释放：基于精确结构最小化的迭代剪枝
Squeeze-Release: Iterative Pruning with Exact Structural Minimization

Jun 12

ByRoman Denkin, Ida Akerholm, Prashant Singh, Ida-Maria Sintorn

非结构化剪枝会生成稀疏的权重张量，但标准实现中张量形状保持不变，导致部署后的模型并未比剪枝前更小。我们提出了一种精确的结构重写方法，称之为“最小化”，该方法能将掩码网络转换为更小的密集网络，且其前向函数在浮点舍入误差范围内保持一致。Squeeze-Release循环迭代执行剪枝与最小化，并在中间穿插一个释放步骤，将压缩张量内的精确零位置重新启用为小幅校准噪声，从而将原本浪费的容量转化回可训练参数。连续的循环利用这份容量，发现单次剪枝无法触及的结构冗余。此外，我们引入了CompensatedLayerNorm，这是一种保持函数不变的LayerNorm替代方案，它将最小化扩展至配备LayerNorm的残差流中的通道缩减。在精度相当的情况下，Squeeze-Release在全连接模型网络上将可部署网络压缩至未剪枝模型的39倍更小，在现代CNN（ConvNeXt-Tiny）上则达到14.8倍更小。此外，我们证明了该重写方法可扩展至Transformer架构。

WaveDiT: 分布感知的小波流匹配用于高效3D脑部MRI合成
WaveDiT: Distribution-Aware Wavelet Flow Matching for Efficient 3D Brain MRI Synthesis

Jun 7

ByDanilo Danese, Angela Lombardi, Giuseppe Fasano, Matteo Attimonelli, Tommaso Di Noia

大规模且人口平衡的数据集对于可靠的神经影像生物标志物至关重要。在此背景下，全分辨率三维脑部MRI合成可支持数据增强，但现有方法要么在体素尺度上产生高昂的计算成本，要么依赖有损潜在压缩而可能损害解剖细节。因此，实用的三维生成增强通常需要专门的计算基础设施。我们提出WaveDiT，一种在三维Haar离散小波变换系数空间中运行的条件流匹配框架。该模型将分解的深度-空间注意力与基于高阶小波统计的带状异方差不确定性建模相结合。预测的对数方差直接集成到流目标函数和条件路径中，从而能够实现与解剖细节的重尾和输入依赖方差结构相一致的适应性精度。该公式支持在单块现代GPU上在实用的内存和时间约束下进行全分辨率三维合成。在多中心队列上的评估表明，与扩散、潜在和小波基线方法相比，生成图像与真实MRI分布之间的对齐程度有所改善，同时下游脑年龄预测和区域级解剖一致性也得到增强。代码已公开于https://github.com/sisinflab/WaveDiT。

通过预测驱动推断实现统计可靠的基于LLM的排序评估
Statistically Reliable LLM-Based Ranking Evaluation via Prediction-Powered Inference

Jun 3

ByAbhishek Divekar

借助PRECISE方法，我们扩展了预测驱动推断（Prediction-Powered Inference, PPI），通过将少量人工标注集与大规模大语言模型（LLM）评分集相结合，生成排序评估指标的偏差校正估计。无论LLM评分的误差模式如何，PPI均能保证无偏估计。为了使其适用于如Precision@K这类层次化指标（其中标注按文档进行，而指标按查询计算），我们将输出空间的计算复杂度从O(2^|C|)降至O(2^K)。在ESCI基准测试中，利用Claude 3 Sonnet的评分将30个人工标注扩充后，Precision@4估计值的标准误差从4.45降至3.50（相对降低21%）。在一个生产系统中，我们的框架仅凭100个人工标签和2小时领域专家标注，便正确识别了三个系统变体中的最优方案；A/B测试通过每日销售额提升407个基点验证了这一排名。