HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

25 papers found

SkillOpt: 智能体技能自进化的执行策略
SkillOpt: Executive Strategy for Self-Evolving Agent Skills

May 22

ByYifan Yang, Ziyang Gong, Weiquan Huang, Qihao Yang, Ziwei Zhou, Zisu Huang, Yan Li, Xuemei Gao, Qi Dai, Bei Liu, Kai Qiu, Yuqing Yang, Dongdong Chen, Xue Yang, Chong Luo

153

当前Agent技能要么是手工制作的，要么是一步生成的，要么是通过松散控制的自我修正演化而来——这些方法都不像技能深度学习优化器那样运作，也没有一种能在反馈下可靠地超越其起点。我们认为，技能应当作为冻结Agent的外部状态进行训练，遵循与权重空间优化相同的严谨原则，以确保可重复性。据我们所知，SkillOpt是首个针对Agent技能的系统化可控文本空间优化器：一个独立的优化器模型将带分数的展开结果转化为对单一技能文档的有界添加/删除/替换编辑，且仅当该编辑能严格提升保留验证分数时才被接受。文本学习率预算、被拒编辑缓冲区以及逐轮慢更新/元更新使得技能训练过程稳定，且在部署时无需增加任何推理时的模型调用。在六个基准测试、七个目标模型和三个执行框架（直接对话、Codex、Claude Code）中，SkillOpt在所有52个（模型、基准、框架）评估单元上取得最佳或并列最佳成绩，并在每个单元中击败了人类编写、一步式LLM生成、Trace2Skill、TextGrad、GEPA和EvoSkill等所有竞品技能。在GPT-5.5上，它将在直接对话中的无技能平均准确率提升了+23.5个百分点，在Codex Agent循环中提升了+24.8个百分点，在Claude Code中提升了+19.1个百分点。迁移实验进一步表明，优化后的技能制品在跨模型规模迁移、在Codex与Claude Code执行环境间迁移，以及迁移至邻近的数学基准测试（无需进一步优化）时，仍能保持其价值。

重新思考扩散Transformer中的跨层信息路由
Rethinking Cross-Layer Information Routing in Diffusion Transformers

May 20

ByChao Xu, Maohua Li, Qirui Li, Yixuan Xu, Yanke Zhou, Yunhe Li, Cuifeng Shen, Hanlin Tang, Kan Liu, Tao Lan, Lin Qu, Shao-Qun Zhang

扩散变换器（Diffusion Transformers, DiTs）已成为现代视觉生成领域的事实标准骨干架构，其设计的几乎所有核心维度——包括分词、注意力机制、条件控制、训练目标以及潜变量自编码器——均已得到广泛而深入的重新审视。然而，控制各层间信息累积方式的残差流却直接沿用了原始Transformer的设计。本文对DiTs中跨层信息流进行了系统性的实证分析，结合网络深度与去噪时间步两个维度，识别出传统残差加法存在的三种具体症状：前向幅度的单调增长、反向梯度急剧衰减以及显著的模块间冗余。基于这一诊断，我们提出扩散自适应路由（Diffusion-Adaptive Routing, DAR），这是一种即插即用的残差替代方案，能够对子层输出的历史信息进行可学习、时间步自适应且非增量的聚合。此外，所提出的DAR与多种现代Transformer增强方法（如REPA）兼容。在ImageNet 256×256数据集上，DAR使SiT-XL/2的FID提升了2.11（7.56 vs. 9.67），并以8.75倍更少的训练迭代次数达到基线模型的收敛质量。当叠加在REPA之上时，DAR在早期阶段实现了2倍的训练加速，这表明跨层信息路由是扩散建模中一个尚未充分探索的设计维度，且与现有的表征对齐目标正交运行。在预训练之外，DAR还可应用于大规模文生图（T2I）模型的微调阶段，并在分布匹配蒸馏过程中保留高频细节。

视角：重新思考基础文生图模型的训练效率
Lens: Rethinking Training Efficiency for Foundational Text-to-Image Models

May 20

ByDong Chen, Fangyun Wei, Ziyu Wan, Dongdong Chen, Jiawei Zhang, Jinjing Zhao, Sirui Zhang, Yang Yue, Zhiyang Liang, Baining Guo, Chong Luo, Jianmin Bao, Ji Li, Lei Shi, Qinhong Yang, Xiuyu Wu, Xuelu Feng, Yan Lu, Yanchen Dong, Yitong Wang, Yunuo Chen

我们推出了Lens，一个拥有38亿参数的文生图模型。该模型在多项基准测试中，性能与参数超过60亿的最先进模型相当，甚至在某些方面超越它们，同时所需的训练计算量显著更少。例如，Lens仅需Z-Image约19.3%的训练计算量。Lens的训练效率源于其紧凑模型尺寸之外的两项关键策略。首先，我们通过以下方式最大化每个训练批次的数据信息密度：(i) 在Lens-800M数据集上训练，该数据集包含8亿个由GPT-4.1生成的密集描述图像-文本对，其描述平均约含109个单词，提供了比传统短描述更丰富的语义监督；(ii) 每个批次由多种分辨率和不同宽高比的图像构成，从而扩大每个优化步骤的有效视觉覆盖范围。其次，我们通过精心的架构选择提高收敛速度，包括采用能够提供更好潜在表示的语义VAE，以及使用强大的语言编码器来加速优化，同时实现仅从英文训练数据中泛化到多语言的能力。预训练后，我们应用基于分类法提示的强化学习（Lens-RL-8K）和结构化奖励评分标准来抑制伪影并提高视觉质量；一个无需训练的推理模块，通过系统提示搜索来更好地将用户请求与模型对齐；以及基于蒸馏的加速方法，实现4步推理。通过高效的训练和系统优化，Lens可泛化到1:2到2:1的任意宽高比和最高1440²的分辨率，并支持多种常用语言的提示。得益于其紧凑的尺寸，Lens在单个NVIDIA H100 GPU上生成1024²图像仅需3.15秒，而其蒸馏涡轮版本可在0.84秒内完成4步生成。

SciAtlas：面向自动化科学研究的大规模知识图谱
SciAtlas: A Large-Scale Knowledge Graph for Automated Scientific Research

May 20

ByShuofei Qiao, Yunxiang Wei, Jiazheng Fan, Bin Wu, Busheng Zhang, Mengru Wang, Yuqi Zhu, Ningyu Zhang, Keyan Ding, Qiang Zhang, Huajun Chen

全球学术成果的指数级增长使研究人员和AI智能体面临前所未有的“信息爆炸”，碎片化、非结构化的知识组织方式严重阻碍了深层次的跨学科融合。当前学术检索工具主要依赖表面化的关键词匹配或向量空间语义检索，缺乏驾驭复杂逻辑联系的拓扑推理能力。基于深度研究的智能体框架常出现逻辑幻觉并消耗高昂推理成本。为弥补这一缺口，本报告提出SciAtlas——一个大规模、多学科、异构学术资源知识图谱，旨在构建全景式科学演化网络。通过整合26个学科的4300万篇论文，共计1.57亿个实体和30亿个三元组，SciAtlas提供了结构化的拓扑认知基座，打破学科壁垒，为AI智能体赋予全局视野。在此基础上，我们开发了神经符号检索算法，融合三路协同召回与图重排序，实现了从简单语义匹配到确定性关联发现的平滑跃迁。本文还展示了SciAtlas的关键应用方向，包括文献综述、自动化研究趋势综合、创意定位与学术轨迹探索，证明SciAtlas可作为有效的“认知地图”，赋能自动化科学研究的全链条，同时显著降低推理成本。我们已在GitHub仓库中发布了知识图谱检索接口及各类下游任务接口。

StepAudio 2.5 技术报告
StepAudio 2.5 Technical Report

May 22

ByBin Lin, Bo Zhao, Boyong Wu, Chao Yan, Chen Wu, Cheng Yi, Chengyuan Yao, Daijiao Liu, Fei Tian, Feng Tian, Haiyang Sun, Haoyang Zhang, Jiangjie Zhen, Jinglan Gong, Jun Chen, Li Xie, Peilin Li, Peng Yang, Pengfei Tan, Qingjian Lin, Runze Li, Shenghua Hu, Siyi Zhou, Wenwen Qu, Xiangyu Li, Xiangyu Tony Zhang, Xuerui Yang, Yang Yang, Yechang Huang, Yu Fu, Yuchu Luo, Yuxin Li, Yuxin Zhang, Zhengyan Sheng, Brian Li, Chang Zeng, Changlin Zhang, Chen Geng, Chenghao Dong, Chengli Feng, Dan Zhou, Danni Wan, Di Chen, Die Zhang, Dongqing Pang, Guanglong Yang, Guoqiang Hu, Huangxi Zhu, Jianzheng Gao, Jinghua Liang, Jinmei Wan, Junjie Yuan, Kang An, Lei Lei, Limin Zhong, Lun Cai, Mengqiang Ren, Min Xu, Mingliang Li, Mingxiao Li, Na Wang, Qiang Tong, Qiaoling Huang, Qingfu Du, Rui Wang, Shengchen Zhou, Shi Qiu, Shihao Peng, Shiliang Yang, Siqi Tu, Tianjiao Deng, Ting Xu, Tong Wang, WeiMing Niu, Wuxun Xie, Xianwei Zhang, Xianyu Feng, Xiaojia Liu, Xing Chen, Xiongbin Wu, Yan Wu, Yang Li, Yi Liu, Yifan Zhang, Yile Liu, Yongshen Long, Yu Luo, Yuanhao Ding, Yuhao Wang, Yuhe Yin, Yunfang Xu, Yuxiang Yang, Zhiguo Huang, Zhiyue Wu, Zichao Li, Zichao Zhou, Daxin Jiang, Future Li, Gang Yu, Xiangyu Zhang, Yibo Zhu

统一音频语言建模已成为现代语音系统的主流趋势，有望将大语言模型的推理能力拓展至听觉任务。然而，现有统一基础模型在自动语音识别（ASR）、文本到语音合成（TTS）及实时语音交互等领域的深度上，往往难以匹敌专用系统。弥合这一差距仍是悬而未决的挑战。本报告提出StepAudio 2.5，一个在以上三类能力上均达到或超越专用系统的统一音频语言基础模型。我们并非将这些任务视为架构上彼此独立，而是基于一个前提：一旦文本与音频共享多模态表示空间，任务专门化便成为操作范式的问题——即数据构建、优化目标与解码约束。在这一洞见指导下，我们将后训练范式从标准监督学习推进至任务定制的基于人类反馈的强化学习（RLHF），将其作为定义复杂优化目标的核心机制。我们借助以RLHF为中心的对齐策略，配合专门化解码，将共享骨干模型塑造为三种不同的操作模式。具体而言，ASR分支通过可验证的多令牌解码提升转录效率；TTS分支通过基于偏好的RLHF与上下文丰富的监督实现可控且富有表现力的合成；实时分支则通过RLHF框架中的生成式奖励建模，实现低延迟、人格一致的对话。在标准基准测试中，StepAudio 2.5在ASR、TTS及实时任务上均达到最先进水平，证明单一音频语言基础模型能够成功内化语音理解、生成与实时交互的差异化部署目标。

看我所指：对齐视觉与语言表示以实现视频细粒度物体理解
See What I Mean: Aligning Vision and Language Representations for Video Fine-grained Object Understanding

May 18

ByBoyuan Sun, Bowen Yin, Yuanming Li, Xihan Wei, Qibin Hou

我们提出SWIM（See What I Mean，即“所见即所指”），一种新颖的训练策略，通过对齐视觉与语言表征，使得模型仅凭文本提示即可实现对物体的细粒度理解。与现有需要显式视觉提示（如掩码或点）的方法不同，SWIM仅在训练阶段利用掩码监督引导跨模态注意力，从而使模型在推理时能自动关注用户指定的物体。我们对预训练多模态大语言模型（MLLMs）的交叉注意力分析揭示了一个系统性差异：属性词在视觉模态中产生尖锐且局部的激活，而物体名词因语义指代偏差和分布式高层表征，呈现出弥散且分散的模式。为解决这一对齐问题，我们构建了NL-Refer增强数据集，其中每个物体掩码都与一条精确的自然语言指代表达配对。SWIM从物体名词中提取多层交叉注意力图，并强制其与真实掩码保持空间一致性。实验结果表明，SWIM显著提升了文本与视觉的对齐能力，并在细粒度物体理解基准上取得了优于基于视觉提示方法的性能。代码与数据已开源：https://github.com/HumanMLLM/SWIM。

从原始经验到技能消费：模型生成的智能体技能的系统性研究
From Raw Experience to Skill Consumption: A Systematic Study of Model-Generated Agent Skills

May 22

ByZisu Huang, Jingwen Xu, Yifan Yang, Ziyang Gong, Qihao Yang, Muzhao Tian, Xiaohua Wang, Changze Lv, Xuemei Gao, Qi Dai, Bei Liu, Kai Qiu, Xue Yang, Dongdong Chen, Xiaoqing Zheng, Chong Luo

语言智能体越来越擅长通过复用技能来提升自身能力——这些技能是从过往经验中提炼出的结构化过程性构件。其中，领域级和模型生成的技能尤为值得关注。它们通过编码领域内特有的重复性流程，实现了在特定领域内的快速适应，并且能够超越劳动密集型的手工构建，实现规模化扩展。然而，尽管提取方法层出不穷，我们对其理解仍十分有限，至今尚未有全面覆盖技能完整生命周期（即经验生成、技能提取和技能消费）的综合研究来探讨：此类技能是否真的有效、在何种情况下有效，以及成功或失败的原因何在。为弥补这一空白，我们构建了一个基于实用性的评估框架，该框架在五个多样化的智能体任务领域上，提供了涉及不同提取器和目标智能体的系统性实验结果。我们发现，模型生成的技能总体上是有益的，但也表现出不容忽视的负迁移现象，且无论是提取器还是消费者，其行为都不具有一致性。某个模型可能是强大的提取器，却是薄弱的消费者，反之亦然，而技能的实用性与模型规模或基线任务表现无关。为解释这些规律，我们随后深入剖析了每个生命周期阶段，分析经验构成如何影响技能质量、有用技能具备哪些特征，以及同一技能在不同消费者之间的迁移表现。最后，我们将这些发现转化为一个具体的元技能，用于引导技能提取朝着与实际效用相关的特征方向发展，该方法在多个领域中持续提升了技能质量，并显著减少了负迁移现象。

PiD：基于像素扩散的快速高分辨率潜在解码
PiD: Fast and High-Resolution Latent Decoding with Pixel Diffusion

May 22

ByYifan Lu, Qi Wu, Jay Zhangjie Wu, Zian Wang, Huan Ling, Sanja Fidler, Xuanchi Ren

大多数实用的高分辨率文本到图像系统（包括潜在扩散模型和自回归模型）都在紧凑的潜在空间中进行生成，并通过解码器将生成的潜在表示映射回像素。然而，这种潜在到像素的解码器是面向重构的，其优化目标在于反转编码器而非合成更多细节，并且在百万像素级别下成本急剧上升。这一缺陷促使我们需要一种更具表现力且更高效的解码范式。受近期像素级扩散模型可扩展性进展的启发，我们提出了PiD（像素扩散解码器），它将潜在解码重构为条件像素扩散，将解码与上采样统一为单一生成模块。通过在像素空间直接去噪，PiD能合成4倍甚至8倍上采样的图像，且延迟极低。在潜在条件处理方面，一个轻量级的sigma感知适配器将受噪声扰动的潜在表示注入像素扩散主干，使得PiD能够解码部分去噪的潜在表示，从而提前终止潜在扩散过程。为进一步提升效率，我们采用DMD2对模型进行蒸馏，将推理步骤压缩至仅4步。PiD既适用于传统的VAE潜在表示，也适用于近期基于RAE模型中的语义潜在表示（如SigLIP、DINOv2）。PiD可将512×512图像的潜在表示解码为2048×2048像素，在消费级RTX 5090上仅需不到1秒，峰值内存13 GB；在GB200 GPU上最快可达210毫秒，相比基于级联扩散的超分辨率流水线，速度快约6倍且视觉保真度更优。

PhotoFlow：自主式3D虚拟摄影任务
PhotoFlow: Agentic 3D Virtual Photography Missions

May 22

ByJiarui Guo, Haojia Wei, Yiming Zhang, Yifei Liu, Yuning Gong, Hongjie Zhang, Xue Yang, Zhihang Zhong

虚拟摄影要求智能体进入一个预制的3D场景，在没有预设相机位姿或参考图像的情况下，根据场景信息和语言意图推断合适的镜头，选择可执行的相机参数，并最终渲染出照片。近年来视觉语言模型的进展使这类空间智能体越来越可行，但该任务对两种难以共同评估的能力提出了挑战：复杂的3D空间理解与抽象的审美判断。我们提出了PhotoFlow——一个用于闭环相机搜索的导演-评审-反思智能体。导演构建软性摄影蓝图并生成多样化的候选相机；评审结合规则检查、视觉评判和成对当前最优选择；反思则将失败转化为区域记忆、死区抑制和高探索性重定位。我们还引入了VPhotoBench基准，包含47个开放许可的Blender场景和141项语言驱动的摄影任务，涵盖主体布局、关系构图以及氛围/风格。在留出测试中，PhotoFlow在六轮渲染预算下，相较于一次性预测、单链反思、锚点库选择和随机搜索，实现了最强的外部质量-对齐复合指标和成功率。据我们所知，这是首项将任意Blender场景中的语言驱动虚拟摄影定义为可执行智能体任务的工作，我们的结果表明，以LLM为中心的空间智能体在旨在挑战3D推理与审美抉择的环境中，已能生成高质量的照片。

VGenST-Bench：通过主动视频合成进行时空推理的基准测试
VGenST-Bench: A Benchmark for Spatio-Temporal Reasoning via Active Video Synthesis

May 21

ByJinho Park, Youbin Kim, Hogun Park, Eunbyung Park

时空推理是现实世界中多模态大语言模型（MLLMs）的核心能力之一。因此，对其进行精确评估已成为一项关键挑战。然而，现有的时空推理基准数据集主要依赖静态图像集或被动策划的视频数据，这限制了细粒度推理能力的评估。本文提出VGenST-Bench——一个利用生成模型主动合成高度可控且多样化的评估场景的视频基准。为构建VGenST-Bench，我们设计了一个多智能体流水线，其中包含人工质量控制环节，以确保所有生成视频及问答对的质量。我们建立了一个全面的3×2×2视频分类体系，涵盖空间尺度、视角和场景动态，以覆盖多样化的场景。此外，我们设计了一套层次化任务套件，将低层级视觉感知与高层级时空推理相解耦。通过将范式从被动策划转向主动合成，VGenST-Bench能够实现对MLLMs时空理解能力的细粒度诊断。

RankE：离散文本到图像生成的端到端后训练与解码器协同进化
RankE: End-to-End Post-Training for Discrete Text-to-Image Generation with Decoder Co-Evolution

May 20

BySiyong Jian, Siyuan Li, Luyuan Zhang, Zedong Wang, Xin Jin, Ying Li, Cheng Tan, Huan Wang

离散自回归（AR）文本到图像（T2I）模型将VQ分词器与AR策略配对，当前的后训练流程仅优化策略而冻结VQ解码器。近期以REPA-E为代表的扩散T2I研究表明，VAE本身构成关键的对齐瓶颈，但离散AR模型中尚无类似探究。我们证明，仅策略优化会导致潜在协变量偏移：随着策略演化，生成的词元分布偏离解码器训练时所依据的真实分布，使得奖励分数提升的同时解码图像质量下降。为解决这一失配问题，我们提出RankE——首个面向离散T2I生成的端到端后训练框架。RankE并非针对固定解码器优化策略，而是通过交替优化共同演化两个组件：每个模块在最大化基于排序的对齐目标的同时，由适合其参数空间的稳定性保持锚点进行正则化。这种共同演化打破了困扰冻结解码器方法的保真度-对齐权衡：在LlamaGen-XL（775M）上，标准RL提升CLIP但恶化FID，而RankE同时改善两者（MS-COCO 30K上FID 15.21，CLIP 33.76）。在Janus-Pro（1B）上的一致增益证实，解码器共同演化能够可靠地将奖励优化转化为像素空间的质量提升。

ETCHR：通过编辑澄清与利用推理
ETCHR: Editing To Clarify and Harness Reasoning

May 22

ByBeichen Zhang, Yuhong Liu, Jinsong Li, Yuhang Zang, Jiaqi Wang, Dahua Lin

多模态大语言模型已推动了视觉推理的进步，然而，对于需要细粒度关注或视角变换的问题，纯文本的思维链仍是瓶颈。“以图促思”范式缩小了这一差距，但现有方法要么受限于固定的预定义工具集，要么因统一的多模态方法而产生噪声过多的中间图像。我们探索了第三种方案：使用专用的图像编辑模型，并将其与理解模型解耦。然而，现成的图像编辑器作为推理助手存在两个互补的缺陷：语言侧的缺陷——作为被动指令遵循者训练的编辑器无法将抽象问题映射到适当的视觉变换；生成侧的缺陷——随着推理深度的增加，编辑正确性会下降。基于这一分析，我们提出了ETCHR（编辑以澄清和驾驭推理），这是一种与下游理解模型解耦的、问题条件化且具有推理感知能力的图像编辑器，并通过针对这两个缺陷的两阶段配方进行训练：先通过编辑轨迹上的监督微调进行推理模仿，再通过基于VLM的奖励进行推理增强，奖励同时考虑编辑正确性和下游推理准确性。由于编辑器是解耦的，ETCHR可以即插即用，无需训练即可集成到不同的开源和闭源MLLM中。在五类任务（细粒度感知、图表理解、逻辑推理、拼图修复和3D理解）中，ETCHR将平均Pass@1指标从55.95提升至60.77（+4.82，搭配Qwen3-VL-8B），从65.08提升至70.55（+5.47，搭配Gemini-3.1-Flash-Lite），从76.55提升至81.16（+4.61，搭配1万亿参数的MoE模型Kimi K2.5）。

SCOPE：在可玩环境中模拟跨游戏操作以构建FPS世界模型
SCOPE: Simulating Cross-game Operations in Playable Environments for FPS World Models

May 22

ByZizhao Tong, Hongfeng Lai, Zeqing Wang, Zhaohu Xing, Kexu Cheng, Haoran Xu, Zhao Pu, Shangwen Zhu, Ruili Feng, Jian Zhao, Yan Zhang, Hao Tang, Yeying Jin, Ling Shao

用于第一人称射击（FPS）游戏的交互式世界模型必须在每一帧中解析高频重叠的控制信号，同时不干扰未受影响区域。现有方法全局注入动作并在单一游戏上训练，难以应对密集的FPS输入。我们观察到FPS动作具有空间选择性：开火或换弹等离散事件仅影响武器周围的局部区域（作用范围），而连续的相机和移动信号则控制稳定的周边环境。我们提出SCOPE模型，在预训练视频扩散模型的每个Transformer模块中插入一个条件模块。该模块将特征重塑为逐像素时间序列，使每个位置根据本地视觉内容计算其动作响应，从而无需分割标签即可将作用范围内外的生成过程分离。我们还引入了CrossFPS——首个多游戏FPS数据集，包含帧对齐的动作遥测数据。该数据集涵盖7款游戏的6.9万段片段，具有10自由度控制器信号，经筛选消除了游戏玩法偏差。该模型学习通用的视觉-动作映射而非特定游戏模式，实现了对未见场景的零样本迁移。实验证实了强大的动作响应性、精确的作用范围分离以及有效的跨游戏泛化能力。

作为噪声信道的大语言模型：香农视角下的模型容量与缩放法则
LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws

May 22

ByXu Ouyang, Deyi Liu, Yuhang Cai, Jing Liu, Yuan Yang, Chen Zheng, Thomas Hartvigsen, Yiyuan Ma

现有的针对大语言模型（LLM）的缩放定律，主要是单调幂律形式，无法解释诸如灾难性过训练和量化引起的性能退化等新兴非单调现象——在这些现象中，即便计算量增加，模型性能反而下降。我们提出香农缩放定律（Shannon Scaling Law），这是一个统一的理论框架，将LLM训练建模为在噪声信道上的信息传输过程，其理论根基是香农-哈特利定理。通过将模型参数映射为信道带宽，训练数据映射为信号功率，我们的公式明确刻画了学习信号与内在噪声之间的相互作用。这一视角揭示了LLM存在一个香农容量：若在扩展模型规模或数据量的同时未能保持足够的信噪比（SNR），则会不可避免地放大噪声，从而引发从单调提升到U形性能退化的转变。我们通过在Pythia和OLMo2模型上施加高斯噪声、量化以及在数学、问答、代码任务上进行监督微调等扰动实验验证了该理论。香农缩放定律始终优于经典缩放定律及近期提出的感知扰动定律，取得了较高的R²分数，并准确捕捉了先前方法未能发现的损失盆地。该定律还具备外推能力：基于≤6.9B参数的Pythia模型在≤180B tokens数据上的拟合结果，能够预测未见过的12B模型在高达307B tokens数据上的表现，合并R²达到0.847，而单调基线模型则完全失效。

从看见到思考：解耦感知与推理提升视觉语言模型的后训练效果
From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models

May 19

ByJuncheng Wu, Hardy Chen, Haoqin Tu, Xianfeng Tang, Freda Shi, Hui Liu, Hanqing Lu, Cihang Xie, Yuyin Zhou

近期，视觉语言模型（VLM）的发展强调长思维链推理；然而，我们发现它们在视觉任务上的表现主要受限于视觉感知能力的不足，而非推理本身。在本研究中，我们通过将VLM后训练能力分解为视觉感知、视觉推理和文本推理三个独立阶段，并融入专门训练数据，系统探究了感知与推理之间的相互作用。我们证明：(a) 视觉感知需通过专业化数据实施针对性优化；(b) 视觉感知是基础性支撑框架，应在完善视觉推理前通过分阶段训练加以巩固；(c) 相比基于描述的监督微调（SFT），强化学习（RL）能更有效地提升视觉感知能力。我们在多个VLM上的实验表明：分阶段训练在视觉感知和推理性能上均优于混合训练。值得注意的是，采用本方法训练的模型在推理准确率提升1.5%的同时，推理链条长度缩短20.8%，这表明更优的感知能力可降低对过度推理的需求。此外，我们展示这种基于能力的阶段性训练代表了与传统难度递进课程正交的新课程维度，二者结合可产生额外增益。我们的分阶段训练模型在开源VLMs中取得领先性能，在多项视觉数学与感知任务（如WeMath提升5.2%，RealWorldQA提升3.7%）上相比基础模型实现了显著进步。

Geo-Align: 基于度量几何奖励的视频生成对齐
Geo-Align: Video Generation Alignment via Metric Geometry Reward

May 22

ByZizun Li, Haoyu Guo, Runzhe Teng, Chunhua Shen, Tong He

近年来，相机控制视频生成取得了显著进展。然而，现有视频到视频重渲染方法主要依赖合成数据集的监督微调。目前，同步的多视角真实世界视频数据极度匮乏。因此，现有范式在处理分布外的真实世界视频时，泛化能力往往有限，模型难以精确遵循物理尺度和相机轨迹。为弥补这一差距，我们提出了Geo-Align，这是首个专门针对相机控制视频重渲染设计的强化学习框架。基于预训练模型，我们通过一种尺度感知的感知奖励机制对模型进行优化。具体而言，我们引入了一个度量3D估计器，从生成的视频中提取精确的相机轨迹，并显式惩罚旋转和平移的偏差。此外，我们精心设计了一种基于真实世界条件视频和源自合成数据的目标相机轨迹的数据流程策略，消除了对配对数据的依赖。大量实验表明，Geo-Align在精确相机可控性和视觉保真度方面持续优于现有监督学习基线，证明了我们方法的有效性。

超越预训练重新审视Muon：面向VLA与RLVR的谱失效问题及高通滤波补救方案
Rethinking Muon Beyond Pretraining: Spectral Failures and High-Pass Remedies for VLA and RLVR

May 19

ByChongyu Fan, Gaowen Liu, Mingyi Hong, Ramana Rao Kompella, Sijia Liu

Muon 是一种矩阵感知优化器，利用牛顿-舒尔茨（NS）迭代实现谱梯度正交化，通过将动量矩阵的所有奇异值推向1。这种均匀谱白化虽然增强了探索能力，并在大语言模型预训练中优于AdamW，但我们证明它在预训练之外的两个场景中可能带来根本性限制：（i）跨模态视觉-语言-动作（VLA）训练，其中本征低秩的动作模块梯度会导致噪声尾方向的放大；（ii）具有可验证奖励的强化学习（RLVR），低信噪比梯度以及需要保留前期训练中每头专业化特性，使得白化过程不稳定。为了解决这些问题，我们提出Pion，一种Muon的即插即用替代方案，在保持计算效率的同时，将均匀谱白化替换为两阶段提升+抑制机制，我们称之为高通NS迭代。该设计产生尖锐的谱高通效应，将主导奇异值锚定在1，同时将噪声尾分量抑制趋近于0，并具有可控的滤波器强度。为保留预训练得到的每头异质性，Pion还支持一种每头模式，通过简单的重塑操作独立地对注意力头更新，且无额外开销。在LIBERO和LIBERO-Plus上的VLA训练中，Pion在l1回归（VLA-Adapter）和流匹配（VLANeXt）架构上均持续优于两个基线，例如在VLA-Adapter上经过1500步训练后在LIBERO Object上达到100%成功率，而Muon为97.0%，AdamW仅为32.2%。Pion的优势进一步扩展到真实的Franka Research 3机器人上，采用pi_0.5骨干网络在DROID设置下完成三个抓取放置任务。在Qwen3-1.7B/4B上使用GRPO和GMPO进行RLVR后训练中，Pion在MATH和GSM8K上同样优于AdamW，而Muon退化为零。

GenRecon: 桥接生成先验的多视图三维场景重建
GenRecon: Bridging Generative Priors for Multi-View 3D Scene Reconstruction

May 22

ByKatharina Schmid, Nicolas von Lützow, Jozef Hladký, Angela Dai, Matthias Nießner

我们提出了一种从多视角RGB图像进行高保真3D场景重建的新方法，该方法将重建与强大的生成式3D先验紧密耦合。我们将场景重建视为对一组局部空间重叠区块的条件式3D生成，这些区块共同覆盖整个场景，从而将生成扩展到大规模场景范围。关键在于，我们继承了最先进生成式形状模型（以Trellis.2为例）的保真度和完整性，并将其推广到场景级别。为此，我们提出了一种基于投影的条件机制，该机制将带有位姿的多视角图像特征提升为与生成模型对齐的连贯3D表示，这种表示独立于视角顺序且空间锚定于场景，从而生成高保真、多视角一致的几何结构。这使得我们能够将Trellis.2的强目标级先验提升到多视角、场景规模的生成，从而得到室内环境的忠实、可编辑的PBR网格重建结果。最终，我们获得的高保真结果相比最先进的重建方法提升了16%。

LatentUMM：面向统一多模态模型的双重潜在对齐
LatentUMM: Dual Latent Alignment for Unified Multimodal Models

May 18

ByYinyi Luo, Wenwen Wang, Hayes Bai, Marios Savvides, Jindong Wang

统一多模态模型（UMMs）通过学习共享潜在空间，在理解与生成任务上均展现出强大性能，然而这两种能力之间常存在功能不一致性。我们观察到，这一问题并非源于共享表征的缺失，而是由于映射进出潜在空间的变换之间缺乏显式对齐。其结果是，生成与重编码过程可能遵循不一致的轨迹，导致模态转换下的语义漂移。为此，我们提出LatentUMM框架，通过构建增强型共享潜在空间来显式对齐这些变换，从而提升跨模态一致性。LatentUMM包含两个阶段：首先，双潜在对齐在模态和容量两个层面强化一致性——跨模态对齐利用更强的嵌入模型施加结构化的跨模态语义，而双容量对齐则在生成与重编码过程中强制执行双向一致性；其次，潜在动态稳定化通过随机潜在展开和偏好优化提升鲁棒性，优先选择更有利于保持语义一致性的轨迹。实验表明，LatentUMM能够一致地提升不同架构下的多模态一致性。代码开源地址：https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/LatentUMM。

令牌猎手：面向视觉几何Transformer的令牌选择漫游指南
Good Token Hunting: A Hitchhiker's Guide to Token Selection for Visual Geometry Transformers

May 22

ByShuhong Zheng, Michael Oechsle, Erik Sandström, Marie-Julie Rakotosaona, Federico Tombari, Igor Gilitschenski

视觉几何变换器已成为多视角三维重建的强大架构，能够以前馈方式联合预测多个三维属性。然而，由于模型中全局注意力层的存在，其计算成本随输入序列长度呈二次方增长，这限制了其可扩展性和效率。在本工作中，我们通过一种简单且通用的策略应对这一挑战：限制每个查询在全局注意力中交互的键/值令牌数量。为实现有效的令牌选择，我们引入了一个两阶段框架。首先，帧间选择步骤在帧级别操作，以识别需要保留的帧。其次，帧内选择步骤进一步剔除所选帧中更多冗余令牌。我们的分析凸显了基于多样性的帧间选择策略的优势，它能确保场景的广泛覆盖。对于帧内选择，我们证明了需要进行层感知稀疏化，选择过程由全局注意力模式的熵引导。与现有解决方案相比，我们的方法提供了更优的速度-精度权衡。大量实验表明，该方法在包含500张图像的场景中使视觉几何变换器加速超过85%，同时保持甚至提升基线性能，这暗示了我们的令牌选择策略在未来视觉几何变换器应用中的关键作用。我们的项目网站为：https://zsh2000.github.io/good-token-hunting.github.io。

看见的代价：在单一范式内实现可信的多模态推理
The Expense of Seeing: Attaining Trustworthy Multimodal Reasoning Within the Monolithic Paradigm

May 21

ByKaran Goyal

视觉-语言模型（VLM）的快速普及常被描绘为实现统一多模态知识发现的关键，但其基于一个未经充分审视的假设：当前VLM能够忠实地综合多模态数据。我们认为情况往往并非如此，这一差距反映了主流视觉编码器-投影器-大语言模型范式中的可信度问题。最先进的模型并非从视觉输入中提取有依据的知识，而常表现出“功能盲视”——即利用强大语言先验来规避严重的视觉表征瓶颈。本研究挑战了多模态评估的传统方法论，该方法依赖数据消融或创建新数据集，从而将数据集偏差与架构能力不足混为一谈。我们提出一种信息论视角的转向：模态翻译协议，旨在量化我们所谓的“视觉代价”。通过翻译语义载荷而非消融它们，我们构建了三个新颖指标——视觉代价税、视觉代价诅咒与视觉代价谬误，最终形成语义充分性准则。此外，我们提出一个假设：多模态规模化的偏离定律——随着底层语言引擎扩展至前所未有的推理能力，视觉知识瓶颈的惩罚可能增加而非减少。我们认为学界应超越以“多模态增益”作为主要评估目标。通过将语义充分性准则从被动诊断约束提升为主动架构蓝图，我们为引导下一代人工智能系统走向真正多模态推理奠定了基础。

HINT-SD：面向长时域智能体的定向事后自我蒸馏
HINT-SD: Targeted Hindsight Self-Distillation for Long-Horizon Agents

May 18

ByWoongyeng Yeo, Yumin Choi, Taekyung Ki, Sung Ju Hwang

使用强化学习训练长程大语言模型代理面临挑战，原因在于稀疏的结局奖励虽能揭示任务是否成功，却无法指明哪些中间动作导致了该结果，也不知应如何修正这些动作。近期方法通过从回合级动作-输出信号生成奖励或文本提示，或利用基于反馈条件的自我蒸馏来缓解这一问题。然而，当大量中间回合已成功或为中性时，在每个回合生成反馈效率低下；而在固定或错位的回合应用反馈，则往往无法监督导致失败的动作。为弥补这一不足，我们提出HINT-SD，一种基于全轨迹事后回顾的定向自我蒸馏框架，用于筛选与失败相关的动作，并仅对目标动作片段进行反馈条件蒸馏。在BFCL v3和AppWorld上的实验表明，我们的方法相较于密集逐回合反馈基线，性能提升高达18.80%，同时每个训练步骤的时间降低了2.26倍，这揭示了选择蒸馏位置是实现长程智能体训练高效性与有效性的关键因素。

推理的幻觉：通过零CoT截断揭露大语言模型中的规避性数据污染
The Illusion of Reasoning: Exposing Evasive Data Contamination in LLMs via Zero-CoT Truncation

May 21

ByYifan Lan, Yuanpu Cao, Hanyu Wang, Lu Lin, Jinghui Chen

大型语言模型（LLMs）在各类任务中展现出令人瞩目的推理能力，但数据污染问题严重影响了对其能力的客观评估。恶意模型发布者采用规避性（即间接）污染策略进一步加剧了这一问题，例如通过改写基准测试数据来规避现有检测方法，人为提升其在排行榜上的表现。当前方法难以可靠检测此类隐蔽污染。本研究发现了一个关键现象：模型生成的推理步骤会主动掩盖其潜在的记忆痕迹。受此启发，我们提出零思维链探测（Zero-CoT Probe, ZCP）——一种新型黑盒检测方法，通过刻意截断完整的思维链（Chain-of-Thought, CoT）过程来暴露潜在的捷径映射。为将记忆效应与模型内在的问题解决能力分离，ZCP对比了模型在原始基准测试与同构扰动参考数据集上的零CoT表现。此外，我们提出污染置信度（Contamination Confidence）指标，量化污染的可能性与严重程度，突破了简单的二元分类。在先前识别的污染模型与专门微调的污染模型上的大量实验表明，ZCP能够稳健检测直接污染与规避性数据污染。ZCP代码已开源：https://github.com/Yifan-Lan/zero-cot-probe。

均衡推理器：学习吸引子实现可扩展推理
Equilibrium Reasoners: Learning Attractors Enables Scalable Reasoning

May 20

ByBenhao Huang, Zhengyang Geng, Zico Kolter

通过迭代更新潜状态来扩展测试时计算，已成为一种强大的推理范式。然而，这些迭代模型超越记忆模式实现泛化的内部机制仍不明确。我们假设，可泛化的推理源于学习任务条件化的吸引子：一种潜动力系统，其稳定不动点对应有效解。我们通过均衡推理器（Equilibrium Reasoners, EqR）形式化该过程，使其无需外部验证器或任务特定先验即可实现测试时扩展。EqR沿两个维度扩展内部动力学：深度维度，通过运行更多迭代；广度维度，通过聚合多个初始化的随机轨迹。实验表明，测试时扩展的收益与向解对齐吸引子的更强收敛性紧密相关。这种吸引子视角使神经网络能基于任务难度自适应分配测试时计算。简单情形在1至5次迭代内收敛，而困难情形则受益于大规模测试时扩展。通过展开至等效4万层，可扩展的潜推理将前馈模型仅2.6%的准确率提升至Sudoku-Extreme上超过99%。这些结果表明，学习的吸引子景观为理解迭代潜模型中可扩展推理提供了一种有效的机制视角。

用于自回归MRI重建的下一加速倍率预测
Next-Acceleration-Scale Prediction for Autoregressive MRI Reconstruction

May 21

ByYilmaz Korkmaz, Vishal M. Patel

MRI重建本质上是一个不适定逆问题，因为不完整的测量数据对应着多种合理的解。这种模糊性在高加速倍数下尤为严重，此时像素域连续预测器倾向于在可行重建结果中求平均，从而抑制了高频解剖结构。针对这一局限，我们将重建过程转移至离散多尺度潜空间，并将其建模为下一加速尺度的自回归预测问题。借助视觉自回归建模中已被验证有效的离散先验，我们的方法将解空间约束为紧凑的码本标记序列，即便在极度稀疏的测量条件下也能生成锐利重建。这种离散自回归形式也自然契合现代大型语言模型的后训练技术。基于这一观察，我们提出了面向视觉自回归建模的在策略特权信息蒸馏方法：教师模型仅利用推理阶段不可用的特权上下文（在本工作中指全采样采集数据）进行训练，并监督在其自身生成序列上训练的学生模型，从而获得一致的重建性能提升。通过在fastMRI基准上的大量实验，我们证明该方法在极低欠采样率下的多种采样模式中均能实现更优的重建性能。项目网站见：https://yilmazkorkmaz1.github.io/discrete-mri-reconstruction-opd/{here}。

StepAudio 2.5 技术报告
StepAudio 2.5 Technical Report

May 22