HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

48 papers found

时空TTT：基于视觉的流式空间智能与测试时训练
Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training

Mar 12

ByFangfu Liu, Diankun Wu, Jiawei Chi, Yimo Cai, Yi-Hsin Hung, Xumin Yu, Hao Li, Han Hu, Yongming Rao, Yueqi Duan

人类通过连续的视觉观察来感知和理解现实空间。因此，从潜在无限的视频流中持续维护和更新空间证据的能力，对于空间智能至关重要。核心挑战不仅在于更长的上下文窗口，更在于如何随时间推移选择、组织和保留空间信息。本文提出基于测试时训练（TTT）的Spatial-TTT方法，通过自适应调整部分参数（快速权重）来捕获并组织长时序场景视频中的空间证据。具体而言，我们设计了混合架构，采用大块更新与滑动窗口注意力并行的机制以实现高效的空间视频处理。为进一步增强空间感知能力，我们在TTT层引入结合3D时空卷积的空间预测机制，促使模型捕捉跨帧的几何对应关系与时间连续性。除架构设计外，我们还构建了包含密集3D空间描述的数据集，指导模型通过快速权重的更新以结构化方式记忆并组织全局3D空间信号。大量实验表明，Spatial-TTT显著提升了长时序空间理解能力，在视频空间基准测试中达到了最先进性能。项目页面：https://liuff19.github.io/Spatial-TTT。

战略导航还是随机搜索？智能体与人类如何对文档集合进行推理
Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Mar 12

ByŁukasz Borchmann, Jordy Van Landeghem, Michał Turski, Shreyansh Padarha, Ryan Othniel Kearns, Adam Mahdi, Niels Rogge, Clémentine Fourrier, Siwei Han, Huaxiu Yao, Artemis Llabrés, Yiming Xu, Dimosthenis Karatzas, Hao Zhang, Anupam Datta

多模态智能体为实现复杂文档密集型工作流的自动化提供了前景广阔的路径。然而一个关键问题依然存在：这些智能体展现的是真正的战略推理能力，还是仅仅依靠随机试错搜索？为探究这一问题，我们推出了MADQA基准测试集——基于800份异构PDF文档构建的2,250道人机交互问题集。该基准严格遵循经典测试理论设计，旨在最大化区分不同层级智能体能力的判别力。针对智能体行为评估，我们创新性地提出了衡量精度-效能权衡的评估协议。通过该框架的实证研究表明，尽管顶尖智能体的原始准确率可媲美人类搜索者，但其成功解决的问题类型与人类存在显著差异，且依赖暴力搜索来弥补战略规划能力的不足。它们始终无法弥合与理论最优性能近20%的差距，并会陷入无效循环。我们开源此数据集与评估工具包，以助力实现从暴力检索到精准高效推理的范式转变。

IndexCache：通过跨层索引复用加速稀疏注意力计算
IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse

Mar 12

ByYushi Bai, Qian Dong, Ting Jiang, Xin Lv, Zhengxiao Du, Aohan Zeng, Jie Tang, Juanzi Li

长上下文智能工作流已成为大语言模型的关键应用场景，这使得注意力机制效率对推理速度与服务成本至关重要。稀疏注意力能有效应对这一挑战，其中DeepSeek稀疏注意力（DSA）是代表性的生产级解决方案：通过轻量级闪电索引器为每个查询筛选最相关的k个标记，将核心注意力复杂度从O(L²)降至O(Lk)。然而索引器本身仍保持O(L²)复杂度，且需在每一层独立运行，尽管连续层级间的top-k筛选结果高度相似。我们提出IndexCache解决方案，通过将网络层划分为少量运行独立索引器的完整层与大量直接复用最近完整层top-k索引的共享层，有效利用跨层冗余特性。我们提出两种互补的配置优化方法：无训练版IndexCache采用贪心搜索算法，通过在校准集上直接最小化语言建模损失来确定保留索引器的层级，无需权重更新；训练感知版IndexCache引入多层蒸馏损失，使每个保留的索引器针对其服务所有层的注意力分布均值进行训练，即使简单交错层模式也能达到全索引器精度。在30B参数DSA模型上的实验表明，IndexCache可减少75%的索引器计算量且质量损失可忽略，相比标准DSA实现预填充阶段加速1.82倍、解码阶段加速1.48倍。我们在生产级GLM-5模型上的初步实验进一步验证了这些积极成果（图1）。

基于视频的计算机使用智能体奖励建模
Video-Based Reward Modeling for Computer-Use Agents

Mar 10

ByLinxin Song, Jieyu Zhang, Huanxin Sheng, Taiwei Shi, Gupta Rahul, Yang Liu, Ranjay Krishna, Jian Kang, Jieyu Zhao

计算机使用智能体（CUA）正变得日益强大，但如何有效评估其执行轨迹是否真实满足用户指令仍存在挑战。本研究探索基于执行视频的奖励建模方法：通过从智能体轨迹中提取关键帧序列，构建独立于内部推理或操作行为的评估体系。尽管视频执行建模具有方法无关性，但其面临布局高度冗余、成功判断依赖局部细微线索等关键挑战。我们推出包含5.3万组高质量视频-任务-奖励三元组的ExeVR-53k数据集，并提出通过对抗性指令转译生成带有步骤级标注的负样本。为处理长时高分辨率执行视频，我们设计时空令牌剪枝技术，在保留决定性界面变化的同时剔除同质化区域和持续静态令牌。基于这些组件，我们微调出仅需用户指令与视频执行序列即可预测任务成功率的执行视频奖励模型（ExeVRM）。我们的ExeVRM 8B模型在视频执行评估中达到84.7%准确率和87.7%召回率，在Ubuntu、macOS、Windows和Android系统上均优于GPT-5.2、Gemini-3 Pro等强基线模型，且能提供更精确的时间归因。这些结果表明，视频执行奖励建模可成为CUA领域可扩展的模型无关评估方案。

ShotVerse：推动文本驱动多镜头视频创作的电影级镜头控制技术
ShotVerse: Advancing Cinematic Camera Control for Text-Driven Multi-Shot Video Creation

Mar 12

BySonglin Yang, Zhe Wang, Xuyi Yang, Songchun Zhang, Xianghao Kong, Taiyi Wu, Xiaotong Zhao, Ran Zhang, Alan Zhao, Anyi Rao

文本驱动的视频生成技术已极大降低了电影制作门槛，但在电影级多镜头场景中，摄像机控制仍是关键瓶颈。隐式文本提示缺乏精确性，而显式轨迹标注不仅带来极高的人工成本，还容易触发现有模型的执行故障。为突破这一瓶颈，我们提出以数据为中心的范式革新，认为对齐的（描述文本、运动轨迹、视频）三元组构成内在联合分布，可串联自动化脚本规划与精准执行。基于此洞见，我们推出ShotVerse框架，采用"先规划后控制"的双智能体协作架构：基于视觉语言模型的规划器利用空间先验从文本生成电影级全局对齐轨迹，控制器则通过摄像机适配器将轨迹渲染为多镜头视频。本方法的核心在于数据基础构建——我们设计了自动化多镜头摄像机标定流程，将离散单镜头轨迹对齐至统一全局坐标系，由此创建的高保真电影数据集ShotVerse-Bench配备三轨评估机制，成为框架基石。大量实验表明，ShotVerse有效弥合了不可靠的文本控制与高成本人工规划间的鸿沟，在实现卓越电影美学的同时，生成兼具摄像机运动精确性与跨镜头一致性的多镜头视频。

XSkill：多模态智能体从经验与技能中持续学习
XSkill: Continual Learning from Experience and Skills in Multimodal Agents

Mar 12

ByGuanyu Jiang, Zhaochen Su, Xiaoye Qu, Yi R., Fung

多模态智能体当前已能运用多样化工具处理复杂推理任务，但在开放场景下仍存在工具使用效率低下与调度机制僵化的问题。实现此类智能体无需参数更新即可通过历史轨迹持续自我提升，是核心挑战所在。我们识别出实现该目标必需的两种互补型可复用知识：提供工具选择与决策的行动级精要指导的"经验"，以及提供任务规划与工具使用的结构化指导的"技能"。为此，我们提出双通道框架XSkill，实现多模态智能体从经验与技能中持续学习。该框架将知识提取与检索均锚定于视觉观察：在积累阶段，通过视觉锚定摘要与跨轨迹评估，从多路径推演中提炼固化经验与技能；在推理阶段，根据当前视觉语境检索调适知识，并将使用记录反馈至积累阶段形成持续学习闭环。在四大骨干模型、五大跨领域基准测试中，XSkill均显著优于纯工具型及学习型基线方法。进一步分析表明，双知识流通过互补方式影响智能体推理行为，并展现出卓越的零样本泛化能力。

DreamVideo-Omni：基于潜在身份强化学习的全域运动控制多主体视频定制
DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

Mar 12

ByYujie Wei, Xinyu Liu, Shiwei Zhang, Hangjie Yuan, Jinbo Xing, Zhekai Chen, Xiang Wang, Haonan Qiu, Rui Zhao, Yutong Feng, Ruihang Chu, Yingya Zhang, Yike Guo, Xihui Liu, Hongming Shan

虽然大规模扩散模型已彻底改变视频生成技术，但实现对多主体身份与多粒度运动的精准控制仍是重大挑战。现有解决方案常受限于运动粒度不足、控制模糊和身份退化等问题，导致身份保持与运动控制效果欠佳。本研究提出DreamVideo-Omni统一框架，通过渐进式两阶段训练范式实现和谐的多主体定制与全运动控制。第一阶段通过联合训练整合综合控制信号，涵盖主体外观、全局运动、局部动态及摄像机运动。为确保控制力的鲁棒性与精确性，我们引入条件感知的3D旋转位置编码来协调异构输入，并采用分层运动注入策略增强全局运动引导。针对多主体模糊问题，创新性地提出组别与角色嵌入机制，将运动信号显式锚定至特定身份，有效将复杂场景解耦为独立可控实例。第二阶段为缓解身份退化，设计基于预训练视频扩散主干的潜在身份奖励反馈学习范式，通过训练潜在身份奖励模型在隐空间提供运动感知的身份奖励，优先保障符合人类偏好的身份保持效果。依托我们构建的大规模数据集及用于多主体全运动控制评估的DreamOmni综合基准，DreamVideo-Omni在生成具有精确可控性的高质量视频方面展现出卓越性能。

DVD：基于生成先验的确定性视频深度估计算法
DVD: Deterministic Video Depth Estimation with Generative Priors

Mar 12

ByHongfei Zhang, Harold Haodong Chen, Chenfei Liao, Jing He, Zixin Zhang, Haodong Li, Yihao Liang, Kanghao Chen, Bin Ren, Xu Zheng, Shuai Yang, Kun Zhou, Yinchuan Li, Nicu Sebe, Ying-Cong Chen

现有视频深度估计面临一个根本性权衡：生成式模型易受随机几何幻觉和尺度漂移影响，而判别式模型需要海量标注数据来解决语义歧义。为突破这一困境，我们提出DVD——首个将预训练视频扩散模型确定性适配为单次推理深度回归器的框架。具体而言，DVD具备三大核心设计：（i）将扩散时间步重构为结构锚点，以平衡全局稳定性与高频细节；（ii）潜在流形矫正技术（LMR），通过施加微分约束缓解回归导致的过度平滑问题，恢复锐利边界与连贯运动；（iii）全局仿射一致性这一固有特性，可约束窗口间差异，实现无需复杂时序对齐的长视频无缝推理。大量实验表明，DVD在多个基准测试中实现了零样本状态最优性能。此外，DVD仅使用领先基线1/163的任务特定数据，便成功解锁了视频基础模型中隐含的深层几何先验。值得注意的是，我们完整开源了训练流水线，为开源社区提供整套达到SOTA水平的视频深度估计训练方案。

WeEdit：面向文本中心图像编辑的数据集、基准与字形引导框架
WeEdit: A Dataset, Benchmark and Glyph-Guided Framework for Text-centric Image Editing

Mar 12

ByHui Zhang, Juntao Liu, Zongkai Liu, Liqiang Niu, Fandong Meng, Zuxuan Wu, Yu-Gang Jiang

基于指令的图像编辑旨在根据用户提供的指令修改现有图像中的特定内容，同时保留非目标区域。相较于传统的以物体和风格为核心的操控方式，以文本为核心的图像编辑专注于修改、翻译或重排图像中嵌入的文本元素。然而，现有主流模型往往难以精确执行复杂文本编辑任务，频繁产生模糊或虚构的字符。我们认为这些缺陷主要源于缺乏针对文本编辑定制的专项训练范式，以及闭环训练与评估体系所需的大规模数据集和标准化基准的缺失。为此，我们提出了WeEdit系统解决方案，包含可扩展的数据构建流程、两项基准测试以及量身定制的两阶段训练策略。具体而言，我们设计了一种基于HTML的新型自动编辑流程，生成涵盖15种语言、33万组训练数据对，并配套标准化的双语/多语言基准用于全面评估。在算法层面，我们采用字形引导的监督微调注入显式空间与内容先验，继而通过多目标强化学习阶段对齐生成结果与指令遵循度、文本清晰度及背景保持度。大量实验表明，WeEdit在多样化编辑任务中显著优于现有开源模型。

信任你的评判者：基于稳健奖励建模与强化学习的忠实图像编辑与生成
Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation

Mar 12

ByXiangyu Zhao, Peiyuan Zhang, Junming Lin, Tianhao Liang, Yuchen Duan, Shengyuan Ding, Changyao Tian, Yuhang Zang, Junchi Yan, Xue Yang

强化学习（RL）已成为提升图像编辑和文生图（T2I）生成能力的重要范式。然而，当前在强化学习中充当评判者的奖励模型常因产生幻觉而给出噪声评分，从而误导优化过程。本文提出FIRM（忠实图像奖励建模）框架，通过构建稳健的奖励模型为忠实图像生成与编辑提供精准可靠的指导。首先，我们设计了定制化的数据构建流程来创建高质量评分数据集：针对编辑任务采用执行度与一致性双重评估，而生成任务主要依据指令遵循度进行评判。基于此，我们收集了FIRM-Edit-370K和FIRM-Gen-293K数据集，并训练出能精准反映这些标准的专用奖励模型（FIRM-Edit-8B和FIRM-Gen-8B）。其次，我们推出专为编辑与生成评判设计的综合基准FIRM-Bench。评估表明，相较于现有指标，我们的模型与人类判断具有更高一致性。为进一步将评判机制无缝融入强化学习流程，我们提出创新的"基础-加成"奖励策略：针对编辑任务的"一致性调节执行度"（CME）和面向生成任务的"质量调节对齐度"（QMA）。基于该框架开发的FIRM-Qwen-Edit和FIRM-SD3.5模型实现了显著性能突破。综合实验表明，FIRM能有效抑制幻觉现象，在忠实度与指令遵循度方面为通用模型树立了新标杆。我们的全部数据集、模型及代码均已公开于https://firm-reward.github.io。

一模型，多预算：扩散变换器的弹性潜空间接口
One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers

Mar 12

ByMoayed Haji-Ali, Willi Menapace, Ivan Skorokhodov, Dogyun Park, Anil Kag, Michael Vasilkovsky, Sergey Tulyakov, Vicente Ordonez, Aliaksandr Siarohin

扩散变换器（DiT）虽能实现高生成质量，但其计算量（FLOPs）与图像分辨率强耦合，限制了合理的延迟-质量权衡，且对输入空间令牌均匀分配计算资源，导致重要区域资源浪费。我们提出弹性潜变量接口变换器（ELIT），这是一种即插即用且兼容DiT的机制，可解耦输入图像尺寸与计算量。该方法通过插入潜变量接口——一个可学习的变长令牌序列，使标准变换器模块能够在此序列上操作。轻量级的读写交叉注意力层在空间令牌与潜变量间传递信息，并优先处理重要输入区域。通过随机丢弃尾部潜变量的训练方式，ELIT学会生成按重要性排序的表征：前期潜变量捕获全局结构，后期潜变量则包含细节优化信息。在推理阶段，可动态调整潜变量数量以适应计算约束。ELIT刻意保持极简设计，仅增加两个交叉注意力层，同时保持修正流目标函数和DiT架构不变。在多个数据集和架构（DiT、U-ViT、HDiT、MM-DiT）上的实验表明，ELIT均能带来稳定提升。在ImageNet-1K 512px任务中，ELIT将FID和FDD分数平均提升35.3%和39.6%。项目页面：https://snap-research.github.io/elit/

RubiCap：基于量规引导强化学习的密集图像描述生成
RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

Mar 10

ByTzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu

密集图像描述技术对于视觉语言预训练及文生图任务中的跨模态对齐至关重要，但专家级标注的规模化成本极高。虽然通过强视觉语言模型生成合成描述是可行替代方案，但监督式蒸馏往往导致输出多样性受限与泛化能力薄弱。强化学习虽能突破这些局限，但其成功案例目前集中于依赖确定性验证器的可量化领域——这种条件在开放式描述任务中难以实现。我们提出的RubiCap框架通过LLM撰写的评估准则生成细粒度、样本特定的奖励信号，从而突破这一瓶颈。该框架首先生成多样化候选描述集合，随后调用LLM评估准则生成器提取共识优势并诊断当前策略缺陷，将这些洞察转化为显式评估标准，使LLM评判器能分解整体质量评估，以结构化多维度评价替代粗糙的标量奖励。在多项基准测试中，RubiCap在CapArena平台上取得最高胜率，超越监督蒸馏、传统强化学习方法、人工专家标注及GPT-4V增强输出。在CaptionQA任务中展现出卓越的词汇效率：我们的70亿参数模型与Qwen2.5-VL-32B-Instruct表现相当，而30亿参数模型甚至超越其70亿参数版本。值得注意的是，使用轻量级RubiCap-3B作为描述器训练出的视觉语言模型，其性能优于基于商用模型描述的预训练模型。

GRADE：基于学科知识的图像编辑推理基准测试
GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing

Mar 12

ByMingxin Liu, Ziqian Fan, Zhaokai Wang, Leyao Gu, Zirun Zhu, Yiguo He, Yuchen Yang, Changyao Tian, Xiangyu Zhao, Ning Liao, Shaofeng Zhang, Qibing Ren, Zhihang Zhong, Xuanhe Zhou, Junchi Yan, Xue Yang

统一多模态模型旨在实现联合理解、推理与生成，但现有图像编辑基准大多局限于自然图像和浅层常识推理，难以评估其在结构化、领域特定约束下的能力。为此，我们提出首个面向学科知识与推理的图像编辑基准GRADE，包含10个学术领域（从自然科学到社会科学）的520个精心构建样本。为支持严谨评估，我们设计了融合学科推理、视觉一致性与逻辑可读性的多维评估体系。在20个前沿开源与闭源模型上的实验表明，当前模型在隐含知识密集的编辑场景中存在显著局限，性能差距巨大。除量化评分外，我们通过系统化分析与消融实验揭示了模型缺陷，并明确了学科编辑中的关键约束。GRADE为统一多模态模型的未来发展指明了方向，推动学科化图像编辑与推理研究。基准数据与评估代码已公开。

测试LLMs的联想创造力
CREATE: Testing LLMs for Associative Creativity

Mar 10

ByManya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg Durrett

创造力的核心要素在于联想推理能力：即在概念间建立新颖而具意义联系的能力。我们推出CREATE基准测试，旨在评估模型的创造性联想推理能力。该测试要求模型在其参数化知识体系中生成连接概念的多条路径，这些路径需具备高特异性（概念关联的独特性和紧密性）与高多样性（路径间的差异性），且模型生成的优质多样化路径越多，得分越高。此项任务与假设生成等真实创造力任务具有共同要求——包括应对极大规模搜索空间，同时能通过客观答案评分构建大规模基准测试。对前沿模型的评估表明，最强模型能获得更高的创意效用值，但由于答案的高度多重性和搜索复杂性，基准测试难以达到饱和状态。此外，实验结果证明思维模型在本任务中并非总是更有效，即使给予高额令牌预算亦然。近期提出的创意提示方法虽能带来有限提升，但改进幅度有限。CREATE为开发新方法提供了沙盒环境，以增强模型的联想创造力。

EVATok：面向高效视觉自回归生成的自适应长度视频分词技术
EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

Mar 12

ByTianwei Xiong, Jun Hao Liew, Zilong Huang, Zhijie Lin, Jiashi Feng, Xihui Liu

自回归视频生成模型依赖于将像素压缩为离散标记序列的视频分词器。这些标记序列的长度对于平衡重建质量与下游生成计算成本至关重要。传统视频分词器在不同视频的时间块上采用统一的标记分配方案，常将标记浪费在简单、静态或重复的片段上，而对动态或复杂片段分配不足。为解决这一效率问题，我们提出EVATok框架，用于生成高效视频自适应分词器。该框架通过估算每个视频的最优标记分配以实现最佳质量-成本权衡，开发轻量级路由器快速预测这些最优分配，并训练能根据路由器预测结果进行编码的自适应分词器。实验表明，EVATok在视频重建和下游自回归生成的效率与整体质量上实现显著提升。通过集成视频语义编码器的先进训练方案，EVATok在UCF-101数据集上实现了卓越的重建效果和顶尖的类别到视频生成性能，与先前最优的LARP方法及我们的定长基线相比，平均标记使用量至少降低24.4%。

神经丛林：预训练权重周围密布多样化任务专家
Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

Mar 12

ByYulu Gan, Phillip Isola

预训练产生的学习参数向量通常被视为后续迭代适应的起点。在本研究中，我们提出将预训练结果视作参数向量上的概率分布，其支撑集已包含任务特定的专家解。我们证明在小型模型中，此类专家解仅占据该分布体积的极小部分，需依赖梯度下降等结构化优化方法才能发现。相反，在经过充分预训练的大型模型中，任务专家的密度显著增加，使得多样化、能提升任务性能的专家解密集分布于预训练权重邻域内。基于此视角，我们探索了一种完全并行的后训练方法：随机采样N个参数扰动，选取最优的K个扰动，通过多数投票集成预测。尽管方法简单，该策略在当代大规模模型中与PPO、GRPO和ES等标准后训练方法相比仍具竞争力。

OmniStream：驾驭连续流中的感知、重建与行动
OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams

Mar 12

ByYibin Yan, Jilan Xu, Shangzhe Di, Haoning Wu, Weidi Xie

现代视觉智能体需要具备通用性、因果性和物理结构化的表征能力，才能在实时流式环境中运行。然而当前视觉基础模型仍处于割裂状态，仅专注于图像语义感知、离线时序建模或空间几何等单一领域。本文提出OmniStream——一种统一的流式视觉骨干网络，能够基于多样化视觉输入有效实现感知、重建与行动。通过融合因果时空注意力机制与三维旋转位置编码（3D-RoPE），我们的模型借助持久化键值缓存支持视频流的高效逐帧在线处理。我们在29个数据集上采用协同多任务框架进行预训练，该框架耦合了静态与时序表征学习、流式几何重建以及视觉-语言对齐。大量实验表明，即使在骨干网络严格冻结的情况下，OmniStream仍在图像/视频探测、流式几何重建、复杂视频与空间推理以及机器人操控（训练未涉及场景）等任务中，持续取得与专业模型相媲美的性能。我们的工作并非追求特定基准测试的极致性能，而是证明了训练单一通用视觉骨干网络的可行性——该网络能够泛化至语义、空间和时序推理领域，这标志着我们朝着实现交互式具身智能体通用视觉理解的目标迈出了更有意义的一步。

FP4量化大模型训练中的均值偏差：诅咒与福音
The Curse and Blessing of Mean Bias in FP4-Quantized LLM Training

Mar 11

ByHengjie Cao, Zhendong Huang, Mengyi Chen, Yifeng Yang, Fanqi Yu, Ruijun Huang, Fang Dong, Xin Zhang, Jixian Zhou, Anrui Chen, Mingzhi Dong, Yujiang Wang, Jinlong Hou, Qin Lv, Yuan Cheng, Tun Lu, Fan Yang, Li Shang

基于自然语言训练的大语言模型表现出显著的各向异性：少数方向聚集了不成比例的能量，而其余维度构成广阔的语义尾部。在低比特训练机制中，这种几何结构会引发数值不稳定性。由于分块量化尺度由元素级极值决定，主导方向会拉伸动态范围，将长尾语义变化压缩至狭窄的数值区间。我们证明这种不稳定性主要由一致的秩一均值偏差驱动，该偏差构成LLM表征中谱各向异性的主导成分。该均值成分在不同网络层和训练阶段系统性地涌现，并占据极端激活值的主要部分，使其成为低精度下动态范围膨胀的核心诱因。关键的是，由于主导不稳定性具有秩一特性，可通过简单的源级均值扣除操作消除。这种以偏差为中心的调节方法在仅需归约操作和标准量化内核的前提下，即可获得基于SVD的谱方法带来的大部分稳定性优势。FP4（W4A4G4）训练的实证结果表明，均值移除能显著缩小与BF16的损失差距并恢复下游任务性能，为稳定低比特LLM训练提供了硬件高效的实现路径。

EndoCoT：扩散模型中内生思维链推理的规模化实现
EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models

Mar 12

ByXuanlang Dai, Yujie Zhou, Long Xing, Jiazi Bu, Xilin Wei, Yuhong Liu, Beichen Zhang, Kai Chen, Yuhang Zang

近期，多模态大语言模型（MLLMs）被广泛集成到扩散框架中，主要作为文本编码器以解决空间推理等复杂任务。然而，该范式存在两个关键局限：（i）MLLMs文本编码器的推理深度不足。单步编码无法激活思维链过程，而该过程对MLLMs为复杂任务提供精准指导至关重要；（ii）指导信号在解码过程中保持恒定。即使MLLM编码正确，这种恒定指导也会阻碍扩散变换模型（DiT）将复杂指令逐步分解为可执行的去噪步骤。为此，我们提出内生思维链（EndoCoT）——一种通过迭代思维指导模块精炼潜在思维状态以激活MLLMs推理潜力，并将这些状态与DiT去噪过程相连接的新型框架。其次，通过终端思维锚定模块将最终状态与真实答案对齐，确保推理轨迹始终受文本监督的约束。借助这两个组件，MLLM文本编码器可提供精细推理的指导信号，使DiT能够逐步执行并最终以分步方式解决复杂任务。在多样化基准测试（如迷宫、旅行商问题、车辆路径问题和数独）上的大量实验表明，该方法平均准确率达92.1%，较最强基线提升8.3个百分点。

Mobile-GS：面向移动设备的实时高斯泼溅渲染技术
Mobile-GS: Real-time Gaussian Splatting for Mobile Devices

Mar 12

ByXiaobiao Du, Yida Wang, Kun Zhan, Xin Yu

3D高斯溅射(3DGS)作为一种强大的表示方法，已在众多应用场景中展现出高质量渲染能力。然而，其高计算需求与大存储成本对移动设备部署构成了重大挑战。本文提出一种面向移动端的实时高斯溅射方法Mobile-GS，可在边缘设备上实现高效推理。具体而言，我们首先发现alpha混合因其依赖耗时的高斯深度排序过程而成为主要计算瓶颈。为解决该问题，我们提出一种深度感知的顺序无关渲染方案，通过消除排序需求显著加速渲染。虽然顺序无关渲染提升了速度，但渲染顺序的缺失可能导致几何重叠区域出现透明伪影。为此，我们提出神经视角依赖增强策略，基于视角方向、3D高斯几何与外观属性实现更精确的视角依赖效果建模。由此，Mobile-GS可同时实现高质量与实时渲染。此外，为促进在内存受限的移动平台部署，我们引入一阶球谐蒸馏、神经向量量化技术及基于贡献度的剪枝策略，借助神经网络减少高斯图元数量并压缩3D高斯表示。大量实验表明，Mobile-GS在保持高视觉质量的同时实现了实时渲染与紧凑模型尺寸，非常适合移动端应用场景。

视频推理模型是否已具备实际应用能力？
Are Video Reasoning Models Ready to Go Outside?

Mar 11

ByYangfan He, Changgyu Boo, Jaehong Yoon

在实际应用中，视觉语言模型常面临天气变化、遮挡和相机运动等干扰。此类条件下，模型的理解与推理能力会显著下降，暴露出受控（即无干扰）评估环境与真实世界鲁棒性之间的差距。为突破这一局限，我们提出ROVA训练框架，通过构建时空干扰下的鲁棒感知一致性奖励机制来提升模型稳健性。ROVA采用难度感知的在线训练策略，根据模型动态能力优先选择信息量丰富的样本。具体而言，框架通过自反思评估持续更新样本难度估计，实现基于鲁棒感知一致性奖励的自适应训练。我们还推出PVRBench新基准，通过向具身视频数据集注入真实世界扰动，评估模型在现实干扰下的准确性与推理质量。在PVRBench、UrbanVideo和VisBench上的实验表明，开源与商用模型在真实扰动下准确率与推理能力最大降幅分别达35%和28%。相较基线模型（QWen2.5/3-VL、InternVL2.5、Embodied-R），ROVA有效缓解性能衰退，相对准确率提升至少24%，推理能力提升超9%。这些增益可迁移至洁净标准基准，带来持续改进效果。

重构式理解：面向大模型预训练的反向软件开发流程
Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining

Mar 11

ByZhiyuan Zeng, Yichi Zhang, Yong Shan, Kai Hua, Siyuan Fang, Zhaiyu Liu, Jiaheng Liu, Haozhe Wang, Yining Zheng, Ming Ding, Ke Shen, Ge Zhang, Wenhao Huang, Xipeng Qiu

尽管大语言模型在代码生成领域取得了显著成就，但在处理复杂软件工程所需的深度长程推理时仍存在局限。我们认为这一局限源于标准预训练数据的特性：静态软件仓库仅呈现了复杂智力过程的最终状态，而忽略了其中的规划、调试与迭代优化等中间环节。为弥补这一差距，我们提出一种新颖范式：通过重构实现理解。我们假设，对静态仓库背后潜在的智能轨迹——包括规划、推理与调试步骤——进行逆向工程，能比单纯使用原始代码提供更丰富的监督信号。为实现这一目标，我们引入基于多智能体模拟的轨迹合成框架，该框架通过依赖图与文件层级等仓库结构特征确保过程真实性。此外，为保证合成数据的逻辑严谨性，我们采用基于搜索的优化技术，通过迭代优化思维链推理以最大化真实代码的生成概率。实验结果表明，基于这些重构轨迹的持续预训练显著提升了Llama-3-8B模型在长上下文理解、编程能力及智能体任务等多项基准测试中的表现。

基于自我反思的元强化学习在智能搜索中的应用
Meta-Reinforcement Learning with Self-Reflection for Agentic Search

Mar 11

ByTeng Xiao, Yige Yuan, Hamish Ivison, Huaisheng Zhu, Faeze Brahman, Nathan Lambert, Pradeep Dasigi, Noah A. Smith, Hannaneh Hajishirzi

本文提出MR-Search——一种具有自我反思能力的上下文元强化学习框架，用于智能体搜索任务。与传统在稀疏奖励的独立片段中优化策略的方法不同，MR-Search通过跨片段条件化历史经验来训练自适应搜索策略。该框架通过自我反思实现策略的上下文学习，使搜索智能体在测试阶段能够动态优化探索方式。具体而言，MR-Search实施跨片段探索机制：在每个任务片段后生成显式自我反思，并将其作为上下文指导后续搜索尝试，从而提升测试时的探索效率。我们进一步提出多轮次强化学习算法，通过计算轮次层面的稠密相对优势值，实现细粒度的分片段信用分配。在多个基准测试上的实验结果表明，MR-Search相较于基线方法具有显著优势，在八项基准中展现出强泛化能力，相对性能提升达9.2%至19.3%。代码与数据已开源：https://github.com/tengxiao1/MR-Search。

通过神经细胞自动机训练语言模型
Training Language Models via Neural Cellular Automata

Mar 9

ByDan Lee, Seungwook Han, Akarsh Kumar, Pulkit Agrawal

预训练对大语言模型（LLM）至关重要，因为模型在此期间习得大部分表征与能力。然而自然语言预训练存在诸多问题：高质量文本资源有限、内含人类偏见、且知识常与推理能力相互纠缠。这引发了一个根本性问题：自然语言是通往智能的唯一途径吗？我们提出使用神经元胞自动机（NCA）生成合成非语言数据，用于对大语言模型进行预预训练——即采用"先合成语言后自然语言"的训练策略。NCA数据不仅展现出与自然语言相似的丰富时空结构和统计特征，还具有可控性强、大规模生成成本低的优势。实验表明，仅使用1.64亿个NCA标记进行预预训练，即可将下游语言建模性能提升最高达6%，收敛速度加快最高达1.6倍。令人惊讶的是，其效果甚至优于使用计算资源更多、基于16亿个Common Crawl自然语言标记的预预训练。这些增益还能迁移至推理基准测试（包括GSM8K、HumanEval和BigBench-Lite）。通过探究迁移机制，我们发现注意力层的可迁移性最强，且最优NCA复杂度因领域而异：编程任务受益于更简单的动态规则，而数学与网页文本任务则偏好更复杂的动态规则。这些发现使得我们能针对目标领域系统调整合成数据分布。更广泛而言，我们的研究为通过全合成预训练构建更高效模型开辟了新路径。

微缩阿雅：跨越规模与多语言深度的桥梁
Tiny Aya: Bridging Scale and Multilingual Depth

Mar 12

ByAlejandro R. Salamanca, Diana Abagyan, Daniel D'souza, Ammar Khairi, David Mora, Saurabh Dash, Viraat Aryabumi, Sara Rajaee, Mehrnaz Mofakhami, Ananya Sahu, Thomas Euyang, Brittawnya Prince, Madeline Smith, Hangyu Lin, Acyr Locatelli, Sara Hooker, Tom Kocmi, Aidan Gomez, Ivan Zhang, Phil Blunsom, Nick Frosst, Joelle Pineau, Beyza Ermis, Ahmet Üstün, Julia Kreutzer, Marzieh Fadaee

微型Aya重新定义了小型多语言模型的性能边界。该模型基于70种语言进行训练，并通过区域感知后训练技术优化，仅以35亿参数就实现了顶尖的翻译质量、强大的多语言理解能力以及高质量的目标语言生成能力。本次发布包含预训练基础模型、全球均衡的指令调优版本，以及针对非洲、南亚、欧洲、亚太和西亚语言的三个区域专项模型。本报告详述了微型Aya的训练策略、数据构成与综合评估框架，为多语言AI发展提供了新的规模化路径——这条路径以效能为核心，追求各语言间的均衡表现，并聚焦实际应用场景。

高性能强化学习环境的自动生成
Automatic Generation of High-Performance RL Environments

Mar 12

BySeth Karten, Rahul Dev Appapogu, Chi Jin

将复杂强化学习环境转化为高性能实现传统上需要数月的专业工程开发。我们提出了一种可复用的方法——包含通用提示模板、分层验证和迭代式智能体辅助修复——仅需不到10美元的计算成本即可生成语义等效的高性能环境。我们展示了跨五个环境的三种差异化工作流：直接翻译（无现有性能实现）：EmuRust（通过Rust并行化实现Game Boy模拟器的PPO速度提升1.5倍）和首个GPU并行宝可梦对战模拟器PokeJAX（随机动作5亿步/秒，PPO算法1520万步/秒；较TypeScript参考实现提升22,320倍）。基于现有性能实现的验证翻译：在匹配GPU批处理量时与MJX持平（1.04倍），在HalfCheetah JAX环境中达到Brax的5倍吞吐量；Puffer Pong环境实现PPO加速42倍。新环境创建：首个可部署的JAX版宝可梦卡牌引擎TCGJax（随机动作71.7万步/秒，PPO算法15.3万步/秒；较Python参考实现提升6.6倍），该引擎从网络抓取的规范自动生成。当模型参数量达2亿时，环境开销降至训练时间的4%以下。分层验证（属性测试、交互测试和推演测试）确认所有五个环境均保持语义等效；跨后端策略迁移证实五个环境均实现零模拟差异。TCGJax基于未公开的私有参考实现生成，可作为智能体预训练数据污染的对照基准。本文提供了完整细节——包括代表性提示、验证方法和全部结果——使得编码智能体能直接从论文复现所有翻译实现。

FireRedASR2S：业界领先的工业级一体化自动语音识别系统
FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

Mar 11

ByKaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao Hu

我们推出FireRedASR2S，这是一款工业级一体化自动语音识别（ASR）系统。该系统集成了四大模块：语音识别（ASR）、语音活动检测（VAD）、口语语言识别（LID）及标点预测（Punc）。所有模块在评测基准中均达到业界领先水平：FireRedASR2语音识别模块提供两种变体——FireRedASR2-LLM（80亿+参数）与FireRedASR2-AED（10亿+参数），支持普通话、汉语方言与口音、英语及中英混杂场景的语音与歌声转写。相较前代FireRedASR，新版在识别准确率与方言覆盖广度上显著提升。FireRedASR2-LLM在4个普通话公开基准上平均字错误率（CER）达2.89%，在19个汉语方言与口音基准上达11.55%，性能超越豆包-ASR、通义千问-ASR、Fun-ASR等竞品。FireRedVAD模块基于深度前馈序列记忆网络（DFSMN），参数量仅60万，支持流式/非流式VAD及多标签VAD（mVAD）。在FLEURS-VAD-102基准上取得97.57%帧级F1值与99.60% AUC-ROC，优于Silero-VAD、TEN-VAD、FunASR-VAD及WebRTC-VAD。FireRedLID模块采用编码器-解码器架构，支持100+语言与20+汉语方言及口音识别，在FLEURS（82种语言）测试中语句级准确率达97.18%，超越Whisper与SpeechBrain。FireRedPunc模块采用BERT风格架构，支持中英文标点预测，在多领域基准上平均F1值达78.90%，显著优于FunASR-Punc（62.77%）。为促进语音处理研究，我们已在https://github.com/FireRedTeam/FireRedASR2S开源模型权重与代码。

扩散模型的几何自编码器
Geometric Autoencoder for Diffusion Models

Mar 11

ByHangyu Liu, Jianyong Wang, Yutao Sun

潜扩散模型已在高清视觉生成领域确立了新的技术标杆。融合视觉基础模型的先验知识虽能提升生成效率，但现有潜空间设计仍多基于经验性方法。这些方案往往难以兼顾语义可分性、重建保真度与潜空间紧凑性。本文提出几何自编码器（GAE），这一理论驱动型框架系统性地解决了上述难题。通过分析多种对齐范式，GAE从视觉基础模型中构建出优化的低维语义监督目标，为自编码器提供指导。此外，我们采用潜归一化技术替代标准变分自编码器中限制性的KL散度，构建了专为扩散学习优化的稳定潜流形。为实现高强度噪声下的稳健重建，GAE引入了动态噪声采样机制。实验表明，GAE在ImageNet-1K 256×256基准测试中表现卓越：无需分类器无关指导时，仅80轮训练即达1.82的gFID指标，800轮后进一步降至1.31，显著超越现有最优方法。除生成质量外，GAE更在压缩率、语义深度与重建稳定性间建立了优越平衡。这些结果验证了我们的设计思路，为潜扩散建模提供了新范式。代码与模型已开源：https://github.com/freezing-index/Geometric-Autoencoder-for-Diffusion-Models。

口音向量：无需口音数据的多语言TTS可控口音操控
Accent Vector: Controllable Accent Manipulation for Multilingual TTS Without Accented Data

Mar 8

ByThanathai Lertpetchpun, Thanapat Trachu, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan

口音作为社会结构的重要组成部分，既折射出多元文化特征，也塑造着个体的身份表达方式。尽管全球多数英语使用者为非母语人士，当前文本转语音系统却因缺乏口音数据而主要模拟美式英语发音。我们提出"口音向量"这一可控表征方法，可在无需口音训练数据的前提下实现多语言TTS系统中的口音操控。该向量通过在不同语言的母语语音上微调TTS模型，并计算捕捉口音特征的任务向量（以英语为例）而得。通过缩放与插值处理，我们实现了对口音强度的细粒度控制，并能生成混合口音语音。此外，该方法具备跨语言泛化能力，可在多语言场景下实现口音控制。客观评估与人工测评结果共同验证了口音向量在细粒度及组合式口音控制方面的有效性。

DIVE：面向通用工具使用的代理任务合成多样性扩展
DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

Mar 10

ByAili Chen, Chi Zhang, Junteng Liu, Jiangjie Chen, Chengyu Du, Yunji Li, Ming Zhong, Qin Wang, Zhengmao Zhu, Jiayuan Song, Ke Ji, Junxian He, Pengyu Zhao, Yanghua Xiao

近期研究虽已实现面向后训练工具调用大模型的智能体任务合成，但任务与工具集变化下的稳健泛化能力仍是开放难题。我们将此脆弱性归因于合成任务的多样性不足。扩展多样性面临双重挑战：训练需确保任务可执行且可验证，而泛化要求覆盖多样工具类型、工具集组合及异构工具使用模式。为此，我们提出DIVE——一种证据驱动的逆向合成方案，通过先执行多样化的真实工具，再严格根据执行痕迹反推任务，实现构造层面的任务锚定。DIVE沿工具池覆盖度和单任务工具集多样性两个可控维度扩展结构多样性，并通过“证据收集-任务推导”循环在五大领域的373种工具上诱导出丰富的多步工具使用模式。基于DIVE数据（4.8万条SFT+3200条RL）训练Qwen3-8B模型，在9个OOD基准测试中平均提升22分，以68分优势超越最强8B基线。值得注意的是，控制变量分析表明：对于OOD泛化，多样性扩展始终优于数据量扩展，即使在数据量减少四分之三的情况下依然如此。

基于加权h变换采样的粗粒度引导视觉生成
Coarse-Guided Visual Generation via Weighted h-Transform Sampling

Mar 12

ByYanghao Wang, Ziqi Jiang, Zhen Wang, Long Chen

粗引导视觉生成技术通过从退化或低保真度的粗略参考中合成精细视觉样本，在众多现实应用中具有关键意义。尽管基于训练的方法效果显著，但其固有地受限于高训练成本以及配对数据收集导致的泛化能力受限。为此，近期无训练方法提出利用预训练扩散模型，在采样过程中融入引导机制。然而，这些方法要么需要已知前向（精细到粗略）变换算子（如双三次下采样），要么难以在引导效果与合成质量之间取得平衡。为应对这些挑战，我们提出一种基于h变换的新型引导方法，该工具能够将随机过程（如采样过程）约束在指定条件下。具体而言，我们通过在原微分方程中添加漂移函数来修正各采样步长的转移概率，从而近似地将生成过程导向理想精细样本。针对不可避免的近似误差，我们引入噪声水平感知调度机制，随着误差增大逐步降低该项权重，确保引导依从性与高质量合成的统一。在多样化图像与视频生成任务上的大量实验证明了本方法的有效性与泛化能力。

不可验证场景下LLM训练后评估中的推理能力检验
Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

Mar 12

ByYixin Liu, Yue Yu, DiJia Su, Sid Wang, Xuewei Wang, Song Jiang, Bo Liu, Arman Cohan, Yuandong Tian, Zhengxing Chen

推理型大语言模型即评判器（LLMs-as-Judges）能够通过推理时扩展获益，为将推理模型的成功经验推广至不可验证领域（即输出正确性/质量无法直接核实的场景）提供了可行路径。然而，尽管推理型评判器在静态评估基准中表现优异，但其在实际策略训练中的有效性尚未得到系统检验。为此，我们通过严格实验探究非推理型与推理型评判器在基于强化学习的大模型对齐中的实际影响。在受控合成场景下，我们利用"黄金标准"评判器（gpt-oss-120b）提供的偏好标注训练小型评判器，揭示了二者的关键差异：非推理型评判器易导致奖励破解，而推理型评判器训练出的策略能在黄金标准评判器评估中取得强劲表现。有趣的是，我们发现推理型评判器训练的策略之所以表现优异，是因为其学会了生成高效对抗性输出——这些输出不仅能欺骗其他LLM评判器，还能在Arena-Hard等流行基准测试中获得高分。结合进一步分析，本研究既揭示了（推理型）LLM评判器在不可验证领域后训练应用中的重要发现，也指出了其改进空间。

PACED：前沿学生能力精粹
PACED: Distillation at the Frontier of Student Competence

Mar 11

ByYuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang

标准LLM蒸馏存在双重计算浪费：学生模型已掌握的问题（梯度趋近于零）与远超其能力的问题（破坏现有能力的混沌梯度）。我们证明这种浪费不仅是直观现象，更是结构性的必然：蒸馏中的梯度信噪比在通过率两极可证明地趋近于零。这一理论发现催生了Paced框架，它通过从蒸馏梯度边界消失结构中推导出的原则性通过率权重w(p)=p^α(1-p)^β，将蒸馏聚焦于最近发展区——学生模型能力边界。核心成果：（1）理论层面：我们证明Beta核权重w(p)=p^α(1-p)^β是蒸馏信噪比结构中产生的主导权重族，且具有极小极大鲁棒性——在有限乘性误设下，最坏情况效率损失仅为O(δ^2)；（2）蒸馏实践：在基于前向KL的大模型教师向小模型学生的蒸馏中，Paced在保持基准遗忘率低位的同时实现显著增益；（3）自蒸馏：在采用反向KL的指令调优模型中，增益同样超越基线；（4）双阶段协同：前向KL接续反向KL的训练方案在我们的设定中取得最强效果，在标准推理基准上实现显著提升——这支持了蒸馏过程中“模式覆盖-巩固”的阐释。所有配置仅需学生模型 rollout 估计通过率，无需架构改动，且兼容任意KL方向。

面向增强型多模态大语言模型裁判的多任务强化学习
Multi-Task Reinforcement Learning for Enhanced Multimodal LLM-as-a-Judge

Mar 12

ByJunjie Wu, Xuan Kan, Zihao He, Shunwen Tan, Bo Pan, Kaitai Zhang

多模态大语言模型（MLLMs）因其在各类视觉任务中与人类评判标准高度契合，已被广泛用作"MLLM即评判官"。然而，现有多数评判模型仅针对单一任务场景优化，难以泛化至多样化场景，而这一能力正是实现可靠评估的关键需求。为解决这一局限，我们提出面向MLLM即评判官的多任务强化学习框架（MT-RL-Judge），该框架通过强化学习的泛化能力，实现评判模型在多任务上的联合优化。与多个强基线的对比实验表明，MT-RL-Judge在评判一致性及与人类偏好相关性方面均优于现有强基线。此外，我们的方法在分布外任务上展现出强劲的泛化能力，进一步验证了其有效性。

SHAP-AV博士：基于沙普利值归因的视听语音识别模态贡献度解析
Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

Mar 12

ByUmberto Cappellazzo, Stavros Petridis, Maja Pantic

视听语音识别(AVSR)通过融合声学与视觉信息实现噪声环境下的鲁棒识别，但模型如何平衡多模态输入尚不明确。我们提出Dr. SHAP-AV框架，利用沙普利值解析AVSR中的模态贡献度。通过在两个基准数据集、不同信噪比条件下对六种模型进行实验，我们提出三种分析方法：全局SHAP揭示整体模态平衡，生成式SHAP展现解码过程中的贡献动态，时序对齐SHAP探究输入输出对应关系。实验表明：模型在噪声中会转向视觉依赖，但即便音频严重退化仍保持其高贡献度；模态平衡在生成过程中动态演化；时序对齐在噪声下依然成立；信噪比是驱动模态权重分配的主导因素。这些发现揭示了模型存在持续性的音频偏好，启示我们应设计自适应模态加权机制，并将基于沙普利值的归因分析作为标准化的AVSR诊断工具。

SoundWeaver：面向文本到音频扩散服务的语义热启动技术
SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving

Mar 9

ByAyush Barik, Sofia Stoica, Nikhil Sarda, Arnav Kethana, Abhinav Khanduja, Muchen Xu, Fan Lai

文本到音频扩散模型能够生成高保真音频，但需要数十次函数评估（NFE），导致多秒级延迟和有限吞吐量。我们提出SoundWeaver——首个无需重新训练、模型无关的服务系统，通过从语义相似的缓存音频进行热启动来加速文本到音频扩散过程。该系统包含三个核心组件：通过语义和时长感知门控机制检索并时序对齐缓存候选样本的参考选择器；动态决定可跳过NFE比例的跳跃门控器；以及通过质量感知淘汰与优化机制维护缓存效用的轻量级缓存管理器。在真实音频数据集上的实验表明，仅需约1000条条目的缓存，SoundWeaver即可在保持或提升感知质量的同时实现1.8至3.0倍的延迟降低。

TeamHOI：学习适用于任意团队规模的人-物协同交互统一策略
TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size

Mar 9

ByStefan Lionar, Gim Hee Lee

基于物理的人形控制已在实现逼真高效的单智能体行为方面取得显著进展，但将这些能力扩展到协作式人物交互（HOI）仍具挑战。我们提出TeamHOI框架，通过单一去中心化策略处理任意数量协作智能体间的协同HOI任务。每个智能体基于局部观测行动，同时通过带有队友令牌的Transformer策略网络关注其他成员，实现可变团队规模的可扩展协调。为在缺乏协作HOI数据的情况下保证运动真实性，我们进一步提出掩码对抗运动先验策略：训练时使用单人参考动作并掩码与物体交互的身体部位，随后通过任务奖励引导被掩码区域生成多样且物理合理的协作行为。我们在涉及2至8个人形智能体及不同几何形状物体的协作搬运任务上评估TeamHOI。最后，为促进稳定搬运，设计了与团队规模和物体形状无关的队形奖励机制。实验表明，TeamHOI以单一策略实现了高成功率，并在多种配置下展现出高度一致的协作能力。

注意力汇聚机制在Softmax Transformer中的必要性验证：来自触发条件任务的证据
Attention Sinks Are Provably Necessary in Softmax Transformers: Evidence from Trigger-Conditional Tasks

Mar 12

ByYuval Ran-Milo

Transformer模型常表现出注意力汇聚现象：概率质量会集中在某个固定的、与内容无关的位置上。我们证明，在softmax自注意力模型中计算简单的触发条件行为必然引发汇聚效应。研究结果将一种常见直觉形式化：在概率单纯形上的归一化操作会迫使注意力坍缩到稳定锚点上，以实现默认状态（例如当模型需要忽略输入时）。我们通过具体任务实例化这一现象：当出现指定触发标记时，模型必须返回所有前继标记表征的平均值，否则输出零值——该任务模拟了实际注意力头的工作机制（Barbero等人，2025；Guo等人，2024）。同时我们证明，未经归一化的ReLU注意力可在不产生任何汇聚的情况下完成相同任务，证实了归一化约束是引发汇聚行为的根本原因。实验验证了我们的预测，并证明该现象超越理论分析场景：softmax模型会产生强烈汇聚，而ReLU注意力在单头与多头变体中均能消除汇聚现象。

EmbTracker：面向联邦语言模型的可溯源黑盒水印技术
EmbTracker: Traceable Black-box Watermarking for Federated Language Models

Mar 12

ByHaodong Zhao, Jinming Hu, Yijie Bai, Tian Dong, Wei Du, Zhuosheng Zhang, Yanjiao Chen, Haojin Zhu, Gongshen Liu

联邦语言模型（FedLM）支持无需共享原始数据的协同学习，但引入了关键安全漏洞——每个不可信客户端都可能泄露接收到的功能模型实例。现有FedLM水印方案通常需要白盒权限和客户端协同配合，仅能提供群体级别的所有权证明而缺乏个体追溯能力。我们提出EmbTracker，一种专为FedLM设计的服务端可追溯黑盒水印框架。该框架通过植入可经简单API查询检测的后门式水印实现黑盒验证，并通过向分发给各客户端的模型注入独特身份标识水印来实现客户端级追溯。这种机制使得泄露模型能够精准溯源至具体责任人，即使面对非合作参与者也能保持鲁棒性。在多种语言模型和视觉语言模型上的大规模实验表明，EmbTracker可实现接近100%的验证率，对微调、剪枝、量化等去除攻击具有高抵抗力，且对主任务性能影响可忽略（通常控制在1-2%以内）。

神经场热层析成像：面向无损评估的可微分物理框架
Neural Field Thermal Tomography: A Differentiable Physics Framework for Non-Destructive Evaluation

Mar 11

ByTao Zhong, Yixun Hu, Dongzhe Zheng, Aditya Sood, Christine Allen-Blanchette

我们提出神经场热层析成像（NeFTY），这是一种基于瞬态表面温度测量实现材料特性定量三维重建的可微分物理框架。传统热成像技术依赖忽略横向扩散的逐像素一维近似方法，而软约束物理信息神经网络（PINNs）在瞬态扩散场景中常因梯度刚性而失效。相比之下，NeFTY将三维扩散率场参数化为连续神经场，并通过严格数值求解器进行优化。通过采用可微分物理求解器，我们的方法在保持高分辨率三维层析成像所需内存效率的同时，将热力学定律作为硬约束强制执行。这种“先离散后优化”的范式有效缓解了逆热传导中固有的频谱偏差和不适定性，实现了任意尺度下亚表面缺陷的精确重建。在合成数据上的实验验证表明，NeFTY在亚表面缺陷定位精度上显著优于基线方法。更多细节详见https://cab-lab-princeton.github.io/nefty/

WaDi：面向一步式图像生成的权重方向感知蒸馏方法
WaDi: Weight Direction-aware Distillation for One-step Image Synthesis

Mar 9

ByLei Wang, Yang Cheng, Senmao Li, Ge Wu, Yaxing Wang, Jian Yang

尽管稳定扩散（SD）等扩散模型在图像生成方面表现出色，但其缓慢的推理速度限制了实际部署。近期研究通过将多步扩散提炼为单步生成器来加速推理。为深入理解提炼机制，我们分析了单步学生模型与其多步教师模型对应版本中U-Net/DiT权重的变化规律。分析发现，权重方向的变化幅度显著超过权重范数的变化，表明方向调整是蒸馏过程中的关键因素。基于这一发现，我们提出权重方向低秩旋转适配器（LoRaD）——一种专为单步扩散蒸馏设计的参数高效适配器。该模块通过可学习的低秩旋转矩阵对结构化方向变化进行建模。我们进一步将LoRaD融入变分分数蒸馏（VSD），构建出权重方向感知蒸馏（WaDi）新框架。WaDi在COCO 2014和COCO 2017数据集上取得了最优FID分数，且仅需占用U-Net/DiT约10%的可训练参数。此外，蒸馏得到的单步模型展现出强大的泛化能力与扩展性，在可控生成、关系反演和高分辨率合成等下游任务中均表现优异。

SurvHTE-Bench：生存分析中异质性处理效应评估的基准框架
SurvHTE-Bench: A Benchmark for Heterogeneous Treatment Effect Estimation in Survival Analysis

Mar 5

ByShahriar Noroozizadeh, Xiaobin Shen, Jeremy C. Weiss, George H. Chen

在精准医疗和个性化政策制定等高风险应用中，基于右删失生存数据估计异质性处理效应至关重要。然而，由于删失现象、未观测的反事实结果以及复杂的识别假设，生存分析场景给HTE估计带来了独特挑战。尽管从因果生存森林到生存元学习器和结果插补方法等领域已取得进展，但评估实践仍存在碎片化和不一致的问题。我们推出SurvHTE-Bench——首个针对删失结果HTE估计的综合基准平台。该基准涵盖：(i) 包含已知真实值的模块化合成数据集套件，系统性地改变因果假设与生存动态；(ii) 将真实世界协变量与模拟处理及结果相结合的半合成数据集；(iii) 来自双胞胎研究（含已知真实值）和HIV临床试验的真实世界数据集。通过合成、半合成及真实世界场景，我们首次对不同条件下及现实假设违背情况下的生存HTE方法进行了严格比较。SurvHTE-Bench为因果生存方法的公平、可复现和可扩展评估奠定了基础。基准平台的数据与代码详见：https://github.com/Shahriarnz14/SurvHTE-Bench。

NerVE：大语言模型前馈网络中的非线性特征谱动力学
NerVE: Nonlinear Eigenspectrum Dynamics in LLM Feed-Forward Networks

Mar 6

ByNandan Kumar Jha, Brandon Reagen

我们提出NerVE——一个统一的本征谱框架，用于理解大语言模型（LLM）中前馈网络（FFN）如何在高维潜空间内组织并调控信息流。尽管FFN占据模型参数的主要部分，但其高维动态特性仍未被充分认知。NerVE通过四种互补指标实现轻量化的本征谱动态追踪：谱熵（离散度）、参与率（有效维度）、特征值早期富集（顶部集中度）以及Jensen-Shannon散度（分布偏移）。核心发现表明，FFN非线性操作会跨本征模重新注入方差，从根本上控制潜维度利用率，且优化器几何结构会强烈调节这种方差重注入的程度。我们在不同模型规模、多样化架构与优化器配置下验证NerVE，每种配置均独特塑造FFN动态：归一化方案控制方差流动；FFN权重几何约束潜空间；位置编码与激活函数调控信息流；优化器选择沿深度方向重新分配有效容量。在所有场景中，NerVE始终能提取稳定的谱特征，这些特征与模型泛化能力相关，并对设计选择呈现可预测的响应。该框架可泛化至MLP-Mixer等非Transformer架构，为超越试错法的架构与优化器选择提供可操作的洞见。

简约配方显奇效：视觉-语言-行动模型借强化学习实现自然持续学习
Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learners with Reinforcement Learning

Mar 12

ByJiaheng Hu, Jay Shim, Chen Tang, Yoonchang Sung, Bo Liu, Peter Stone, Roberto Martin-Martin

面向视觉-语言-动作模型的持续强化学习是实现自我提升具身智能体的重要方向，这类智能体能够在开放演化的环境中持续适应。传统持续学习理论认为，简单的顺序微调会导致灾难性遗忘，因此需要复杂的持续强化学习策略。本研究回归本源，基于三种模型和五个具有挑战性的终身强化学习基准，对大型预训练VLA模型的持续强化学习进行了系统性探究。出乎意料的是，我们发现采用低秩自适应技术的简单顺序微调表现出惊人优势：它具有高度可塑性，几乎不会出现遗忘现象，同时保持强大的零样本泛化能力，其表现往往优于复杂的持续强化学习方法。通过深入分析，我们揭示这种鲁棒性源于大型预训练模型、参数高效自适应和同策略强化学习三者的协同作用。这些要素共同重塑了稳定性与可塑性之间的平衡关系，使得持续适应过程既稳定又可扩展。我们的研究确立了顺序微调作为VLA持续强化学习的有效方法，为大数据模型时代的终身学习提供了新见解。代码已发布于github.com/UT-Austin-RobIn/continual-vla-rl。

混合式训练造就全能型视觉编码器DINO
A Mixed Diet Makes DINO An Omnivorous Vision Encoder

Feb 27

ByRishabh Kabra, Maks Ovsjanikov, Drew A. Hudson, Ye Xia, Skanda Koppula, Andre Araujo, Joao Carreira, Niloy J. Mitra

诸如DINOv2等预训练视觉编码器在单模态任务中展现出卓越性能，但我们发现其跨模态特征表征存在严重失准问题。例如，同一场景的RGB图像与其对应深度图的特征嵌入，其余弦相似度几乎与两张随机无关图像无异。为此，我们提出全模态视觉编码器——一种学习模态无关特征空间的新框架。该编码器采用双重目标进行训练：首先最大化同一场景不同模态间的特征对齐度；其次通过蒸馏目标将学习到的表征锚定至全冻结教师模型（如DINOv2）的输出。最终的学生编码器可对任意输入模态（RGB、深度、分割图等）生成统一且强大的场景嵌入，从而成为"全模态"编码器。该方法在保持基础模型判别性语义的同时，实现了鲁棒的跨模态理解能力。

HyPER-GAN：基于混合分块的实时图像转换技术，实现照片级真实感增强
HyPER-GAN: Hybrid Patch-Based Image-to-Image Translation for Real-Time Photorealism Enhancement

Mar 11

ByStefanos Pasios, Nikos Nikolaidis

生成模型被广泛用于提升合成数据的照片级真实感，以训练计算机视觉算法。然而，这类模型常会引入视觉伪影，降低算法精度，且需要高昂的计算资源，限制了其在实时训练或评估场景中的应用。本文提出混合补丁增强真实感生成对抗网络（HyPER-GAN），这是一种基于U-Net架构生成器的轻量级图像到图像转换方法，专为实时推理设计。该模型通过配对的合成图像与照片级真实感增强图像进行训练，并结合混合训练策略——引入真实数据的匹配图像块以提升视觉真实感与语义一致性。实验结果表明，HyPER-GAN在推理延迟、视觉真实感和语义鲁棒性方面均优于当前最先进的配对图像转换方法。此外，研究证实相较于仅使用配对合成图像与真实感增强图像的训练方式，所提出的混合训练策略确实能提升视觉质量与语义一致性。代码与预训练模型已公开下载地址：https://github.com/stefanos50/HyPER-GAN

印度尼西亚苏拉威西莫罗瓦利工业园镍加工产能扩张对海岸水体透明度下降的因果归因研究
Causal Attribution of Coastal Water Clarity Degradation to Nickel Processing Expansion at the Indonesia Morowali Industrial Park, Sulawesi

Mar 7

BySandy Hardian Susanto Herho, Alfita Puspa Handayani, Iwan Pramesti Anwar, Faruq Khadami, Karina Aprilia Sujatmiko, Doandy Yonathan Wibisono, Rusmawan Suwarman, Dasapta Erwin Irawan

印度尼西亚的镍矿出口禁令推动了中苏拉威西海岸的印尼莫罗瓦利工业园（IMIP）冶炼与湿法冶炼产能的快速扩张，使其成为全球最大的综合性镍加工基地。这种工业化进程是否导致邻近海洋环境退化尚待量化研究。我们采用贝叶斯结构时间序列（BSTS）因果推断方法，基于多年代际、多传感器卫星海洋水色数据中的490纳米漫衰减系数K_d(490)，检验IMIP扩张与近岸浊度变化之间的因果关系。通过共识性结构断点识别、基于班达海反事实参照的显著后验因果效应估计，以及无分布安慰剂排序检验，共同证实了从初期镍铁生产转向电池级镍高压酸浸设施超速扩张后，沿海水体透明度出现恶化。卫星遥感土地覆盖分析独立佐证了这一时间节点，显示IMIP区域内建成区大幅扩展与森林覆盖同步减少。由此引发的真光层变浅现象出现在滋养高海洋生物多样性的贫营养水域，即使中等程度的光学退化也可能损害珊瑚光合作用并压缩礁栖生物的垂直生存空间。这些发现量化了印尼矿物下游化政策讨论中缺失的海洋环境代价，并展示了一种可推广的、基于卫星数据的准实验框架，适用于数据稀缺的热带沿海工业区因果影响评估。

4DEquine：从单目视频中解耦运动与外观实现四维马匹重建
4DEquine: Disentangling Motion and Appearance for 4D Equine Reconstruction from Monocular Video

Mar 10

ByJin Lyu, Liang An, Pujin Cheng, Yebin Liu, Xiaoying Tang

基于单目视频的马科动物（如马匹）四维重建对动物福利研究具有重要意义。传统主流4D动物重建方法需对整个视频中的运动与外观进行联合优化，该过程耗时且易受不完整观测影响。本研究提出名为4DEquine的创新框架，通过将4D重建解耦为动态运动重建与静态外观重建两个子问题。运动重建方面，我们引入配备后优化阶段的时空Transformer模型，从视频中回归平滑且像素对齐的姿态与形状序列；外观重建方面，设计新型前馈网络，仅需单张图像即可重建高保真、可驱动的3D高斯化身。为辅助训练，我们创建了大规模合成运动数据集VarenPoser（包含高质量表面运动与多视角相机轨迹）以及合成外观数据集VarenTex（通过多视角扩散模型生成逼真多视图图像）。尽管仅使用合成数据训练，4DEquine在真实世界APT36K和AiM数据集上仍达到最先进性能，验证了该方法在几何与外观重建方面的优越性。系统消融实验证明了运动与外观重建网络的有效性。项目页面：https://luoxue-star.github.io/4DEquine_Project_Page/。