HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

32 papers found

生成模型通晓空间：释放场景理解中的隐式三维先验
Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

Mar 19

ByXianjin Wu, Dingkang Liang, Tianrui Feng, Kui Xia, Yumeng Zhang, Xiaofan Li, Xiao Tan, Xiang Bai

尽管多模态大语言模型展现出强大的语义理解能力，但其常存在空间盲区，难以进行细粒度几何推理和物理动态推演。现有方案通常依赖显式3D模态或复杂几何支架，受限于数据稀缺与泛化挑战。本研究提出范式转换，通过利用大规模视频生成模型中的隐式空间先验，指出此类模型为合成时序连贯的视频，必然已学习到稳健的3D结构先验与物理规律。我们提出VEGA-3D（视频提取生成感知）框架——一种即插即用方案，将预训练视频扩散模型重构为潜在世界模拟器。通过从中间噪声层级提取时空特征，并借助令牌级自适应门控融合机制将其与语义表征集成，我们在无需显式3D监督的情况下为多模态大语言模型注入密集几何线索。在3D场景理解、空间推理和具身操作基准测试中的大量实验表明，本方法优于现有最优基线，验证了生成式先验可为物理世界理解提供可扩展的基础。代码已开源：https://github.com/H-EmbodVis/VEGA-3D。

SAMA：面向指令引导视频编辑的因子化语义锚定与运动对齐
SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing

Mar 19

ByXinyao Zhang, Wenkai Dong, Yuxin Song, Bo Fang, Qi Zhang, Jing Wang, Fan Chen, Hui Zhang, Haocheng Feng, Yu Lu, Hang Zhou, Chun Yuan, Jingdong Wang

当前基于指令的视频编辑模型难以同时兼顾精确的语义修改与忠实运动保持。虽然现有方法依赖注入显式外部先验（如VLM特征或结构条件）来缓解这些问题，但这种依赖严重制约了模型的鲁棒性与泛化能力。为突破此局限，我们提出SAMA（解耦的语义锚定与运动对齐框架），将视频编辑解构为语义锚定和运动建模两个维度。首先引入语义锚定机制，通过在稀疏锚帧上联合预测语义标记与视频潜变量，建立可靠的视觉锚点，实现纯指令感知的结构规划。其次，运动对齐模块通过运动中心的视频修复预训练任务（立方体修复、速度扰动、管状混洗），使骨干网络直接从原始视频中内化时序动态特征。SAMA采用两阶段优化流程：先通过解耦预训练阶段学习固有的语义-运动表示（无需配对的视频-指令编辑数据），再基于配对编辑数据进行监督微调。值得注意的是，仅通过解耦预训练就已展现出强大的零样本视频编辑能力，验证了所提解耦框架的有效性。SAMA在开源模型中达到最先进性能，并与领先商业系统（如Kling-Omni）相媲美。代码、模型及数据集将全面开源。

Nemotron-Cascade 2：基于级联强化学习与多域同策略蒸馏的后训练大语言模型
Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation

Mar 19

ByZhuolin Yang, Zihan Liu, Yang Chen, Wenliang Dai, Boxin Wang, Sheng-Chieh Lin, Chankyu Lee, Yangyi Chen, Dongfu Jiang, Jiafan He, Renjie Pi, Grace Lam, Nayeon Lee, Alexander Bukharin, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping

我们推出Nemotron-Cascade 2——一个拥有300亿参数、30亿激活参数的开放混合专家模型，具备顶尖的推理能力与强大的智能体性能。尽管模型体积紧凑，其在数学与代码推理方面的表现已接近前沿开放模型水平。这是继DeepSeekV3.2-Speciale-671B-A37B之后，第二个在2025年国际数学奥林匹克（IMO）、国际信息学奥林匹克（IOI）和ICPC全球总决赛中达到金牌级性能的开放权重大语言模型，以仅二十分之一的参数量实现了卓越的智能密度。相较于Nemotron-Cascade 1，本代模型的核心技术突破如下：在精心构建的数据集上进行监督微调后，我们大幅扩展了级联强化学习的覆盖范围，使其涵盖更广泛的推理与智能体领域。此外，我们在级联强化学习全流程中引入多领域策略内蒸馏技术，从各领域最强的中间教师模型进行知识迁移，从而有效恢复基准测试中的性能回退，并持续保持强劲的性能提升。我们同步发布了模型检查点与训练数据集合。

3DreamBooth：高保真三维主体驱动视频生成模型
3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation Model

Mar 19

ByHyun-kyu Ko, Jihyeon Park, Younghyun Kim, Dongheok Park, Eunbyung Park

生成具有动态效果且视角一致的自定义主体视频，在沉浸式VR/AR、虚拟制片和下一代电子商务等新兴应用领域具有广泛需求。尽管当前基于主体驱动的视频生成技术发展迅速，但现有方法大多将主体视为二维实体，仅通过单视角视觉特征或文本提示进行身份迁移。由于真实世界的主体本质上是三维的，将这些以二维为核心的方法应用于三维物体定制时暴露出根本性局限：它们缺乏重建三维几何所需的完整空间先验知识。因此，在合成新视角时，这些方法只能为不可见区域生成合理但任意的细节，而非保持真实的三维身份特征。实现真正的三维感知定制面临两大挑战：多视角视频数据集的稀缺性，以及基于有限视频序列进行模型微调容易导致时序过拟合。为解决这些问题，我们提出了创新性的三维感知视频定制框架3DreamBooth与3Dapter。3DreamBooth通过单帧优化范式实现空间几何与时序运动的解耦，通过仅更新空间表征将强健的三维先验知识嵌入模型，无需依赖耗时的视频训练。为增强细粒度纹理表现并加速收敛，我们引入视觉条件模块3Dapter。该模块在单视角预训练后，通过非对称条件策略与主生成分支进行多视角联合优化，使其能够作为动态选择路由器，从极简参考集中查询视角特定的几何提示。项目页面：https://ko-lani.github.io/3DreamBooth/

FASTER：重新思考实时流式视觉语言助手
FASTER: Rethinking Real-Time Flow VLAs

Mar 19

ByYuxiang Lu, Zhe Liu, Xianzhe Fan, Zhenya Yang, Jinghua Hou, Junyi Li, Kaixin Ding, Hengshuang Zhao

实时执行对于将视觉-语言-动作模型部署到物理世界至关重要。现有异步推理方法主要优化轨迹平滑度，却忽视了响应环境变化的关键延迟问题。本文通过重新思考动作分块策略中的响应机制，系统分析了影响响应时间的核心因素。我们发现响应时间遵循由首动作响应时间与执行视野共同决定的均匀分布。进一步揭示出：基于流式的VLA模型采用恒定调度策略会导致效率低下，迫使系统完成所有采样步骤后才能开始运动，这构成了响应延迟的瓶颈。为突破此限制，我们提出即时响应快速动作采样方法。通过引入视野感知调度机制，FASTER在流式采样过程中自适应地优先处理近期动作，将即时响应的去噪过程压缩十倍（如在π_{0.5}和X-VLA中）至单步完成，同时保持长视野轨迹质量。结合流式客户端-服务器流水线架构，FASTER在真实机器人上显著降低了有效响应延迟，尤其在消费级GPU部署场景中。包括高动态乒乓球任务在内的实景实验证明，FASTER为通用策略开启了前所未有的实时响应能力，能够快速生成精准平滑的运动轨迹。

忆录技能：让智能体设计智能体
Memento-Skills: Let Agents Design Agents

Mar 19

ByHuichi Zhou, Siyuan Guo, Anjie Liu, Zhongwei Yu, Ziqin Gong, Bowen Zhao, Zhixun Chen, Menglong Zhang, Yihang Chen, Jinsong Li, Runyu Yang, Qiangbin Liu, Xinlei Yu, Jianmin Zhou, Na Wang, Chunyang Sun, Jun Wang

我们推出Memento-Skills——一种通用且可持续学习的大语言模型智能体系统，其本质是能够自主设计智能体的元智能体：该系统通过经验积累自主构建、调整并优化面向特定任务的智能体。该体系建立在基于记忆的强化学习框架之上，采用状态化提示技术，其中可复用技能（以结构化Markdown文件形式存储）作为持续演化的持久化记忆载体。这些技能同时编码了行为模式与上下文信息，使智能体能够在交互过程中持续传承知识。系统从基础技能（如网络搜索与终端操作）起步，通过Memento²~wang2025memento2~提出的读写反射学习机制持续进化。在读阶段，支持行为训练的技能路由器根据当前状态化提示选择最相关技能；在写阶段，智能体基于新经验更新并扩展其技能库。这种闭环设计实现了无需更新大语言模型参数的持续学习，所有适应过程均通过外部化技能与提示的演化来实现。与依赖人工设计智能体的传统方法不同，Memento-Skills使通用智能体能够端到端地为新任务自主设计智能体。通过迭代式的技能生成与优化，系统持续提升自身能力。在通用AI助手基准测试与"人类终极考试"上的实验表明，该系统分别实现了26.2%和116.2%的相对准确率提升。代码已开源：https://github.com/Memento-Teams/Memento-Skills。

基于扩散模型的离散运动标记器：连接语义与运动学条件
Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer

Mar 19

ByChenyang Gu, Mingyuan Zhang, Haozhe Xie, Zhongang Cai, Lei Yang, Ziwei Liu

先前运动生成主要遵循两种范式：擅长运动学控制的连续扩散模型，以及适用于语义条件建模的离散令牌生成器。为融合二者优势，我们提出包含条件特征提取（感知）、离散令牌生成（规划）与基于扩散的运动合成（控制）的三阶段框架。该框架的核心是MoTok——一种基于扩散的离散运动分词器，通过将运动重建任务委托给扩散解码器，实现语义抽象与细粒度重构的解耦，从而在保持运动保真度的同时实现紧凑的单层令牌表示。针对运动学条件，粗粒度约束在规划阶段指导令牌生成，而细粒度约束则通过基于扩散的优化在控制阶段实施。这种设计有效防止运动学细节干扰语义令牌规划。在HumanML3D数据集上，本方法仅使用六分之一令牌量即显著提升MaskControl的可控性与保真度，轨迹误差从0.72厘米降至0.08厘米，FID从0.083改善至0.029。与现有方法在强运动学约束下性能衰退不同，本方法反而提升保真度，将FID从0.033进一步降至0.014。

MonoArt：基于渐进式结构推理的单目关节三维重建
MonoArt: Progressive Structural Reasoning for Monocular Articulated 3D Reconstruction

Mar 19

ByHaitian Li, Haozhe Xie, Junxiang Xu, Beichen Wen, Fangzhou Hong, Ziwei Liu

从单幅图像重建铰接式三维物体需要根据有限的视觉证据联合推断物体几何、部件结构及运动参数。关键难点在于运动线索与物体结构之间的纠缠关系，这使得直接回归铰接状态变得不稳定。现有方法通过多视角监督、基于检索的组装或辅助视频生成来应对这一挑战，但往往以牺牲可扩展性或效率为代价。我们提出MonoArt——一个基于渐进式结构推理的统一框架。该方法并非直接从图像特征预测铰接状态，而是在单一架构内逐步将视觉观察转化为规范几何、结构化部件表示和运动感知嵌入。这种结构化推理过程无需外部运动模板或多阶段流程，即可实现稳定且可解释的铰接推断。在PartNet-Mobility数据集上的大量实验表明，该方法在重建精度和推理速度方面均达到最先进水平。该框架还可进一步推广至机器人操作和铰接式场景重建任务。

立方离散扩散：基于高维表示令牌的离散视觉生成
Cubic Discrete Diffusion: Discrete Visual Generation on High-Dimensional Representation Tokens

Mar 19

ByYuqing Wang, Chuofan Ma, Zhijie Lin, Yao Teng, Lijun Yu, Shuai Wang, Jiaming Han, Jiashi Feng, Yi Jiang, Xihui Liu

基于离散标记的视觉生成技术因其能与语言模型共享统一的标记预测范式，有望实现无缝的多模态架构而备受关注。然而，当前离散生成方法仍局限于低维潜在标记（通常为8-32维），牺牲了理解任务所需的语义丰富性。虽然预训练的高维表示（768-1024维）可能弥合这一差距，但其离散生成存在根本性挑战。本文提出立方离散扩散模型（CubiD），首个面向高维表示的离散生成模型。CubiD在高维离散表示中执行细粒度掩码——任何位置上的任意维度均可被掩码并根据部分观测值进行预测。该机制使模型能够学习空间位置内部及跨位置的丰富关联性，且生成步数固定为T（与特征维度无关），满足T远小于hwd的条件。在ImageNet-256数据集上，CubiD以9亿至37亿参数的强大扩展能力实现了最先进的离散生成性能。关键的是，我们验证了这些离散化标记能保持原始表示能力，证明同一套离散标记可同时有效服务于理解与生成任务。本研究有望推动未来统一多模态架构的探索。代码已开源：https://github.com/YuqingWang1029/CubiD。

F2LLM-v2：面向多语言世界的包容性、高性能且高效的嵌入技术
F2LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual World

Mar 19

ByZiyin Zhang, Zihan Liao, Hang Yu, Peng Di, Rui Wang

我们推出F2LLM-v2系列——包含8种参数量（从8000万到140亿）的通用多语言嵌入模型。该系列基于新构建的6000万公开高质量数据样本复合训练集进行训练，支持超过200种语言，尤其关注以往资源不足的中低资源语言。通过融合基于大语言模型的双阶段嵌入训练流程、套娃学习、模型剪枝和知识蒸馏技术，我们实现了远超以往基于大语言模型的嵌入模型的效率，同时保持卓越性能。大量评估证实，F2LLM-v2-14B在11项MTEB基准测试中位列第一，而系列中较小参数量的模型也为资源受限场景设立了新的性能标杆。为促进开源嵌入模型研究，我们已全面公开所有模型、数据、代码及中间检查点。

LVOmniBench：为全模态大语言模型开创长音频-视频理解评估新纪元
LVOmniBench: Pioneering Long Audio-Video Understanding Evaluation for Omnimodal LLMs

Mar 19

ByKeda Tao, Yuhua Zheng, Jia Xu, Wenjie Du, Kele Shao, Hesong Wang, Xueyi Chen, Xin Jin, Junhan Zhu, Bohan Yu, Weiqiang Wang, Jian Liu, Can Qin, Yulun Zhang, Ming-Hsuan Yang, Huan Wang

近期，全模态大语言模型（OmniLLMs）在音视频内容理解方面取得了显著进展。然而，当前评估主要聚焦于10秒至5分钟的短音视频片段，未能反映现实应用场景的需求——此类场景中的视频通常长达数十分钟。为弥补这一关键空白，我们推出了专门针对长格式音视频跨模态理解的新基准LVOmniBench。该数据集收录来自开放平台的高质量视频，具有丰富的视听动态特征。通过严格的人工筛选与标注，LVOmniBench包含275段时长10至90分钟的视频及1,014组问答对。该基准旨在系统评估OmniLLMs在长期记忆、时间定位、细粒度理解和多模态感知等领域的性能。大量实验表明，现有OmniLLMs在处理长格式音视频输入时面临显著挑战：开源模型准确率普遍低于35%，而Gemini 3 Pro的最高准确率约为65%。我们期待该数据集及实证发现能推动后续研究，促进能够解决长格式音视频语境下复杂跨模态理解问题的先进模型发展。

AndroTMem：从交互轨迹到长视野GUI代理中的锚定记忆
AndroTMem: From Interaction Trajectories to Anchored Memory in Long-Horizon GUI Agents

Mar 19

ByYibo Shi, Jungang Li, Linghao Zhang, Zihao Dongfang, Biao Wu, Sicheng Tao, Yibo Yan, Chenxi Qin, Weiting Liu, Zhixin Lin, Hanqian Li, Yu Huang, Song Dai, Yonghua Hei, Yue Ding, Xiang Li, Shikang Wang, Chengdong Xu, Jingqi Liu, Xueying Ma, Zhiwen Zheng, Xiaofei Zhang, Bincheng Wang, Nichen Yang, Jie Wu, Lihua Tian, Chen Li, Xuming Hu

长视界GUI智能体是实现现实世界部署的关键一步，然而主流范式下的有效交互记忆机制仍待深入探索。完全回放交互序列会导致冗余并放大噪声，而摘要方式往往会抹除依赖关键信息与可追溯性。我们提出AndroTMem——一个面向长视界Android GUI智能体的锚定记忆诊断框架。其核心基准AndroTMem-Bench包含1,069个任务共34,473个交互步骤（平均每任务32.1步，最多65步）。我们通过任务完成率评估智能体性能，重点关注需要传递关键中间状态的任务；该基准通过强化步间因果依赖设计，使稀疏但关键的中间状态成为下游决策的决定性因素，并将交互记忆作为评估核心。在开源与闭源GUI智能体的测试中，我们观察到一致规律：随着交互序列增长，性能下降主要源于任务内记忆失效，而非孤立感知错误或局部操作失误。基于此诊断，我们提出锚定状态记忆法，将交互序列表示为因果关联的中间状态锚点集合，实现子目标导向的检索与归因感知决策。在多重实验设置下对12款GUI智能体的评估表明，该方法始终优于全序列回放与摘要基线，任务完成率提升5%-30.16%，平均记忆得分提升4.93%-24.66%，证明锚定结构化记忆能有效缓解长视界GUI任务中的交互记忆瓶颈。代码、基准及相关资源已开源于[https://github.com/CVC2233/AndroTMem](https://github.com/CVC2233/AndroTMem)。

ReactMotion：基于说话者话语生成反应性倾听者动作
ReactMotion: Generating Reactive Listener Motions from Speaker Utterance

Mar 16

ByCheng Luo, Bizhu Wu, Bing Li, Jianfeng Ren, Ruibin Bai, Rong Qu, Linlin Shen, Bernard Ghanem

本文提出了一项新任务——基于说话者话语的反应性听者动作生成，旨在生成能恰当回应说话者话语的自然听者身体动作。然而，由于人类反应本质上具有非确定性，对此类非语言听者行为的建模研究仍处于探索阶段且面临挑战。为推进该任务，我们推出了ReactMotionNet大规模数据集，该数据集将说话者话语与多个标注了不同适宜度等级的听者动作候选配对。这种数据集设计显式捕捉了听者行为的一对多特性，提供了超越单一真实标注的监督信号。基于此设计，我们开发了面向偏好的评估方案，专门评估反应适宜度——这一维度被传统关注输入-动作对齐的运动指标所忽略。我们进一步提出ReactMotion统一生成框架，该框架联合建模文本、音频、情感和动作，并通过基于偏好的目标函数进行训练，以鼓励生成既恰当又多样化的听者反应。大量实验表明，ReactMotion在检索基线和级联式LLM流程上均表现更优，能生成更自然、多样且贴合情境的听者动作。

VTC-Bench：通过组合式视觉工具链评估具身多模态模型
VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining

Mar 16

ByXuanyu Zhu, Yuhao Dong, Rundong Wang, Yang Shi, Zhipeng Wu, Yinlun Peng, YiFan Zhang, Yihang Lou, Yuanxing Zhang, Ziwei Liu, Yan Bai, Yuan Zhou

近期研究将多模态大语言模型（MLLMs）的应用从标准视觉问答扩展到利用外部工具处理高级视觉任务。尽管取得进展，但如何精确执行并有效组合多样化工具以完成复杂任务仍是持续存在的瓶颈。受限于稀疏的工具集和简单的工具使用轨迹，现有基准测试难以捕捉复杂多样的工具交互，无法在实际场景下有效评估模型性能。为弥补这一差距，我们推出VisualToolChain-Bench（VTC-Bench）——一个用于评估MLLMs工具使用能力的综合基准。为贴合实际计算机视觉流程，该框架集成32种基于OpenCV的多样化视觉操作。丰富的工具集支持广泛组合，使VTC-Bench能够严格评估多工具组合能力及长周期多步骤规划执行效果。我们精心构建了涵盖九级认知层次的680道标准化题目，每题均提供真实执行轨迹以实现精准评估。对19个主流MLLMs的大规模实验揭示了当前模型在视觉智能体能力上的显著局限：模型难以适应多样化工具集并泛化至未见过操作，领先模型Gemini-3.0-Pro在本基准中仅达到51%准确率；多工具组合仍是持续挑战，面对复杂任务时模型难以制定高效执行计划，过度依赖熟悉功能的狭窄子集而非选择最优工具。通过揭示这些根本性挑战，VTC-Bench为开发更具泛化能力的视觉智能体模型建立了严谨的基准参照。

多模态大语言模型在离散符号理解中的认知失配
Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol Understanding

Mar 19

ByYinghui Li, Jiayi Kuang, Peng Xing, Daixian Liu, Junnan Dong, Shu-Yu Guo, Yangning Li, Qingyu Zhou, Wenhao Jiang, Hai-Tao Zheng, Ying Shen, Liang Lin, Philip S. Yu

尽管多模态大语言模型（MLLMs）在自然场景理解方面取得了显著成就，但其处理离散符号——人类认知的基本单元——的能力仍是一个关键悬而未题。与连续视觉数据不同，数学公式、化学结构、语言字符等符号需要精确且更深层次的解析。本文提出一个综合性基准测试，用于评估顶尖MLLMs在语言、文化、数学、物理、化学五大领域中对这些“离散语义空间”的驾驭能力。研究发现了一个反直觉现象：模型常能完成复杂推理任务，却在基础符号识别上表现不佳，这表明其依赖语言概率而非真正的视觉感知。通过揭示这种“认知错位”，我们凸显了当前人工智能能力的重大缺陷：难以真正感知和理解支撑科学发现与抽象思维的符号语言。本研究为开发更严谨、与人类认知对齐的智能系统提供了路线图。

EffectErase：高质量特效擦除中的联合视频对象移除与插入技术
EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing

Mar 19

ByYang Fu, Yike Zheng, Ziyun Dai, Henghui Ding

视频目标移除旨在消除动态目标物体及其视觉效应（如形变、阴影和反射），同时恢复无缝背景。近期基于扩散模型的视频修复与目标移除方法虽能去除物体，但往往难以彻底清除这些效应并生成连贯的背景。除方法局限外，该领域进展还因缺乏系统性涵盖不同环境中常见物体效应的综合性数据集而受阻。为此，我们推出VOR（视频目标移除）数据集——一个提供多样化配对视频的大规模资源，每组包含呈现目标物体及其效应的视频，以及物体与效应均被移除的对应视频，并附带物体掩码。VOR包含6万对来自实拍与合成源的高质量视频对，涵盖五种效应类型，涉及广泛物体类别以及复杂的动态多物体场景。基于VOR数据集，我们提出EffectErase方法，这是一种效应感知的视频目标移除技术，通过将视频物体插入作为逆向辅助任务融入对偶学习框架。该模型包含任务感知的区域引导机制，可聚焦于受影响区域进行学习，并支持灵活的任务切换；同时采用插入-移除一致性目标，促使模型在效应区域定位与结构线索捕捉方面形成互补行为与共享认知。在VOR上训练的EffectErase在大量实验中展现出卓越性能，能够跨多样场景实现高质量的视频物体效应消除。

着色框架：问题框架遮蔽视觉语言模型的视野
Tinted Frames: Question Framing Blinds Vision-Language Models

Mar 19

ByWan-Cyuan Fan, Jiayun Luo, Declan Kutscher, Leonid Sigal, Ritwik Gupta

视觉语言模型(VLMs)已被证明存在视觉盲区，即使在需要视觉推理的任务中也往往未能充分利用视觉输入。本研究发现，VLMs具有选择性视觉盲区——它们会根据语言表述框架调整对视觉输入的关注程度，即便不同表述框架所需的视觉推理过程完全相同。通过视觉注意力机制作为探测工具，我们量化分析了表述框架如何改变对图像关注的程度和分布。受限表述框架（如多项选择和是非题）相较于开放式框架，会导致对图像上下文关注度显著降低、任务相关区域聚焦减弱，并将注意力转向无信息量的语义单元。我们进一步证明，这种注意力错配是导致准确率下降和跨框架表现不一致的主要原因。基于这一机制性发现，我们提出一种采用可学习语义单元的轻量级提示调优方法，该方法能促进模型建立开放式框架中观察到的鲁棒性视觉注意力模式，从而增强视觉基础能力并提升跨框架性能。

SimulU：长时同步语音翻译的无训练策略
SimulU: Training-free Policy for Long-form Simultaneous Speech-to-Speech Translation

Mar 11

ByAmirbek Djanibekov, Luisa Bentivogli, Matteo Negri, Sara Papi

同步语音到语音翻译(SimulS2S)对实时多语言通信至关重要，正日益集成于会议和流媒体平台。然而该技术在研究领域仍待深入，现有方案常依赖资源密集型的训练流程，且仅适用于短片段预分割语音，难以推广至连续语音场景。为弥补这一空白，我们提出首个免训练的长时SimulS2S策略SimulU。该方法通过历史管理与语音输出选择策略，利用预训练端到端模型中的交叉注意力机制来调控输入历史与输出生成。在MuST-C数据集8个语言对的测试表明，SimulU在质量-延迟权衡上优于或媲美强级联模型。通过避免定制化训练需求，SimulU为现实长时场景下的端到端SimulS2S提供了可行路径。

ProRL智能体：面向多轮LLM智能体强化学习的即服务式推演平台
ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM Agents

Mar 19

ByHao Zhang, Mingjie Liu, Shaokun Zhang, Songyang Han, Jian Hu, Zhenghui Jin, Yuchi Zhang, Shizhe Diao, Ximing Lu, Binfeng Xu, Zhiding Yu, Jan Kautz, Yi Dong

多轮大语言模型智能体在解决复杂交互任务中日益重要，而强化学习是优化其长周期行为的关键要素。然而强化学习训练需生成大量沙盒化轨迹推演数据，现有基础设施常将推演编排与训练循环紧耦合，导致系统难以迁移维护。基于"推演即服务"理念，我们提出ProRL智能体——通过API服务支撑完整智能体推演生命周期的可扩展基础设施。该系统还提供标准化、可扩展的沙盒环境，支持无根高性能计算场景下的多样化智能体任务。我们通过在软件工程、数学、STEM及编程任务上的强化学习训练验证了ProRL智能体效能。该系统已开源并集成至英伟达NeMo训练平台。

Loc3R-VLM：基于语言的视觉语言模型定位与三维推理
Loc3R-VLM: Language-based Localization and 3D Reasoning with Vision-Language Models

Mar 18

ByKevin Qu, Haozhe Qi, Mihai Dusmanu, Mahdi Rad, Rui Wang, Marc Pollefeys

多模态大语言模型（MLLM）在视觉与语言关联方面取得了显著进展，但在空间理解和视角感知推理方面仍存在不足。现有研究多侧重于通过几何线索增强输入表征，而非直接教导模型进行三维空间推理。我们提出Loc3R-VLM框架，该框架通过单目视频输入使二维视觉语言模型具备先进的三维理解能力。受人类空间认知机制启发，Loc3R-VLM采用两个联合目标：全局布局重建以构建场景结构的整体表征，显式情境建模以锚定自我中心视角。这些目标通过直接的空间监督机制，将感知与语言共同锚定在三维上下文中。为确保几何一致性和度量尺度对齐，我们利用从预训练三维基础模型中提取的轻量级相机位姿先验。Loc3R-VLM在基于语言的定位任务中达到最先进性能，并在情境化及通用三维问答基准测试中超越现有基于二维和视频的方法，证明我们的空间监督框架能实现强大的三维理解能力。项目页面：https://kevinqu7.github.io/loc3r-vlm

MHPO：基于调制风险感知策略优化的稳定强化学习
MHPO: Modulated Hazard-aware Policy Optimization for Stable Reinforcement Learning

Mar 14

ByHongjun Wang, Wei Liu, Weibo Gu, Xing Sun, Kai Han

调节重要性比率对于基于群组相对策略优化（GRPO）框架的训练稳定性至关重要。然而，现有比率控制方法（如硬截断）存在不可微边界和梯度消失区域，难以维持梯度保真度。此外，这些方法缺乏危险感知机制来自适应抑制极端偏差，导致优化过程易受策略突变影响。为解决这些问题，我们提出调制式危险感知策略优化（MHPO）——一个面向鲁棒稳定强化学习的新型框架。该框架通过对数保真调制器（LFM）将无界重要性比率映射至有界可微空间，既能有效防止高方差异常值破坏损失景观的稳定性，又可确保全局梯度稳定。同时，解耦危险惩罚（DHP）模块引入生存分析中的累积危险函数，分别对正负向策略偏移进行独立调控。通过危险感知惩罚重塑优化景观，MHPO实现了非对称策略偏移的精细调控，既能同步缓解过度扩张导致的模式坍塌，又可防止灾难性收缩引发的策略退化，最终在稳定信任域内实现优化。在涵盖文本与视觉语言任务的多样化推理基准测试中，MHPO持续超越现有方法，在显著提升训练稳定性的同时获得更优性能。

MOSS-TTS技术报告
MOSS-TTS Technical Report

Mar 18

ByYitian Gong, Botian Jiang, Yiwei Zhao, Yucheng Yuan, Kuangwei Chen, Yaozhou Jiang, Cheng Chang, Dong Hong, Mingshu Chen, Ruixiao Li, Yiyang Zhang, Yang Gao, Hanfu Chen, Ke Chen, Songlin Wang, Xiaogui Yang, Yuqian Zhang, Kexin Huang, ZhengYuan Lin, Kang Yu, Ziqi Chen, Jin Wang, Zhaoye Fei, Qinyuan Cheng, Shimin Li, Xipeng Qiu

本技术报告介绍了MOSS-TTS语音生成基础模型，该模型基于可扩展技术方案构建：离散音频令牌、自回归建模与大规模预训练。基于MOSS-Audio-Tokenizer（一种可将24kHz音频压缩至12.5fps的因果Transformer分词器，采用可变比特率RVQ和统一语义-声学表征），我们发布了两款互补的生成器：强调结构简洁性、可扩展性及长上下文/控制导向部署的MOSS-TTS，以及引入帧局部自回归模块以提升建模效率、增强说话人保持能力并缩短首音频生成时间的MOSS-TTS-Local-Transformer。在多语言和开放域场景下，MOSS-TTS支持零样本语音克隆、令牌级时长控制、音素/拼音级发音控制、流畅语码切换及稳定长文本生成。本报告总结了所发布模型的设计方案、训练方法及实证特性。

嵌套式高斯溅射
Matryoshka Gaussian Splatting

Mar 19

ByZhilin Guo, Boqiao Zhang, Hakan Aktas, Kyle Fogarty, Jeffrey Hu, Nursena Koprucu Aslan, Wenzhao Li, Canberk Baykal, Albert Miao, Josef Bengtson, Chenliang Zhou, Weihao Xia, Cristina Nader Vasconcelos. Cengiz Oztireli

可调节渲染保真度的单模型场景绘制能力（即细节层次/LoD）对三维高斯泼溅（3DGS）的实际部署至关重要。现有离散式LoD方法仅能提供有限的操作点，而并发的连续LoD方法虽能实现更平滑的缩放，但在全容量渲染时往往出现明显质量下降，使得LoD成为代价高昂的设计决策。我们提出套娃式高斯泼溅（MGS），该训练框架可在不牺牲全容量渲染质量的前提下，为标准3DGS管线实现连续LoD。MGS通过学得一组有序的高斯分布，使得渲染任意前缀（即前k个泼溅点）都能生成连贯的重建结果，其保真度随预算增加而平滑提升。我们的核心思路是随机预算训练：每次迭代采样随机泼溅预算，同时优化对应前缀和完整高斯集合。该策略仅需两次前向传播且无需改动网络架构。在四个基准测试和六种基线方法上的实验表明，MGS在保持主干网络全容量性能的同时，可实现单模型内连续的速度-质量权衡。针对排序策略、训练目标和模型容量的广泛消融实验进一步验证了设计有效性。

基于OSM的遥感视觉语言模型领域自适应
OSM-based Domain Adaptation for Remote Sensing VLMs

Mar 12

ByStefan Maria Ailuro, Mario Markov, Mohammad Mahdi, Delyan Boychev, Luc Van Gool, Danda Pani Paudel

面向遥感领域优化的视觉语言模型严重依赖特定领域的图像-文本监督数据，然而卫星与航空影像的高质量标注仍然稀缺且制作成本高昂。主流伪标注流程通过从大型前沿模型蒸馏知识来弥补这一缺口，但这种对大型教师模型的依赖不仅成本高昂、限制可扩展性，其性能上限也被教师模型所禁锢。我们提出OSMDA：一种自包含的领域自适应框架以消除这种依赖。我们的核心发现是，具备基础能力的VLM可自成标注引擎——通过将航拍图像与OpenStreetMap渲染图块配对，利用模型的字符识别和图表理解能力，结合OSM海量辅助元数据生成增强型描述文本。随后仅使用卫星影像对模型进行微调，最终获得无需人工标注且不依赖外部强模型的领域自适应VLM（OSMDA-VLM）。我们在10个图像-文本到文本任务基准上展开全面评估，并与9个竞争基线对比。当与真实数据等量混合时，本方法实现了最先进性能，且训练成本显著低于依赖教师模型的方案。这些结果表明：在拥有强基础模型的前提下，与众包地理数据对齐是实现遥感领域自适应的可行且可扩展路径。数据集与模型权重将公开提供。

数学对象推理：基于策略的奖励建模与测试时聚合
Reasoning over mathematical objects: on-policy reward modeling and test time aggregation

Mar 19

ByPranjal Aggarwal, Marjan Ghazvininejad, Seungone Kim, Ilia Kulikov, Jack Lanchantin, Xian Li, Tianjian Li, Bo Liu, Graham Neubig, Anaelia Ovalle, Swarnadeep Saha, Sainbayar Sukhbaatar, Sean Welleck, Jason Weston, Chenxi Whitehouse, Adina Williams, Jing Xu, Ping Yu, Weizhe Yuan, Jingyu Zhang, Wenting Zhao

精确推导数学对象的能力是下游STEM应用（包括数学、物理和化学）的核心需求，这些领域的推理必须最终形成形式化结构表达式。然而，由于自动化评估的便利性，当前语言模型对数学与科学推理的评估严重依赖简化答案格式，如数值或多项选择。本文为提升数学对象推理能力提供三项贡献：（一）构建并发布了用于推导数学对象的训练数据与基准测试集——原理套件；（二）提出了结合强LLM评判器与验证器的训练方案，证明策略内评判器训练能有效提升性能；（三）展示了如何通过策略内训练实现测试时计算的聚合扩展。我们发现Qwen3-235B和o3等强语言模型在原理套件上表现欠佳，而我们的训练方案能在不同LLM骨干网络上带来显著改进，同时提升现有数值与多选任务的成绩，证明了推理能力的跨格式泛化性。

大型语言模型中时间推理的真正控制者：时间标记化还是时间表征？
What Really Controls Temporal Reasoning in Large Language Models: Tokenisation or Representation of Time?

Mar 19

ByGagan Bhatia, Ahmad Muhammad Isa, Maxime Peyrard, Wei Zhao

我们推出MultiTempBench——一个涵盖三种任务（日期运算、时区转换和时间关系抽取）、五种语言（英语、德语、中文、阿拉伯语和豪萨语）及多种历法体系（公历、回历和中国农历）的多语言时序推理基准。该基准通过翻译750道精选英文问题并扩展为受控日期格式变体，构建了15,000个测试样本。我们评估了20个大语言模型，引入经人工严重度校准的多语言日期碎片化比率（mDFR），并对内部时序表征进行几何探测分析。研究发现：时序要素的分词质量是资源依赖型瓶颈——在低资源语言和稀有历法格式中，碎片化会破坏年月日信息的完整性导致准确率崩溃，而高资源场景对数字级拆分通常具有鲁棒性。超越分词层面，交叉混合效应回归表明：在高资源语言中时序线性是时序推理的最强预测因子，而在低资源语言中碎片化程度更具预测力。代码详见：https://github.com/gagan3012/mtb

无提示通用区域提议网络
Prompt-Free Universal Region Proposal Network

Mar 18

ByQihong Tang, Changhan Liu, Shaofeng Zhang, Wenbin Li, Qi Fan, Yang Gao

潜在目标识别对于各类计算机视觉应用中的目标识别与分析至关重要。现有方法通常依赖范例图像、预定义类别或文本描述来定位潜在目标，但这种对图像和文本提示的依赖往往限制了灵活性，制约了在实际场景中的适应性。本文提出了一种新颖的无提示通用区域建议网络（PF-RPN），无需外部提示即可识别潜在目标。首先，稀疏图像感知适配器（SIA）模块通过可随视觉特征动态更新的可学习查询嵌入，对潜在目标进行初步定位。接着，级联自提示（CSP）模块利用自提示的可学习嵌入，以级联方式自主聚合信息丰富的视觉特征，从而识别剩余潜在目标。最后，中心度引导查询选择（CG-QS）模块通过中心度评分网络辅助筛选高质量查询嵌入。本方法仅需少量数据（如MS COCO数据集的5%）即可完成优化，并能直接应用于水下目标检测、工业缺陷检测、遥感图像目标检测等多个领域识别潜在目标，且无需微调。在19个数据集上的实验结果验证了本方法的有效性。代码已开源：https://github.com/tangqh03/PF-RPN。

COT-FM：簇级最优传输流匹配
COT-FM: Cluster-wise Optimal Transport Flow Matching

Mar 11

ByChiensheng Chiang, Kuan-Hsun Tu, Jia-Wei Liao, Cheng-Fu Chou, Tsung-Wei Ke

我们提出COT-FM框架，该框架通过重构流匹配（FM）中的概率路径实现更快速、更稳定的生成。传统FM模型因随机或批量耦合常产生弯曲轨迹，导致离散化误差增大并降低生成质量。COT-FM通过聚类目标样本，并为每个聚类分配通过反向预训练FM模型获得的专用源分布，从而解决这一问题。这种分治策略在不改变模型架构的前提下，实现了更精确的局部传输和显著平直化的向量场。作为即插即用方案，COT-FM在二维数据集、图像生成基准测试及机器人操作任务中持续加速采样并提升生成质量。

修补漏洞：多语言翻译强化学习中奖励机制滥用的缓解策略
Mending the Holes: Mitigating Reward Hacking in Reinforcement Learning for Multilingual Translation

Mar 13

ByYifeng Liu, Siqi Ouyang, Yatish Hosmane Revanasiddappa, Lei Li

大型语言模型在高资源语言对的机器翻译任务中已展现出卓越能力，但在低资源翻译方面的表现仍显不足。现有后训练方法高度依赖高质量平行语料，而这类数据对于低资源语言往往稀缺甚至缺失。本文提出WALAR——一种仅需单语文本的强化训练方法，旨在提升LLM对海量低资源语言的翻译能力，同时保持其在高资源语言上的性能。我们的核心洞见源于对现有基于源语的多语言质量评估模型失效模式（或称"漏洞"）的观察。使用这些QE模型进行强化学习容易放大此类漏洞，导致多语言LLM性能下降。为此，我们开发了词对齐和语言对齐等技术，以弥补WALAR强化学习奖励机制中的漏洞。通过WALAR对支持101种语言翻译的LLM进行持续训练，实验表明新模型在Flores-101数据集的1400个语言方向上大幅超越当前最强开源多语言LLM之一的LLaMAX。

DreamPartGen：基于语义的部件级三维生成技术通过协同隐空间去噪实现
DreamPartGen: Semantically Grounded Part-Level 3D Generation via Collaborative Latent Denoising

Mar 19

ByTianjiao Yu, Xinzhuo Li, Muntasir Wahed, Jerry Xiong, Yifan Shen, Ying Shen, Ismini Lourentzou

理解并生成具有可解释部件结构的3维物体是人类感知与推理的基础能力。然而，现有文本生成3D方法大多忽视部件的语义与功能结构。虽然近期部件感知方法引入了分解机制，但仍局限于几何层面，缺乏语义基础，无法建模部件与文本描述的对应关系及部件间关联。我们提出DreamPartGen框架，实现基于语义的部件感知式文本生成3D。该框架创新性地提出双工部件隐变量（DPL）联合建模各部件几何与外观特征，并构建关系语义隐变量（RSL）捕捉从语言推导的部件间依赖关系。通过同步协同去噪过程强化几何与语义的互一致性，最终实现连贯可解释且贴合文本的3D生成。在多项基准测试中，DreamPartGen在几何保真度与文本-形状对齐方面均达到最先进水平。

VID-AD：视觉干扰下图像级逻辑异常检测数据集
VID-AD: A Dataset for Image-Level Logical Anomaly Detection under Vision-Induced Distraction

Mar 14

ByHiroto Nakata, Yawen Zou, Shunsuke Sakai, Shun Maeda, Chunzhi Gu, Yijin Wei, Shangce Gao, Chao Zhang

工业检测中的逻辑异常检测因视觉外观变化（如背景杂乱、光照偏移和模糊）仍面临挑战，这些干扰常使视觉中心检测器难以识别规则层面的违规。然而现有基准数据集很少提供逻辑状态固定而干扰因素可控的实验设置。为填补这一空白，我们推出VID-AD数据集，用于研究视觉干扰下的逻辑异常检测。该数据集包含10个制造场景与5种采集条件，共构成50个单分类任务和10,395张图像。每个场景通过从数量、长度、类型、位置和关系中选取的两项逻辑约束来定义，异常类型包括单约束违反与组合违反。我们进一步提出基于语言的异常检测框架，仅利用正常图像生成的文本描述进行训练。通过正样本文本与基于矛盾合成的负样本文本进行对比学习，该方法能学习捕捉逻辑属性而非底层特征的嵌入表示。大量实验表明，在评估设置中该方法相对基线模型取得了一致性提升。数据集地址：https://github.com/nkthiroto/VID-AD。

PARSA-Bench：一个全面的波斯语音频-语言模型基准测试平台
PARSA-Bench: A Comprehensive Persian Audio-Language Model Benchmark

Mar 15

ByMohammad Javad Ranjbar Kalahroodi, Mohammad Amini, Parmis Bathayan, Heshaam Faili, Azadeh Shakery

波斯语因其古典诗歌、传统音乐和普遍存在的语码转换现象，在音频理解领域带来独特挑战——现有基准测试均未涵盖这些特性。我们推出PARSA-Bench（波斯语音频推理与语音评估基准），这是首个针对波斯语言文化的大规模音频语言模型评估基准，包含16项任务逾8000个样本，涵盖语音理解、副语言分析及文化音频理解三大维度。其中十项任务为全新引入，包括诗歌格律与风格识别、传统波斯音乐理解及语码转换检测等。实验表明纯文本基线模型持续优于音频模型，暗示现有模型可能未能有效利用超越文本转录的音频特征。文化相关任务揭示出质的差异：所有模型在诗歌韵律检测任务中表现接近随机概率，且不随模型规模扩大而改善，表明当前模型尚未掌握韵律感知能力。数据集已公开于https://huggingface.co/datasets/MohammadJRanjbar/PARSA-Bench。