HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

48 papers found

TransitLM：用于无地图公交路线生成的大规模数据集与基准
TransitLM: A Large-Scale Dataset and Benchmark for Map-Free Transit Route Generation

May 21

ByHanyu Guo, Jiedong Yang, Chao Chen, Longfei Xu, Kaikui Liu, Xiangxiang Chu

162

公共交通路线规划传统上依赖于结构化的地图基础设施和复杂的路由引擎，而现有数据集无法支持模型绕过这一依赖进行训练。我们提出了TransitLM，这是一个包含来自中国四个城市超过1300万条公交路线规划记录的大规模数据集，涵盖120,845个站点和13,666条线路。该数据集作为持续预训练语料库发布，同时提供包含三项评估任务及互补指标的基准数据。实验表明，在TransitLM上训练的大型语言模型能够以高精度生成结构有效的路线，并能在无需任何显式映射的情况下，将任意GPS坐标隐式地关联到合适的站点。这些结果表明，公交路线规划可以完全从数据中学习，从而实现直接从起讫点信息进行端到端、无地图的路线生成。数据集及基准测试可在 https://huggingface.co/datasets/GD-ML/TransitLM 获取，评估代码见 https://github.com/HotTricker/TransitLM。

感知还是偏见：多模态大语言模型能否超越对个性的第一印象？
Perception or Prejudice: Can MLLMs Go Beyond First Impressions of Personality?

May 21

ByCaixin Kang, Tianyu Yan, Sitong Gong, Mingfang Zhang, Liangyang Ouyang, Ruicong Liu, Bo Zheng, Huchuan Lu, Kaipeng Zhang, Yoichi Sato, Yifei Huang

151

多模态大语言模型（MLLMs）正越来越多地被部署在需要人格感知的人机交互场景中，然而现有基准仅通过大五人格分数的数值预测来评估这种能力，从而留下了关键疑问：这些模型究竟是真正通过行为理解来感知人格，还是仅仅依赖表面模式匹配进行预判？我们通过三项贡献弥补这一空白。（i）新任务：我们形式化了“扎根人格推理”（GPR），要求MLLMs通过评分、推理与扎根的链式过程，将每项大五人格评分锚定于可观察证据之上。（ii）新数据集：我们发布了MM-OCEAN（包含1,104个视频，5,320道多选题），该数据集通过多智能体流水线生成并经过人工验证，包含带时间戳的行为观察、基于证据的人格特质分析，以及七类线索扎根多选题。（iii）基准测试与分析：我们设计了三层评估（评分、推理、扎根），并引入四项样本级失效模式指标——偏见率（PR）、虚构率（CR）、整合失败率（IR）和整体扎根率（HR），对27个MLLMs（13个闭源、14个开源）进行了基准测试。分析揭示了一个显著的“偏见鸿沟”：在全部模型中，51%的正确评分并未扎根于检索到的线索，且整体扎根率仅落在0–33.5%之间。这些发现暴露了“得到正确分数”与“凭正确理由推理”之间的脱节，为MLLMs扎根社会认知绘制了发展路线图。

DelTA: 基于可验证奖励的强化学习中的判别性令牌信用分配
DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards

May 20

ByKaiyi Zhang, Wei Wu, Yankai Lin

124

基于可验证奖励的强化学习（RLVR）已成为提升大语言模型推理能力的核心方法。尽管其效果显著，但响应级奖励如何转化为词元级概率变化仍缺乏深入理解。我们提出RLVR更新的判别器视角，表明策略梯度更新方向隐式地充当词元梯度向量的线性判别器，从而决定学习过程中哪些词元概率得到提升或降低。在标准序列级RLVR下，该判别器由优势加权平均词元梯度向量形成的正负侧质心构建。然而，这种质心构建可能被共享的高频模式（如格式词元）主导，从而稀释了那些能更好区分高奖励与低奖励响应的稀疏判别方向。为解决这一局限，我们提出DelTA——一种判别性词元信用分配方法，通过估计词元系数来放大侧特异性词元梯度方向，同时降低共享或弱判别方向的权重。这些系数重新加权一个自归一化的RLVR替代目标，使有效的侧向质心更具对比性，从而重塑RLVR更新方向。在七个数学基准测试中，DelTA在Qwen3-8B-Base和Qwen3-14B-Base上分别比同规模最强基线高出3.26和2.62个平均分。代码生成、不同主干网络以及领域外评估的额外结果进一步证明了DelTA的泛化能力。

π-Bench：评估长周期工作流中的主动式个人助理代理
π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows

May 19

ByHaoran Zhang, Luxin Xu, Zhilin Wang, Runquan Gui, Shunkai Zhang, Haodi Lei, Zihao He, Bingsu He, Chicheng Qin, Tong Zhu, Xiaoye Qu, Yang Yang, Yu Cheng, Yafu Li

个人助理代理（如OpenClaw）的兴起，凸显了大语言模型在支持用户日常生活与工作方面的巨大潜力。在此类场景中，核心挑战在于主动式协助——因为用户初始请求往往含糊不清，且未明确说明重要的需求、约束或偏好。然而，现有基准测试很少评估代理能否在用户明确表达意图前识别并响应此类未明示意图，尤其是在用户需求逐步显现的持续性多轮交互中。为填补这一空白，我们提出π-Bench——一个面向主动式协助的基准测试，包含跨5个领域用户画像的100个多轮任务。通过整合未明示用户意图、任务间依赖关系及跨会话连续性，π-Bench可评估代理在长时交互中预判并响应用户需求的能力，在更贴近真实使用场景的长期轨迹中同步衡量任务完成度与主动性。实验表明：（1）主动式协助仍具挑战性；（2）任务完成与主动性之间存在显著差异；（3）前期交互对后续任务中未明示意图的化解具有重要价值。

全注意力回归：在百步训练内将全注意力转化为稀疏注意力
Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps

May 16

ByYanke Zhou, Yiduo Li, Hanlin Tang, Maohua Li, Kan Liu, Lan Tao, Lin Qu, Yuan Yao, Xiaoxing Ma

大语言模型中的长上下文推理受限于全注意力的二次复杂度瓶颈。现有的高效替代方案通常依赖原生稀疏训练或启发式令牌驱逐，在效率、训练成本和准确性之间产生了不可取的权衡。本研究表明，全注意力大语言模型本质上已经具有稀疏性，仅需极少的适配即可转化为高稀疏模型。我们的方法基于三个观察：（1）仅有少数注意力头真正需要完整的长上下文处理；（2）长距离检索主要由低维子空间主导，使得相关令牌可通过16维索引器高效检索；（3）有效令牌预算随查询动态变化，因此动态top-p选择比固定top-k稀疏化更适用。基于这些洞察，我们提出RTPurbo：仅保留检索头的完整KV缓存，并引入轻量级令牌索引器实现稀疏注意力。通过利用模型内在稀疏性，RTPurbo仅需几百步训练即可实现稀疏化。在长上下文基准和推理任务上的实验表明，RTPurbo在保持近乎无损准确率的同时实现了显著的效率提升，包括在1M上下文长度下预填充加速最高达9.36倍，解码加速约2.01倍。这些结果表明，通过标准的全注意力训练即可获得强大的稀疏推理能力，而无需昂贵的原生稀疏预训练。

ACC：为长上下文训练编译智能体轨迹
ACC: Compiling Agent Trajectories for Long-Context Training

May 21

ByQisheng Su, Zhen Fang, Shiting Huang, Yu Zeng, Yiming Zhao, Kou Shi, Ziao Zhang, Lin Chen, Zehui Chen, Lijun Wu, Feng Zhao

近期智能体领域的进展重新激发了对大语言模型长上下文推理能力的需求。然而，训练大语言模型具备这一能力需要昂贵的长文档整理或启发式上下文合成。我们观察到，智能体在解决问题时会产生大量轨迹，跨多轮调用工具并接收环境观测结果。回答原始问题所需的证据因此分散在这些轮次中，需要整合远距离的上下文片段。然而，标准智能体监督微调会屏蔽工具响应，仅训练轮次级的工具选择，这造成了监督盲区，使得这些分散的信号未被利用。我们提出智能体上下文编译（ACC），该方法将来自搜索、软件工程和数据库查询智能体的轨迹转换为长上下文问答对，将原始问题与跨多轮收集的工具响应和环境观测结果相结合，训练模型直接回答而不使用工具。这使得问题与证据之间的依赖关系显式化，从而能够在不额外标注的情况下直接监督远距离片段的长上下文推理。ACC是一种简单而有效的方法，可与任何现有的长上下文扩展或训练方法结合，提供可扩展的监督微调数据。我们通过MRCR和GraphWalks验证ACC在长距离依赖建模任务上的效果，这些基准测试要求跨轮次的核心指代消解和图遍历。使用ACC训练Qwen3-30B-A3B在MRCR上达到68.3（+18.1），在GraphWalks上达到77.5（+7.6），结果与Qwen3-235B-A22B相当，同时在GPQA、MMLU-Pro、AIME和IFEval上保持通用能力。进一步的机制分析表明，ACC训练的模型展现出任务自适应的注意力重构和专家特化。

PhysX-Omni：面向刚体、可变形体与关节物体的统一仿真就绪物理3D生成
PhysX-Omni: Unified Simulation-Ready Physical 3D Generation for Rigid, Deformable, and Articulated Objects

May 20

ByZiang Cao, Yinghao Liu, Haitian Li, Runmao Yao, Fangzhou Hong, Zhaoxi Chen, Liang Pan, Ziwei Liu

可模拟的物理3D资产因其在下游任务中的广泛适用性而成为一个充满前景的研究方向。然而，现有的大多数3D生成方法要么忽略物理属性，要么局限于单一资产类别（如刚体、可变形或铰接物体）。为解决这些局限，我们提出PhysX-Omni——一个面向多样化资产类型的统一可模拟物理3D生成框架。具体而言，我们为视觉语言模型开发了一种新颖且高效的几何表征方法，该方法可直接编码高分辨率3D结构而无需压缩，显著提升了生成性能。此外，我们构建了首个通用可模拟3D数据集PhysXVerse，涵盖多样化的室内外类别。同时，为全面且灵活地评估生成与理解能力，我们提出PhysX-Bench，其包含六大关键属性：几何、绝对尺度、材质、可操作功能、运动学及功能描述。基于传统指标与PhysX-Bench的广泛实验表明，PhysX-Omni在生成与理解任务中均表现优异。进一步研究还验证了PhysX-Omni在可模拟场景生成与机器人策略学习等应用中的潜力。我们相信PhysX-Omni将显著推动下游应用的发展，尤其是在具身智能与基于物理的仿真领域。

LatentOmni：通过统一视听潜在推理重新思考全模态理解
LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning

May 21

ByYifan Dai, Zhenhua Wu, Bohan Zeng, Daili Hua, Jialing Liu, Bozhou Li, Yuran Wang, Chengzhuo Tong, Hao Liang, Xiaochen Ma, Junbo Niu, Tianyu Guo, Yang Shi, Yue Ding, Yiyan Ji, Bingyin Mei, Yushuo Guan, Yuanxing Zhang, Pengfei Wan, Fangcheng Fu, Wentao Zhang

联合音视频推理对于全模态理解至关重要，然而当前的多模态大语言模型在需要从两种模态中获取细粒度证据进行推理时仍面临挑战。其核心局限性在于：基于显式文本的思维链（CoT）将连续的音视频信号压缩为离散标记，削弱了时间定位能力，并使中间推理过程偏向语言先验。我们认为统一潜在空间是更优的推理媒介，因为它既能保留密集的感知信息，又能兼容自回归生成。基于这一见解，我们提出LatentOmni——一种跨模态推理框架，它将文本推理与音视频潜在状态交错融合。LatentOmni引入特征级监督，使潜在推理状态与任务相关的感知特征对齐，并利用全模态同步位置嵌入（OSPE）保持潜在音频和视频状态的时间一致性。我们进一步构建了LatentOmni-Instruct-35K数据集，包含音视频交错推理轨迹，用于监督潜在空间推理。在多个音视频推理基准上的全面评估表明，LatentOmni在评估的开源模型中取得了最佳性能，并持续优于显式文本思维链基线，证实了潜在空间联合推理是实现更强全模态理解的一条有前景的路径。

Spreadsheet-RL：通过强化学习提升大语言模型智能体在真实电子表格任务上的表现
Spreadsheet-RL: Advancing Large Language Model Agents on Realistic Spreadsheet Tasks via Reinforcement Learning

May 21

ByBanghao Chi, Yining Xie, Mingyuan Wu, Jingcheng Yang, Jize Jiang, Zhaoheng Li, Shengyi Qian, Minjia Zhang, Klara Nahrstedt, Rui Hou, Xiangjun Fan, Hanchao Yu

电子表格系统（如 Microsoft Excel、Google Sheets）在现代数据驱动工作流中扮演着核心角色。随着AI智能体在自动执行复杂任务（例如操控计算机、生成演示文稿）方面能力不断增强，构建基于AI的电子表格智能体已成为一个颇具前景的研究方向。目前大多数电子表格智能体依赖于对通用大语言模型进行专门提示设计；虽然这种设计在简单电子表格操作上具有潜力，但难以管理实际应用中常见的复杂多步骤工作流。我们提出Spreadsheet-RL，一种基于强化学习（RL）的微调框架，旨在真实Microsoft Excel环境中训练专用电子表格智能体。Spreadsheet-RL具备自动化流程，可从在线论坛大规模收集配对的起始-目标电子表格，并包含金融、供应链管理等领域的专用评估任务——这些任务被整合至新的Domain-Spreadsheet基准数据集。此外，它还包括专为多轮强化学习设计的Spreadsheet Gym环境：该环境通过Python沙箱暴露丰富的Excel功能，并配备精炼控制框架，集成完整工具集及针对电子表格任务精心设计的工具路由规则。通过全面实验表明，Spreadsheet-RL显著提升了AI智能体在通用及领域专用电子表格任务上的性能：在SpreadsheetBench上，Qwen3-4B-Thinking-2507模型的Pass@1指标从12.0%提升至23.4%；在我们构建的Domain-Spreadsheet数据集上，Pass@1从8.4%提升至17.2%。这些结果凸显了Spreadsheet-RL在电子表格自动化中的泛化潜力与实用价值，也预示着其推动基于大语言模型的数据接口在日常工作中交互的广阔前景。

WorldKV: 基于世界检索与压缩的高效世界记忆
WorldKV: Efficient World Memory with World Retrieval and Compression

May 21

ByJung Yi, Minjae Kim, Paul Hyunbin Cho, Wooseok Jang, Sangdoo Yun, Seungryong Kim

自回归视频扩散模型已实现实时、行为条件化的世界生成。然而，如何维持一个持久化的世界——回顾之前视角时能生成一致内容——仍是一个开放性问题。全KV缓存注意力虽能保证这种一致性，但会破坏实时性约束：内存占用和注意力成本随展开长度线性增长。滑动窗口推理虽能恢复吞吐量，却牺牲了长期一致性。我们提出WorldKV，一种无需训练框架，包含两个组件：世界检索与世界压缩。世界检索将逐出的KV缓存块存储于GPU/CPU内存，并通过相机/行为对应关系选择性检索场景相关块，将其直接插入原生注意力窗口而无需重新编码。世界压缩通过锚帧的键-键相似性剪枝每个块中的冗余标记，使每块存储减半，从而在固定预算下容纳两倍历史信息。在Matrix-Game-2.0和LingBot-World-Fast上，WorldKV在全KV内存保真度下匹配或超越其性能，吞吐量约为两倍，且无需微调即可与基于记忆训练的基线相竞争。项目页面：https://cvlab-kaist.github.io/WorldKV/

利用人工智能预测科学进展
Forecasting Scientific Progress with Artificial Intelligence

May 21

BySean Wu, Pan Lu, Yupeng Chen, Jonathan Bragg, Yutaro Yamada, Peter Clark, David Clifton, Philip Torr, James Zou, Junchi Yu

人工智能（AI）日益嵌入科学发现过程，但其能否预测科学进展仍不明确。为探究这一问题，我们提出了一种基于时间约束的评估框架，用于在可控知识条件下预测科学进展。我们引入了CUSP（基于截止时间条件的未知科学进展）基准——一个跨学科、事件级别的评测体系，通过可行性评估、机制推理、生成式解决方案设计及时间预测，系统评估AI系统的科学预测能力。在对4760个科学事件的观察中，我们发现当前前沿模型存在系统性的、领域依赖的局限性。尽管模型能够从竞争性候选方向中识别出合理的研究路径，但无法可靠预测科学进展是否实现，且系统性错误估计其发生时间。不同领域间的表现高度异质：AI领域进展的时间可预测性高于生物学、化学和物理学。模型表现与事件发生于训练数据截止时间前后无关，表明这些局限性不能仅归因于训练数据中的知识暴露。在受控信息访问条件下，增加截止时间前的知识可提升表现，但无法弥合与全信息场景之间的差距——这一差距在高被引进展中尤为显著。模型还表现出系统性过度自信和强烈响应偏差，显示出不确定性估计的不可靠性。综上，当前AI系统作为科学进展预测工具仍存在显著不足。已有知识的获取并未转化为可靠的预测能力，且模型更多受益于事件后信息而非前瞻性预测。

SEGA：面向扩散Transformer中分辨率外推的频谱能量引导注意力机制
SEGA: Spectral-Energy Guided Attention for Resolution Extrapolation in Diffusion Transformers

May 21

ByJavad Rajabi, Kimia Shaban, Koorosh Roohi, David B. Lindell, Babak Taati

扩散变换器（DiTs）已成为文本到图像生成领域的主流架构，但在生成超过训练分辨率的图像时，其性能会显著下降。现有免训练方法通过修改推理过程中的注意力行为来缓解这一问题，通常采用旋转位置编码（RoPE）外推结合注意力缩放策略。然而，这些方法对具有不同频率特征的RoPE分量施加统一且内容无关的缩放，导致全局结构保持与局部细节恢复之间的权衡。我们提出SEGA——一种免训练方法，该方法根据每个去噪步骤中潜变量的空间-频率结构，动态调整各RoPE分量的注意力缩放。这种自适应缩放能够同时提升结构连贯性与细节保真度。实验表明，SEGA在多种目标分辨率下持续改善高分辨率合成效果，性能优于当前最先进的免训练基线方法。

Sensor2Sensor：面向自动驾驶的跨具身传感器转换
Sensor2Sensor: Cross-Embodiment Sensor Conversion for Autonomous Driving

May 21

ByJiahao Wang, Bo Sun, Yijing Bai, Vincent Casser, Songyou Peng, Zehao Zhu, Meng-Li Shih, Xander Masotto, Shih-Yang Su, Kanaad V Parvate, Tiancheng Ge, Linn Bieske, Dragomir Anguelov, Mingxing Tan, Chiyu Max Jiang

自动驾驶系统（ADS）的稳健训练与验证需要海量、多样化的数据集。由自动驾驶车辆（AV）车队采集的专有数据虽具有高保真度，但其规模、传感器配置的多样性、地理覆盖范围以及长尾行为场景的覆盖均存在局限。相比之下，来自行车记录仪等公开渠道的野外数据具有庞大的规模和丰富的多样性，能够捕获关键的长尾场景和新环境。然而，这类非结构化的野外视频数据无法直接用于需要结构化多模态传感器输入的ADS验证与训练。为弥合这一数据鸿沟，我们提出Sensor2Sensor——一种新颖的生成式建模范式，可将野外单目行车记录仪视频转化为高保真度的多模态传感器套件（AV日志），其中包含多视角相机图像与激光雷达点云。其核心挑战在于缺少成对训练数据。我们通过4D高斯泼溅（4DGS）重建与新颖视角渲染技术，将真实AV日志转换为行车记录仪风格的视频，从而解决该问题。Sensor2Sensor随后采用扩散架构执行生成式转换。我们基于生成传感器数据的保真度与真实感进行了全面的定量评估。通过将具有挑战性的野外互联网视频和行车记录仪图像转化为逼真的多模态数据格式，我们展示了Sensor2Sensor的实际应用价值，进一步为自动驾驶开发解锁了庞大的外部数据源。

FlowLong：基于流形约束Tweedie匹配的推理时长视频生成
FlowLong: Inference-time Long Video Generation via Manifold-constrained Tweedie Matching

May 20

ByJangho Park, Geon Yeong Park, Gihyun Kwon, Jong Chul Ye

将视频扩散模型的生成范围扩展到长序列仍然是一个长期存在且重要的挑战。现有的免训练方法可分为两类：双向模型的扩展，这类方法与特定架构紧密耦合，且随着生成长度增加会出现质量退化；以及自回归模型，这类模型因暴露偏差积累漂移误差，容易产生重复的运动模式。为解决这些问题，我们提出了一种新颖而简单的推理时长视频生成方法，该方法与架构无关且无需额外训练。我们的方法通过重叠滑动窗口生成长视频，利用Tweedie匹配混合相邻窗口的预测干净样本，以在重叠区域同时施加流形约束和时间一致性。随后，在Tweedie匹配修正后的高噪声阶段注入新噪声，通过随机早期采样同步各窗口轨迹，再过渡到确定性ODE采样以保持精细的视觉保真度。将该方法应用于多种视频生成模型后，生成的视频长度比原生窗口长度长数倍，同时在时间一致性和视觉质量上优于现有的免训练和自回归基线方法，且无需任何微调即可扩展到音视频联合生成与文本到三维高斯泼溅（text-to-3DGS）。

SpaceDG：视觉退化下的空间智能基准测试
SpaceDG: Benchmarking Spatial Intelligence under Visual Degradation

May 21

ByXiaolong Zhou, Yifei Liu, Ziyang Gong, Jiarui Li, Qiyue Zhao, Muyao Niu, Yuanyuan Gao, Le Ma, Xue Yang, Hongjie Zhang, Zhihang Zhong

多模态大语言模型（MLLMs）在空间智能领域取得了快速进展，然而现有的空间推理基准测试大多假设输入为原始视觉数据，忽略了实际部署中常见的图像退化现象，如运动模糊、低光照、恶劣天气、镜头畸变和压缩伪影。这引出了一个根本性问题：当视觉观测不完美时，当前MLLMs的空间智能有多鲁棒？为回答该问题，我们提出了SpaceDG——首个面向退化感知的规模化空间理解数据集。该数据集基于物理驱动的退化合成引擎构建，该引擎将退化形成过程嵌入3D高斯溅射（3DGS）渲染中，实现了九种退化类型的逼真模拟。最终数据集包含来自近1000个室内场景的大约100万问答对。我们进一步推出了SpaceDG-Bench，一个经人工验证的基准测试，涵盖11个推理类别和9种视觉退化类型的1102道问题，生成了超过1万个VQA实例。对25个开源和闭源MLLMs的评估表明，视觉退化会持续且显著地损害空间推理能力，暴露出关键鲁棒性差距。最后，我们证明在SpaceDG上进行微调能显著提升退化鲁棒性，甚至在退化条件下超越人类表现，同时不影响干净图像上的性能，这凸显了退化感知训练对实现鲁棒空间智能的潜力。

Maestro：强化学习编排层级化模型-技能集成
Maestro: Reinforcement Learning to Orchestrate Hierarchical Model-Skill Ensembles

May 21

ByJinyang Wu, Guocheng Zhai, Ruihan Jin, Yuhao Shen, Zhengxi Lu, Fan Zhang, Haoran Luo, Zheng Lian, Zhengqi Wen, Jianhua Tao

大语言模型（LLMs）与模块化技能的普及，使自主智能体具备了日益强大的能力。现有框架通常依赖单一的大型语言模型及固定逻辑来调用这些技能，这引发了关键瓶颈：不同模型在多个领域各具优势，但当前框架无法充分利用模型与技能间的互补性，从而限制了其在下游任务上的性能。本文提出Maestro（多模态智能体专家技能目标强化编排框架）——一种由强化学习驱动的编排框架，将异构多模态任务重塑为基于层次化模型-技能注册表的序列决策过程。与将全部知识集中到单一模型不同，Maestro训练了一个轻量级策略，动态组合冻结专家模型与双层技能库的集成体，在每一步决策是否调用外部专家、选择哪一对模型-技能组合，以及何时终止。该策略通过基于结果的强化学习进行优化，无需步骤级监督。我们在涵盖数学推理、图表理解、高分辨率感知及领域特定分析等十个代表性多模态基准上评估Maestro。仅使用4B大小的编排器，Maestro便取得了70.1%的平均准确率，超越了GPT-5（69.3%）和Gemini-2.5-Pro（68.7%）。关键在于，学到的协调策略能够泛化到未见过的模型和技能，无需重新训练：在注册表中加入域外专家后，Maestro在四个具有挑战性的基准上平均得分59.5%，超越了所有闭源基线。Maestro同时保持了较高的计算效率与低延迟。源代码已开源至 https://github.com/jinyangwu/Maestro。

Q-ARVD: 量化自回归视频扩散模型
Q-ARVD: Quantizing Autoregressive Video Diffusion Models

May 20

BySiao Tang, Xinyin Ma, Gongfan Fang, Xingyi Yang, Xinchao Wang

自回归视频扩散模型（ARVDs）已成为流式视频生成的一种有前景的架构，为实时交互式视频生成和世界建模铺平了道路。尽管潜力巨大，但ARVDs高昂的推理成本仍是实际部署的主要障碍，因此模型量化成为提升效率的自然方向。然而，针对ARVDs的量化研究尚未充分展开。实证分析表明，直接沿用为标准扩散Transformer设计的现成量化方案应用于ARVDs会导致次优性能，这揭示了其与双向扩散模型截然不同的量化特性。本文中，我们识别出量化ARVDs面临的两大关键挑战：挑战一：帧间量化敏感性极度不均衡。自回归生成过程中的误差累积会导致各帧的量化敏感性呈现严重偏态分布，遵循指数式衰减模式。挑战二：权重中显著且异质的异常值模式。权重分布中存在显著的异常值通道，其模式在不同层类型和模块深度间差异巨大。为解决上述问题，我们提出Q-ARVD，一个用于精确量化ARVDs的新框架。措施一：针对帧间敏感性极度不均衡问题，Q-ARVD在量化目标中引入最终质量感知的帧加权机制。措施二：为防止异质异常值导致性能退化，Q-ARVD引入异常值感知的自适应双尺度量化，可自动检测任意层中异常值通道的存在与数量，并将其隔离以保护正常通道。大量实验证明了Q-ARVD的优越性。

无监督过程奖励模型
Unsupervised Process Reward Models

May 11

ByArtyom Gadetsky, Maxim Kodryan, Siba Smarak Panigrahi, Hang Guo, Maria Brbic

过程奖励模型（PRMs）通过提供细粒度、逐步骤的监督，成为引导大语言模型推理的强大机制。然而，这种有效性伴随着高昂代价：PRMs需要每个推理步骤的专家标注，使得其成本高昂且难以扩展。本文提出一种无需人工监督的无监督PRM（uPRM）训练方法，既不需要逐步骤标注，也不需要最终答案的真实性验证。该方法的核心思想是定义一个基于大模型逐词概率的评分函数，该函数可联合评估一批推理轨迹中首个错误步骤的候选位置。我们在多种场景下验证了uPRM的有效性：（i）在ProcessBench数据集上识别首个错误步骤时，uPRM相较于"大模型作为裁判"方法实现了高达15%的绝对准确率提升；（ii）作为测试时扩展的验证器，uPRM性能与有监督PRM相当，且相比多数投票基线方法提升了6.9%；（iii）作为强化学习中的奖励信号时，uPRM在整个训练过程中比使用真实标签训练的有监督PRM实现了更稳健的策略优化。总体而言，我们的研究结果为实现复杂推理任务的可扩展奖励建模开辟了一条新路径。

门控DeltaNet-2：线性注意力中擦除与写入的解耦
Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention

May 21

ByAli Hatamizadeh, Yejin Choi, Jan Kautz

线性注意力用固定大小的循环状态替代了softmax注意力的无界缓存，从而将序列混合复杂度降至线性时间，解码内存降至常数。难点不仅在于遗忘什么，更在于如何编辑这一压缩记忆而不破坏已有关联。Delta规则模型在写入新值前先减去当前读取，而Kimi Delta注意力（KDA）通过通道级衰减来强化遗忘。然而，主动编辑仍然使用单个标量门来控制两个不同操作：在键（key）侧擦除多少旧内容，以及在值（value）侧提交多少新内容。我们提出Gated DeltaNet-2，它继承了自适应遗忘与通道级衰减，同时解决了Gated DeltaNet与KDA共有的局限——擦除与写入之间的标量绑定。Gated Delta Rule-2通过通道级擦除门b_t和通道级写入门w_t将这两个角色分离：当两个门退化为相同标量时退化为KDA，当衰减也退化为标量时退化为Gated DeltaNet。我们推导了快速权重更新视角、一种将通道级衰减吸收为非对称擦除因子的分块WY算法，以及一种保持高效并行训练的门控感知反向传播。在1.3B参数、100B FineWeb-Edu token上训练后，Gated DeltaNet-2在语言建模、常识推理和检索任务中全面超越了Mamba-2、Gated DeltaNet、KDA和Mamba-3变体，取得了最强整体结果。其优势在长上下文RULER“大海捞针”基准测试中最为显著，在所评估的多键检索设置上取得了提升，并且在循环与混合两种设置下均保持强劲性能。代码已开源：https://github.com/NVlabs/GatedDeltaNet-2。

GenEvolve：通过工具编排的视觉经验蒸馏实现自我演进的图像生成智能体
GenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation

May 20

BySixiang Chen, Zhaohu Xing, Tian Ye, Xinyu Geng, Yunlong Lin, Jianyu Lai, Xuanhua He, Fuxiang Zhai, Jialin Gao, Lei Zhu

开放图像生成不再是一个简单的提示词到图像的问题。高质量生成往往需要智能体将模型的内生生成能力与外部资源相结合。随着请求日益多样化和高要求，我们旨在开发一种通用的图像生成智能体，它能够通过轨迹自我进化，并在各种生成挑战中更有效地使用工具。为此，我们提出了GenEvolve——一个基于工具编排的视觉经验蒸馏的自进化框架。在GenEvolve中，每次生成尝试被建模为一条工具编排轨迹，智能体在此过程中收集证据、选择参考、调用生成技能，并将其组合成提示-参考程序。与现有主要依赖图像级标量奖励的智能体生成方法不同，GenEvolve针对同一请求比较多条轨迹，并将最佳与最差差异抽象为结构化视觉经验，仅提供给特权教师分支。受在线策略自蒸馏启发，视觉经验蒸馏提供了密集的令牌级监督，帮助学生智能体内化更优的搜索、知识激活、参考选择和提示构建。我们进一步构建了GenEvolve-Data和GenEvolve-Bench。在公开基准和GenEvolve-Bench上的实验表明，相对于强基线取得了显著改进，在当前图像生成框架中达到了最先进的性能。我们的网站如下：https://ephemeral182.github.io/GenEvolve/

KVServe：面向通信高效的解耦大语言模型服务的服务感知KV缓存压缩
KVServe: Service-Aware KV Cache Compression for Communication-Efficient Disaggregated LLM Serving

May 13

ByZedong Liu, Xinyang Ma, Dejun Luo, Hairui Zhao, Bing Lu, Wenjing Huang, Yida Gu, Xingchen Liu, Zheng Wei, Jinyang Liu, Dingwen Tao, Guangming Tan

大语言模型（LLMs）在生产环境中被广泛采用，将推理系统推向其性能极限。分离式LLM服务（例如PD分离和KV状态分离）提升了可扩展性和成本效率，但也使得KV成为跨越网络和存储边界的显式负载，导致KV成为端到端的主要瓶颈。现有的KV压缩通常是静态的运行时配置，尽管生产服务环境在工作负载组合、带宽以及SLO/质量预算方面随时间变化。因此，固定选择可能并非最优，甚至会增加延迟。我们提出KVServe，这是首个面向分离式LLM服务的服务感知自适应KV通信压缩框架：KVServe（1）将KV压缩统一到一个包含新组件和跨方法重组的模块化策略空间中；（2）引入贝叶斯性能分析引擎，高效搜索该空间并提炼出三维Pareto候选集，将离线搜索开销降低50倍；（3）部署服务感知在线控制器，结合分析延迟模型与轻量级Bandit算法，在约束条件下选择配置并纠正离线到在线的偏差。通过集成到vLLM中并在多种数据集、模型、GPU和网络上进行评估，KVServe在PD分离服务中实现了高达9.13倍的JCT加速，在KV分离服务中实现了高达32.8倍的TTFT降低。

使用代理指标预测大语言模型的下游性能
Forecasting Downstream Performance of LLMs With Proxy Metrics

May 18

ByArkil Patel, Siva Reddy, Marius Mosbach, Dzmitry Bahdanau

语言模型开发的进展往往依赖于比较性决策：采用哪种架构、使用哪个预训练语料库、应用何种训练方案。要做出明智的决策，需要可靠的性能预测，然而两种常用的信号存在根本性局限。交叉熵损失与下游能力对齐性差，而直接下游评估成本高昂、数据稀疏，且在训练早期往往信息量不足。为此，我们提出通过聚合候选模型在专家撰写的解决方案上的下一个词元分布中的词元级统计量（如熵、top-k准确率和专家词元排名）来构建代理指标。在三种场景下，我们的代理指标始终优于基于损失和计算量的基线方法：1）跨家族模型选择时，它们对异构推理模型群体的排名平均斯皮尔曼相关系数达到0.81（而交叉熵损失仅为0.36）；2）预训练数据选择时，它们能以约一万分之一的计算量（相比直接评估）可靠地对目标模型的25个候选语料库进行排名，将帕累托前沿推向超越现有方法；3）训练时预测时，它们能在18倍计算量跨度内外推下游准确率，误差约为现有替代方案的一半。综合这些结果，专家轨迹是评估模型能力的广泛有用信号源，可在整个模型开发生命周期中实现可靠的性能预测。

一句一剧：基于多智能体系统的个性化短剧生成
One Sentence, One Drama: Personalized Short-Form Drama Generation via Multi-Agent Systems

May 21

ByYufei Shi, Weilong Yan, Naixuan Huang, Yucheng Chen, Chenyu Zhang, Tao He, Si Yong Yeo, Ming Li

现有数字短剧制作方法通常依赖于一次性LLM生成的剧本与松散耦合的流水线，难以满足短剧生成的三个关键需求：(1) 叙事节奏——导致悬念设置薄弱、情节推进不足、结局缺乏吸引力；(2) 空间一致性——造成场景布局漂移、角色位置在不同片段间不一致；(3) 制作级质量控制——需要在剧本和视觉阶段进行大量人工审核与修正。我们提出“一句话，一部剧”（One Sentence, One Drama）——一种分层多智能体框架，通过结构化中间模块和迭代优化，将用户单句创意转化为完整制作的短剧。该方法基于三个核心组件：(1) 基于多智能体辩论的情节生成模块，确保短剧节奏与叙事连贯性；(2) 基于3D场景的首帧生成机制，建立共享空间参照系，保证不同片段间角色位置与场景布局的一致性；(3) 多阶段审核循环，在剧本、视觉和视频生成阶段进行全面错误检测与定向修正。我们还引入场景级背景音乐匹配与场景转换规划，以提升观众的沉浸式体验。为系统评估该任务，我们提出Short-Drama-Bench基准，该基准在标准视频质量指标基础上扩展了短剧专属评价标准。实验结果表明，我们的方法在叙事质量、跨片段一致性及整体观看体验上显著优于现有流水线。

ClinSeekAgent：面向智能临床推理的自动化多模态证据检索
ClinSeekAgent: Automating Multimodal Evidence Seeking for Agentic Clinical Reasoning

May 19

ByJuncheng Wu, Letian Zhang, Yuhan Wang, Haoqin Tu, Hardy Chen, Zijun Wang, Cihang Xie, Yuyin Zhou

大型语言模型（LLMs）及智能体系统在临床决策支持方面已展现出潜力，但现有工作大多假设证据已被预先整理并直接交付给模型。然而，真实临床工作流程要求智能体能够主动搜寻、迭代规划并综合来自异构来源的多模态证据。本文提出ClinSeekAgent，一个面向动态多模态证据搜寻的自动化智能体框架，将范式从被动证据消费转变为主动证据获取。仅需给定临床查询及对原始数据源的访问权限，ClinSeekAgent便可通过查询医学知识库、导航原始电子健康记录（EHR）以及调用医学影像工具来收集证据；随着新信息出现而细化假设；并将收集到的证据整合为基于实据的临床决策。ClinSeekAgent既可作为前沿大语言模型的推理时智能体，也可作为训练时的流程管道，用于将高质量智能体轨迹蒸馏至紧凑型开源模型。为验证其推理时有效性，我们构建了ClinSeek-Bench基准，该基准将基于预设固定证据的推理任务与基于原始临床数据的自动化证据搜寻任务进行配对。在纯文本EHR任务中，ClinSeekAgent将Claude Opus 4.6的整体F1值从60.0提升至63.2，将MiniMax M2.5从43.1提升至47.3，且在9个评估的宿主模型中有7个在风险预测上获得正向收益。在多模态任务中，ClinSeekAgent将Claude Opus 4.6从47.5提升至62.6（+15.1）；所有评估模型在三个与胸部X光（CXR）相关的任务组中均实现提升。我们进一步验证了ClinSeekAgent作为训练管道的有效性：通过将智能体证据搜寻轨迹蒸馏至ClinSeek-35B-A3B，该模型在现有AgentEHR-Bench基准上取得了34.0的平均F1值，较其Qwen3.5-35B-A3B基线提升+11.9分，并接近Claude Opus 4.6的水平。

快速采样：基于泰勒级数的时间意外选择
Swift Sampling: Selecting Temporal Surprises via Taylor Series

May 21

ByDahye Kim, Bhuvan Sachdeva, Karan Uppal, Naman Gupta, Vineeth N. Balasubramanian, Deepti Ghadiyaram

长视频中的大部分帧存在冗余，关键信息往往蕴含在时间上的意外时刻——即实际视觉特征偏离其预测演进模式的瞬间。受人类大脑预测编码机制的启发，我们提出Swift Sampling，一种优雅且无需训练的帧选择算法，能够自动识别视频中的高信息量时刻。具体而言，我们将视频建模为视觉隐空间中的可微轨迹，计算其特征的速度与加速度，进而利用泰勒展开预测后续帧的预期轨迹。与预测流形发生显著偏离的帧被判定为时间意外帧，并纳入采样。不同于此前依赖辅助网络或视频特定超参数调优的免训练方法，Swift Sampling极其轻量，仅引入相对于基线模型0.02倍的额外计算成本，相比主流方法开销降低30倍。在三个长视频问答基准测试及十项不同下游任务中，Swift Sampling在性能上全面优于均匀采样及现有查询无关基线方法，在帧预算受限的长视频场景中尤为突出，可将准确率提升高达12.5个百分点。

通过结构化表格发现的多样化模型发现
Diversed Model Discovery via Structured Table Discovery

May 21

ByZhengyuan Dong, Renée J. Miller

模型卡片通过文本描述与结构化工件（包括性能、配置和数据集表格）相结合的方式来描述模型行为。现有的模型搜索系统主要依赖文本层面的语义相似度，这可能导致结果集同质化，限制了替代方案的探索空间。我们认为模型搜索本质上是比较性的：用户需要的是任务对齐但在可测量维度上存在差异的模型。我们假设这种平衡需要通过检索精简的高质量证据（而非冗长描述）来实现，而这类证据大多集中在结构化的表格中。为此，我们提出基于ModelTables基准的表驱动模型搜索框架StructuredSemanticSearch。面对查询时，StructuredSemanticSearch将用于任务对齐的语义基线方法与结构感知管道相结合，通过可并性、可连接性和关键词搜索等表发现算子，挖掘与查询相关的模型卡片表格。检索到的表格在受控的top-k预算下映射回模型卡片，从而支持基于文本的检索与基于表格的检索之间的公平比较。超越基础检索能力，StructuredSemanticSearch通过方向感知集成技术，将表格整合适配至模型表格领域，从部分重叠甚至转置的证据表中生成紧凑的集成视图。在评估方面，我们引入基于要点、可审计的评估协议：从模型卡片中提取紧凑证据项，将查询匹配到条件或意图特定的要点，并衡量检索到的模型卡片候选集上的证据覆盖率与多样性。该协议还为动态模型库中的近似、基于证据的标注提供可扩展路径。在597个模型推荐查询上的实验表明，结构感知管道相比语义基线方法在要点覆盖率上有所提升。

基于自调控模拟规划的高效智能体推理
Efficient Agentic Reasoning Through Self-Regulated Simulative Planning

May 21

ByMingkai Deng, Jinyu Hou, Lara Sá Neves, Varad Pimpalkhute, Taylor W. Killian, Zhengzhong Liu, Eric P. Xing

一个智能体应如何决定何时以及如何规划？主流方法是将智能体构建为具有自适应计算能力（例如思维链）的反应式策略，通过端到端训练期望规划能力隐式涌现。由于无法控制规划的存在性、结构或深度，这类系统会显著延长推理链，导致令牌使用效率低下且无法稳定提升准确性。我们认为，高效的智能体推理需要将决策过程分解为三个系统：模拟推理（System II），通过世界模型将思考建立在未来状态预测的基础上；自我调节（System III），通过学习型配置器决定何时规划及规划深度；以及反应式执行（System I），负责细粒度的动作执行。模拟推理为跨领域任务提供统一规划能力，无需针对每个领域进行工程定制，而自我调节确保仅在必要时才调用规划器。为验证这一框架，我们开发了SR^2AM（自我调节模拟推理智能体大语言模型），将两者作为大语言模型思维链中的不同阶段实现，并以LLM作为世界模型。我们探索了两种实现方式：基于提示的多模块系统的决策记录（v0.1版本），以及从预训练推理型LLM的轨迹中重构结构化规划（v1.0版本），通过监督学习与强化学习进行训练。在数学、科学、表格分析和网络信息检索等任务中，v0.1-8B和v1.0-30B的Pass@1指标分别达到与120-355B参数系统和685B-1T参数系统相当的水平，而v1.0-30B的推理令牌消耗比同类智能体LLM减少25.8%-95.3%。强化学习使平均规划深度提升22.8%，但规划频率仅增长2.0%，表明模型学会了更长远规划而非更频繁规划。更广泛地看，这种学习型自我调节体现了一个原则：我们预期该原则将超越规划范畴，延伸至智能体如何自主管理自身学习与适应过程。

结合运动、几何与语义自适应的分割一切方法用于复杂非线性视觉目标跟踪
Segment Anything with Motion, Geometry, and Semantic Adaptation for Complex Nonlinear Visual Object Tracking

May 21

ByDeyi Zhu, Yuji Wang, Yong Liu, Yansong Tang, Bingyao Yu, Jiwen Lu, Jie Zhou

传统的视觉目标跟踪（VOT）方法通常依赖于特定任务的监督训练，这限制了其对未见物体的泛化能力以及在存在干扰物、遮挡和非线性运动的挑战场景下的表现。近年来，以 SAM 2 为代表的视觉基础模型，通过大规模预训练学习了强大的视频理解先验，为构建更鲁棒、更具泛化性的跟踪器提供了有前景的基础。然而，直接将 SAM 2 应用于 VOT 仍非最优，因为它既未显式建模目标的运动动力学，也未强制跨帧的几何与语义一致性——而这些对于可靠的跟踪至关重要。为解决这一问题，我们提出了 SAMOSA，一种新的跟踪框架，通过显式利用运动、几何和语义线索，将 SAM 2 适配到复杂的 VOT 场景中。具体而言，我们引入了一个轻量级非线性运动预测器来建模目标动态，并指导掩码选择及记忆过滤。我们进一步利用语义线索检测目标偏移并从跟踪失败中恢复，同时将几何线索作为结构约束融入，以提高跟踪稳定性。通过这种方式，SAMOSA 弥合了 SAM 2 隐含的视频理解先验与显式面向跟踪的建模之间的差距。大量实验表明，SAMOSA 在通用基准测试上始终优于最先进的基于 SAM 2 的方法，展现出比监督式 VOT 方法更强的泛化能力，并在典型非线性运动场景的反无人机数据集上取得了显著提升。我们的代码已开源在 https://github.com/DurYi/SAMOSA。

贝尼尼：潜在语义规划用于视频扩散
Bernini: Latent Semantic Planning for Video Diffusion

May 21

ByBernini Team, Chenchen Liu, Junyi Chen, Lei Li, Lu Chi, Mingzhen Sun, Zhuoying Li, Yi Fu, Ruoyu Guo, Yiheng Wu, Ge Bai, Zehuan Yuan

多模态大语言模型（MLLMs）与扩散模型各自已达到显著成熟度：前者在异构多模态输入推理中表现出色，具备强大的语义锚定能力；后者则能以照片级逼真度合成图像与视频。我们认为，这两类模型可通过简单的分工实现统一：MLLMs负责语义规划，而扩散模型则依据高层语义指引与底层视觉特征渲染像素。基于这一思路，我们提出 Bernini——一个统一的视频生成与编辑框架。其中，基于MLLM的规划器直接在ViT嵌入空间中预测目标语义表示；基于DiT的渲染器则根据该规划结果，结合文本特征（并在编辑任务中辅以源VAE特征以保留细节）合成像素。由于语义充当接口，规划器与渲染器可分别训练，仅需少量联合微调，从而在保持训练高效的同时保留两个组件的预训练优势。为更好处理多视觉输入，我们引入了分段感知3D旋转位置编码（SA-3D RoPE），并在规划器中融入思维链推理，以将理解更有效地迁移至生成过程。Bernini在广泛的视频生成与编辑基准测试中均达到了最先进性能，而MLLM预训练的理解能力也转化为在挑战性编辑任务上的强大泛化能力。

SceneAligner：基于三维的真实场景平面图定位
SceneAligner: 3D-Grounded Floorplan Localization in the Wild

May 21

ByJunhyeong Cho, Ruojin Cai, Hadar Averbuch-Elor

许多公共建筑会提供带有“您在此处”标识的楼层平面图，帮助访客确定方向。平面图定位旨在通过计算方式复制这一能力，即确定视觉观察在平面图中的拍摄位置。然而，现有方法通常假设环境受控且规模较小，并依赖精确的矢量化平面图，这限制了其在大型建筑和栅格化平面图中的适用性。在这项工作中，我们提出了一种在现实场景中执行平面图定位的方法，通过将该任务基于场景重建的3D表示来实现。给定一个无约束的图像集合，我们的方法首先重建一个重力对齐的3D场景，并将其投影为二维密度图，作为平面图的替代表示。随后，平面图定位被转化为通过二维相似变换将该替代表示与输入平面图对齐的问题。为弥合密度图与建筑平面图之间的外观差异，我们采用一个2D基础模型来学习跨模态对应关系，并引入了一种微调策略，该策略在保持结构一致性的同时促进语义对齐的匹配。大量实验表明，我们的方法相比先前方法有显著提升，即使在极端稀疏的设置中（例如仅有单张输入图像）也是如此。我们的代码和数据将公开提供。

AutoRubric-T2I：鲁棒的基于规则的奖励模型用于文本到图像对齐
AutoRubric-T2I: Robust Rule-Based Reward Model for Text-to-Image Alignment

May 20

ByKuei-Chun Kao, Daixuan Huo, Yuanhao Ban, Cho-Jui Hsieh

将文本到图像（T2I）生成模型与人类偏好对齐越来越依赖于图像奖励模型，这些模型根据提示对齐度和感知质量对生成图像进行评分或排序。现有的奖励模型通常在大规模人类偏好语料库上作为布拉德利-特里（BT）偏好模型进行训练，这使得它们训练成本高、难以适应且评估标准不透明。与此同时，视觉-语言模型（VLM）评估者可以通过文本评分规则提供更细粒度的评估，但其手动设计或启发式生成的评分规则可能无法可靠地反映人类偏好。本文提出AutoRubric-T2I，这是T2I领域首个自动合成并选择显式评分规则以指导VLM评估者的规则学习框架。AutoRubric-T2I首先将偏好对中的推理轨迹合成为候选规则，然后使用VLM评估者在每条规则下对成对图像进行评分，生成用于偏好学习的成对规则-分数差异。为去除噪声和冗余规则，我们进一步采用L1正则化逻辑回归精炼器，选择最具区分力的前N条规则。大量评估表明，AutoRubric-T2I使用不到0.01%的标注偏好数据即可生成高质量、可解释的奖励信号，大幅减少了大规模奖励模型训练的需求。在MMRB2等图像奖励基准上，AutoRubric-T2I超越了强奖励模型基线。我们进一步将AutoRubric-T2I作为强化学习奖励应用于下游T2I任务（包括TIIF和UniGenBench++），在扩散模型的Flow-GRPO流程中，相比标量奖励模型提升了生成质量。

TerminalWorld：在真实终端任务上对智能体进行基准测试
TerminalWorld: Benchmarking Agents on Real-World Terminal Tasks

May 21

ByZhaoyang Chu, Jiarui Hu, Xingyu Jiang, Pengyu Zou, Han Li, Chao Peng, Peter O'Hearn, Earl T. Barr, Mark Harman, Federica Sarro, He Ye

我们推出了**TerminalWorld**，一个可扩展的数据引擎，能够自动从“野外”终端记录中逆向工程出高保真度的评估任务。通过处理80,870条终端记录，该引擎生成了一个包含1,530个经过验证的任务的完整基准测试集，涵盖18个真实世界类别，从短期的日常操作到超过50个步骤的工作流程，并覆盖了1,280个独特命令。从中，我们精心挑选了一个包含200个代表性任务、经过人工审查的**Verified**子集。在**TerminalWorld-Verified**上对八个前沿模型和六个智能体进行全面基准测试表明，当前系统在处理真实的终端工作流程时仍然存在困难，最高通过率仅为62.5%。此外，**TerminalWorld**捕捉到了与现有专家策划的基准测试（如**Terminal-Bench**）不同的真实终端能力，与这些基准测试的分数相关性较弱（皮尔逊相关系数r=0.20）。该自动化引擎使得**TerminalWorld**在构建上具备真实性和可扩展性，从而能够随着开发者实践的发展，在真实终端环境中评估智能体。数据和代码可在 https://github.com/EuniAI/TerminalWorld 获取。

训练大型语言模型以预测临床事件
Training Large Language Models to Predict Clinical Events

May 12

ByBenjamin Turtel, Paul Wilczewski, Kris Skotheim

纵向临床笔记蕴含患者随时间演变的丰富证据，但将这一信号转化为临床预测的训练监督仍然具有挑战性。我们通过将按时间排序的MIMIC-III笔记转化为包含患者既往病史、关于可能未来事件的自然语言问题以及从后续记录中解析出的标签的示例，将前瞻学习扩展到临床预测领域。这一过程从702次入院记录中生成了6,900个预测示例，涵盖用药、手术、器官支持、微生物学和死亡率等多个维度。基于这些示例训练的轻量级LoRA适配器在提示基础模型上实现了性能提升，将预期校准误差从0.1269降至0.0398，Brier分数从0.199降至0.145，同时在留出问题的点估计上略微优于GPT-5。该方法无需人工设计的结构化特征或特定终点的分类器，即可从纵向临床笔记中生成可复用的临床预测监督信号。

Rule2DRC：面向DRC脚本合成的LLM智能体基准测试，采用执行引导的测试生成
Rule2DRC: Benchmarking LLM Agents for DRC Script Synthesis with Execution-Guided Test Generation

May 15

ByJinuk Kim, Junsoo Byun, Donghwi Hwang, Seong-Jin Park, Hyun Oh Song

可制造的芯片布局必须满足数千条基于几何的设计规则，设计规则检查（DRC）通过运行可执行的DRC脚本对布局进行强制验证。将自然语言规则转化为正确的DRC脚本需要耗费大量人力，且要求具备专业知识，这促使研究者利用大语言模型（LLM）代理进行DRC脚本合成与调试。然而，现有基准测试集规模较小，且通常根据代码相似性而非执行正确性来评估脚本；此外，先前基于机器学习的方法要么忽略了执行反馈，要么需要将标注好的测试布局作为代理的输入。为此，我们提出了Rule2DRC——一个面向DRC脚本编码代理的大规模基准测试，包含1000个规则到脚本的任务以及13921个评估用芯片布局，用于基于执行结果的评分。Rule2DRC提供了一套评估流程，通过DRC执行结果衡量功能正确性，且无需将评估布局作为代理的输入。我们还提出了SplitTester，一个用于程序选择的测试代理，它利用执行反馈生成具有判别性的测试用例，并分离出先前无法区分的候选脚本，从而显著提升了该领域的最佳N选一（Best-of-N）性能。我们已在 https://github.com/snu-mllab/Rule2DRC 上发布代码。

从推理链到可验证子问题：课程强化学习为LLM推理实现信用分配
From Reasoning Chains to Verifiable Subproblems: Curriculum Reinforcement Learning Enables Credit Assignment for LLM Reasoning

May 21

ByXitai Jiang, Zihan Tang, Wenze Lin, Yang Yue, Shenzhi Wang, Gao Huang

基于可验证奖励的强化学习(RLVR)在大语言模型推理中展现出强大潜力，但基于结果的RLVR在困难问题上效率依然低下，因为正确最终答案的采样稀少，且样本级信用分配无法利用失败尝试中的部分进展。我们提出SCRL（子问题课程强化学习），这是一种课程强化学习框架，能从参考推理链中提取可验证子问题，并将最终子问题设定为原问题。这能将困难问题上的部分进展转化为可验证的学习信号。算法上，SCRL采用子问题层级归一化，即独立地对每个子问题位置进行奖励归一化，并将由此产生的优势值分配给对应的答案片段，从而在不依赖外部评分标准或奖励模型的情况下实现更细粒度的信用分配。我们的分析表明，子问题课程能帮助困难问题摆脱梯度死亡区域，且原问题越难，相对收益越大。在七个数学推理基准上，SCRL的表现优于强课程学习基线：在Qwen3-4B-Base上，平均准确率相比GRPO提升+4.1个百分点；在Qwen3-14B-Base上提升+1.9个百分点。在AIME24、AIME25和IMO-Bench上，SCRL进一步将Qwen3-4B-Base的pass@1提升+3.7个百分点，pass@64提升+4.6个百分点，表明其在困难推理问题上具有更好的探索能力。

AnyMo: 几何感知且与设置无关的野外人体运动建模
AnyMo: Geometry-Aware Setup-Agnostic Modeling of Human Motion in the Wild

May 21

ByBaiyu Chen, Zechen Li, Wilson Wongso, Lihuan Li, Xiachong Lin, Hao Xue, Benjamin Tag, Flora Salim

随着可穿戴和移动设备日益融入日常生活，它们提供了一种在野外连续感知人体运动的实用方法。然而，惯性信号高度依赖于传感设置，包括身体部位、佩戴位置、传感器朝向、设备硬件以及采样协议。这种设置依赖性使得学习能够跨设备和数据集迁移的运动表征变得困难，并限制了可穿戴惯性测量单元（IMU）在闭集识别之外的更广泛应用。我们提出了AnyMo——一种用于与设置无关的人体运动建模的几何感知框架。AnyMo利用基于物理的IMU模拟，在密集的体表位置上生成多样且合理的合成信号；通过配对合成放置视图和掩码局部观测，预训练一个图编码器；将多位置IMU信号标记化为全身运动词元，并将这些词元与大语言模型（LLM）对齐，以实现运动-语言理解。我们在三个互补任务上评估了AnyMo：在14个未见过的下游数据集上进行零样本活动识别、跨模态检索以及可穿戴IMU运动描述生成。在人体活动识别（HAR）任务上，平均准确率/F1分数/R@2分别提升了11.7%/11.6%/22.6%；零样本IMU到文本和文本到IMU检索的平均倒数排名（MRR）分别提升了15.9%和28.6%；零样本描述生成的BERT-F1分数提升了18.8%。这些结果支持AnyMo作为野外可穿戴运动理解的通用模型。项目页面：https://baiyuchen.com/project/AnyMo。

DecQ: 用于表示自编码器中增强重建与生成的细节浓缩查询
DecQ: Detail-Condensing Queries for Enhanced Reconstruction and Generation in Representation Autoencoders

May 21

ByTianhang Wang, Yitong Chen, Wei Song, Zuxuan Wu, Min Li, Jiaqi Wang

表示自编码器（RAE）利用冻结的视觉基础模型（VFM）作为分词器编码器，提供鲁棒的高层表示，从而促进潜在扩散模型中的快速收敛与高质量生成。然而，冻结VFM本质上限制了其空间重建能力，制约了细粒度生成与图像编辑；相反，通过微调引入面向重建的信号会破坏预训练的语义空间，降低生成保真度。为解决这一权衡问题，我们提出DecQ——一种简洁而有效的RAE框架。具体而言，DecQ通过凝聚模块从VFM中间特征中提取细粒度信息，引入轻量级的细节凝聚查询。这些查询被整合到解码器中以支持重建，并在生成建模过程中与图像块标记一同生成。通过聚合浅层与深层信息，DecQ有效缓解了重建与生成之间的权衡，提升了重建质量与生成性能。实验表明：（1）仅需额外8个查询和3.9%的计算开销，DecQ即可在基于冻结DINOv2的RAE上将重建PSNR从19.13 dB提升至22.76 dB；（2）在生成建模方面，DecQ的收敛速度比RAE快3.3倍，无引导条件下FID达1.41，有引导条件下FID达1.05。

更多上下文、更大模型，还是道德知识？政治文本中施瓦茨价值观检测的系统性研究
More Context, Larger Models, or Moral Knowledge? A Systematic Study of Schwartz Value Detection in Political Texts

May 21

ByVíctor Yeste, Paolo Rosso

检测政治文本中的施瓦茨价值观存在难度，因为隐含线索通常依赖于周边论证以及相邻价值观之间的细微差异。本研究探讨了上下文和明确道德知识如何助力句子级别的价值观检测。采用ValuesML/Touché ValueEval格式，我们比较了句子级、窗口级和全文级输入；在无检索增强生成（RAG）和检索增强设置下，结合精心策划的道德知识库；使用监督式DeBERTa-v3-base/large编码器；以及参数规模从12B到123B的零样本大语言模型。结果表明，更多上下文并非总是更好：全文上下文使监督式DeBERTa编码器的宏F1分数比仅使用句子输入提升3.8至4.8个百分点，但对零样本大语言模型的帮助并不稳定。在匹配比较中，检索到的道德知识更为一致地发挥作用，在早期融合条件下提升了每个测试模型族和上下文场景的性能。然而，从DeBERTa-v3-base扩展到large版本，以及从12B扩展到更大规模的大语言模型，并不保证性能提升；对于编码器而言，简单的早期融合优于所测试的后期融合和交叉注意力RAG变体。逐价值观分析显示，上下文和检索对社交情境复杂或概念易混淆的价值观帮助最大。这些发现表明，价值观敏感的NLP应综合评估上下文、知识和模型族，而非将更长输入或更大模型视为通用改进手段。

OmniPro：面向全主动流式视频理解的综合基准
OmniPro: A Comprehensive Benchmark for Omni-Proactive Streaming Video Understanding

May 18

ByRuixiang Zhao, Jie Yang, Zijie Xin, Tianyi Wang, Fengyun Rao, Jing LYU, Xirong Li

全主动流式视频理解，即根据连续的视听流自主决定何时说话以及说什么，是全模态大语言模型的一项新兴能力。现有基准测试在三个关键方面存在不足：它们主要依赖视觉信号，采用轮询或固定时间戳协议而非真正的主动评估，且仅涵盖有限的任务范围，从而无法对全主动流式模型进行可靠的评估和区分。我们提出OmniPro，这是首个联合评估全模态感知、主动响应以及多样化视频理解任务的基准测试。它包含2,700个人工验证样本，涵盖9个子任务和3个认知层级，覆盖6种基本视频理解能力。值得注意的是，84%的样本需要音频信号（语音或非语音），每个样本都标注了模态隔离标签，以实现细粒度的多模态分析。我们进一步引入了双模式评估协议：探测模式通过在每个真实触发点前后查询模型来评估内容理解，而在线模式则通过要求模型在流式输入中自主决定何时响应来评估全面主动能力。对11个代表性模型的评估揭示了三个关键发现：(1) 音频能带来持续提升，但不同模型对其利用率差异很大；(2) 性能随时间显著下降，表明长期鲁棒性有限；(3) 非语音音频感知仍然是最薄弱的维度。

“我没有做出微观决策”：测量、诱导和揭示协作中目标层面的人工智能贡献
"I didn't Make the Micro Decisions": Measuring, Inducing, and Exposing Goal-Level AI Contributions in Collaboration

May 20

ByEunsu Kim, Jessica R. Mindel, Kyungjin Kim, Sherry Tongshuang Wu

随着大型语言模型（LLMs）日益深刻地影响用户形成、优化和扩展目标的方式，在人机协作中归因贡献对于用户校准自身依赖程度以及评估者评估AI辅助工作变得至关重要。然而，现有方法仅关注最终产出物，忽略了目标本身被共同塑造的过程。我们提出了一种目标级归因框架CoTrace，该框架将显性目标分解为可验证的需求，并在对话轮次中追溯直接贡献与间接影响。将CoTrace应用于638个真实世界协作日志后，我们发现：尽管模型仅占目标塑造贡献的11%-26%，但在引入更低层级的具象需求方面贡献显著更大，并且产生了多种间接贡献。通过受控模拟实验，我们证明交互设计选择会显著影响模型的目标塑造行为。在一项用户研究中，让参与者接触目标级分析后，他们对自身贡献的感知在5分量表上发生了近2分的偏移，这揭示了用户在理解自身AI辅助工作时存在系统性校准偏差。

Lean重构：基于智能体策略搜索的多目标可控证明优化
Lean Refactor: Multi-Objective Controllable Proof Optimization via Agentic Strategy Search

May 18

ByJialin Lu, Soonho Kong, Rodrigo Stehling, Kaiyu Yang, Zhangyang Wang, Weiran Sun, Wuyang Chen

我们提出Lean Refactor，这是一个即插即用的检索增强型智能体框架，用于对Lean证明进行多目标、可控且版本鲁棒的改写。LLM生成的证明以正确但冗长且脆弱于库版本而著称，然而现有的改写工作忽略了三个实际挑战：1) Lean改写本质上是多目标的（证明长度、编译成本和版本兼容性往往相互矛盾）；2) Lean仓库的兼容性脆弱，而LLM的发布并不感知Lean/Mathlib版本；3) 基于训练的流水线在每次LLM新版本发布时都需要重复微调，既无法随模型更迭扩展，也无法跟上Lean的发布周期。Lean Refactor通过从精心策划的多目标改写策略数据库中检索信息来引导一个冻结的智能体LLM，每条策略都密集标注了元数据，如支持的Lean/Mathlib版本和预期的编译成本降低。实验表明，在竞赛基准测试上实现了超过70%的token级压缩，在研究仓库上超过20%，编译时间减少高达60%，优于先前工作和Claude Code。基于版本过滤的检索进一步提高了目标Lean版本的压缩效果，改写后的miniF2F证明在向未来Lean版本进行零样本版本迁移时，比未改写的对应版本表现出更强的鲁棒性。

在类别不平衡的CT身体成分分割中解耦采样与训练预算
Disentangling Sampling from Training Budget in Class-Imbalanced CT Body Composition Segmentation

May 19

ByIason Skylitsis, Dimitrios Karkalousos, Ivana Išgum

类别不平衡是医学图像分割中的一个基本挑战，常见类别通常会主导训练过程，而稀有类别则被忽视。基于损失函数的方法通过重新加权批次内逐像素损失来缓解不平衡，而采样策略则控制哪些图像进入批次。然而，这两种方法均未明确控制批次中出现的类别，导致稀有类别的暴露只能部分得到平衡。在本工作中，我们采用少样本学习中的情景采样，在全监督设置下促进类别平衡的批次构建。我们将情景采样与传统度量学习背景解耦，并在CT身体成分分割中对其进行评估。我们基于公共SAROS数据集中的210次扫描，在九种肌肉和脂肪组织上比较了情景采样与随机采样及加权采样。训练在完整数据和低数据两种场景下进行，并在匹配训练迭代预算下进行额外比较。在完整数据训练下，三种策略表现相当（情景采样平均Dice为0.882，随机和加权采样均为0.878）。在低数据训练下，情景采样优于随机和加权采样（0.787对比0.758和0.762），这一优势源于训练迭代次数相差12倍。在匹配训练预算下，随机和加权采样更早出现过拟合，而情景采样在收敛前持续改进约三倍迭代次数。我们的研究发现训练迭代预算作为采样策略中未被充分认识的混淆因素，推动了针对小数据集的迭代感知评估协议。此外，情景采样的残余优势与类别平衡批次的隐式正则化效应一致，为类别不平衡的医学图像分割提供了一种低成本、模型无关的策略。代码见 https://github.com/iasonsky/episodic-sampling。

相同架构，不同容量：优化器引发的谱缩放定律
Same Architecture, Different Capacity: Optimizer-Induced Spectral Scaling Laws

May 20

ByNandan Kumar Jha, Brandon Reagen

缩放定律使语言模型的性能可以根据模型规模、数据量和计算量进行预测，但通常将优化器视为固定的训练细节。我们发现这一假设忽略了表示缩放的一个基本维度：优化器将增加的FFN宽度转化为有效谱容量的效率。通过测量前馈网络表示的特征谱（分别使用软谱秩和硬谱秩），我们发现相同的Transformer架构在使用不同优化器训练时，会实现显著不同的谱缩放定律。在保持架构和宽度调度固定的情况下，对于已知学习难度最大的稀有令牌表示区域，AdamW表现出较弱的硬谱秩缩放（β=0.44），而Muon在同一区域实现了线性缩放（β=1.02），缩放指数提升了2.3倍。这一差异无法归结为验证损失：在延长训练时间的情况下，AdamW配置可以在困惑度上匹配低秩的Dion变体，但谱几何结构显著不同，这表明损失匹配并不意味着表示结构匹配。硬-软谱秩不对称性进一步揭示，优化器的差异不仅体现在实现的容量大小上，还体现在这些容量在特征模式间的结构方式上。为了将优化器效应与架构效应分离，我们将其与架构干预措施（如注意力秩和位置编码）进行比较，发现优化器引起的谱偏移往往超过架构效应。这些结果表明，优化应作为表示缩放的一级轴，从而推动优化器与架构协同设计的研究。

人脑中的柏拉图式表征：无监督恢复普适几何
Platonic Representations in the Human Brain: Unsupervised Recovery of Universal Geometry

May 19

ByPablo Marcos-Manchón, Rishi Jha, Lluís Fuentemilla

强柏拉图表示假说认为，人工神经网络中的表示收敛可以被建设性地利用：即使没有配对数据，嵌入向量也能通过一个通用潜在空间在不同模型之间进行翻译。我们探究人类大脑中是否能恢复类似的几何结构。利用自然场景数据集中的fMRI数据，我们提出了一种自监督编码器，它仅通过重复刺激呈现从脑数据中学习受试者特定的嵌入。我们证明，这些独立学习的空间可以通过无监督正交旋转在不同受试者之间进行翻译，无需跨受试者配对样本或中间模型表示。将成对旋转同步到一个共享潜在空间中，进一步改善了跨受试者检索，这表明受试者特定空间与一个共同坐标系相互兼容。这些结果为人类视觉皮层中存在共享的神经几何结构提供了证据：受试者特定的fMRI表示在个体之间近似等距，并且可以通过纯几何变换进行翻译。

实时音乐扩散模型：交互式扩散音乐生成器的高效微调与后训练
Live Music Diffusion Models: Efficient Fine-Tuning and Post-Training of Interactive Diffusion Music Generators

May 21

ByZachary Novack, Stephen Brade, Haven Kim, Hugo Flores García, Nithya Shikarpur, Chinmay Talegaonkar, Suwan Kim, Valerie K. Chen, Julian McAuley, Taylor Berg-Kirkpatrick, Cheng-Zhi Anna Huang

交互式流式音乐生成有望利用生成模型实现现场表演和协同创作，这是离线模型无法做到的。然而，现有最先进的模型属于离散自回归范式，训练和推理都需要工业级计算资源。本研究探讨了音频扩散模型——尽管在开源社区中得到广泛支持，但具有非流式双向特性——能否高效改造为可在消费级硬件上运行的交互式模型。通过批判性审视现代分块外扩扩散流程，我们识别出推理过程中的关键效率瓶颈，其计算效率严格低于同类离散自回归模型。我们提出现场音乐扩散模型（LMDMs），通过简单修改生成扩散过程，利用分块KV缓存技术恢复并超越了离散现场音乐模型（LMMs）的推理复杂度。与LMMs不同，LMDMs通过创新的ARC-Forcing范式实现稳定的训练后对齐，无需显式强化学习或奖励模型即可减少误差积累。我们展示了LMDMs在多个创意领域的应用，包括文本条件生成、草图驱动音乐合成以及即兴合奏。最后，我们通过真实艺术家-AI协作案例，演示LMDMs如何作为"生成式延迟"乐器，在消费级游戏笔记本上本地运行时，实时转换音乐家的即兴演奏以获得可变音色效果。

SAM 3D Animal：从野外图像中进行可提示的动物三维重建
SAM 3D Animal: Promptable Animal 3D Reconstruction from Images in the Wild

May 8

ByXuyi Hu, Jin Lyu, Jiuming Liu, Yebin Liu, Silvia Zuffi, Liang An, Stefan Goetz

野外三维动物重建仍然面临挑战，原因在于物种间差异大、频繁遮挡以及多动物场景的普遍存在，而现有方法主要聚焦于单动物环境。我们提出SAM 3D Animal，这是首个从单张图像实现多动物三维重建的可提示框架。该方法基于SMAL+参数化动物模型，能够联合重建多个实例，并支持以关键点和掩码形式提供的灵活提示，从而在拥挤和遮挡场景中实现更可靠的去歧义。为训练此类模型，我们进一步引入Herd3D，这是一个包含超过5000张图像的多动物三维数据集，旨在增加物种多样性、交互模式和遮挡类型。在Animal3D、APTv2和Animal Kingdom数据集上的实验表明，我们的框架在现有的基于模型和无模型方法中均达到最先进水平，为野外环境中提示驱动的动物三维重建提供了可扩展且有效的解决方案。

极简视觉惯性里程计
Minimalist Visual Inertial Odometry

May 19

ByFrancesco Pasti, Jeremy Klotz, Nicola Bellotto, Shree K. Nayar

视觉惯性里程计（VIO）对移动机器人导航至关重要，但通常使用具有大量像素的相机。采集和处理相机图像需要大量资源。本文提出了一种最小化平面里程计方法，证明仅需四个视觉测量值和一个IMU即可为差速驱动机器人提供鲁棒的运动估计。我们的关键发现是：四个朝下的光电二极管通过光学Gabor掩膜感知环境时，产生的信号能编码速度信息。基于此，我们利用物理仿真器联合优化掩膜参数与时序卷积网络（TCN）。最终模型仅从光电二极管产生的四个测量值中解码速度，并将这些估计值与IMU的角速度相结合，获得连续平面轨迹。我们通过在差速驱动机器人上安装原型传感器验证了该方法。在不同室内外地形下，该系统无需任何真实场景微调即可紧密追踪参考真值。本研究表明，最小化感知能够实现高效且精确的平面里程计。

FashionLens：面向多功能时尚图像检索的任务自适应学习
FashionLens: Toward Versatile Fashion Image Retrieval via Task-Adaptive Learning

May 21

ByHaokun Wen, Xuemeng Song, Xinghao Xie, Xiaolin Chen, Xiangyu Zhao, Weili Guan

时尚图像检索是现代电子商务系统的基石。在实际应用中，亟需一种能够支持多样化查询格式与搜索意图的统一框架。然而，现有方法聚焦于狭窄的检索任务，未能充分捕捉这种多样性。因此，本研究旨在开发一个能够处理多种真实时尚检索场景的统一框架，实现真正通用的时尚图像检索。为奠定数据基础，我们首先提出了U-FIRE基准数据集，将碎片化的时尚数据集整合为统一集合，并补充了两个人工标注数据集以测试泛化能力。基于此，我们构建了FashionLens框架——一种基于多模态大语言模型的统一方案。为应对差异化的匹配目标，我们设计了提案引导的球形查询校准器，通过自适应球形线性插值将查询表示动态转移到任务对齐的度量空间中。此外，为缓解不同任务复杂度与数据规模造成的优化失衡，我们提出了梯度引导的自适应采样策略，根据实时学习难度与数据规模先验自动重加权任务。在U-FIRE上的实验表明，FashionLens在多种检索场景下均达到最先进性能，并能稳健泛化至未见任务。相关数据与代码已开源发布于https://github.com/haokunwen/FashionLens。