HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

36 papers found

体验式强化学习
Experiential Reinforcement Learning

Feb 15

ByTaiwei Shi, Sihao Chen, Bowen Jiang, Linxin Song, Longqi Yang, Jieyu Zhao

强化学习已成为语言模型从环境奖励或反馈中学习的核心方法。实践中，环境反馈通常具有稀疏性和延迟性。从这类信号中学习具有挑战性，因为语言模型必须隐式推断如何将观察到的失败转化为未来迭代中的行为调整。我们提出经验强化学习（ERL），这是一种在强化学习过程中嵌入显式经验-反思-巩固循环的训练范式。针对给定任务，模型首先生成初始尝试，接收环境反馈后生成反思指引，进而指导生成优化的二次尝试，其成功经验将被强化并内化至基础策略中。该过程将反馈转化为结构化的行为修正，在提升探索效率、稳定优化过程的同时，无需额外推理成本即可保持部署时的性能增益。在稀疏奖励控制环境和智能体推理基准测试中，ERL相较于强基线强化学习方法持续提升学习效率和最终性能，在复杂多步环境中实现最高达81%的性能提升，在工具使用推理任务中取得最高11%的改进。这些结果表明，将显式自我反思融入策略训练，为将反馈转化为持久的行为改进提供了实用机制。

DeepImageSearch：面向视觉历史记录中上下文感知图像检索的多模态智能体基准测试
DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories

Feb 11

ByChenlong Deng, Mengjie Deng, Junjie Wu, Dun Zeng, Teng Wang, Qingsong Xie, Jiadeng Huang, Shengjie Ma, Changwang Zhang, Zhaoxiang Wang, Jun Wang, Yutao Zhu, Zhicheng Dou

现有多模态检索系统虽擅长语义匹配，却隐含了一个假设：查询-图像相关性可被独立衡量。这一范式忽略了现实视觉流中固有的丰富依赖关系——信息分布于时间序列而非局限于单张快照。为弥补这一缺陷，我们提出DeepImageSearch这一新型智能体范式，将图像检索重新定义为自主探索任务。模型需对原始视觉历史进行多步推理规划，从而基于隐含上下文线索定位目标。我们构建了DISBench基准测试集，该数据集基于相互关联的视觉数据，具有挑战性。针对上下文依赖型查询的扩展性难题，我们提出人机协同流水线方案：通过视觉语言模型挖掘潜在时空关联，在人工验证前高效完成密集型上下文发现。此外，我们采用配备细粒度工具和双记忆系统的模块化智能体框架，构建了具有长程导航能力的强基线模型。大量实验表明，DISBench对现有顶尖模型构成显著挑战，印证了将智能体推理机制融入下一代检索系统的必要性。

南北阁4.1-3B：一个具备推理、对齐与行动能力的小型通用模型
Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts

Feb 13

ByChen Yang, Guangyue Peng, Jiaying Zhu, Ran Le, Ruixiang Feng, Tao Zhang, Xiyun Xu, Yang Song, Yiming Jia, Yuntao Wen, Yunzhi Xu, Zekai Wang, Zhenwei An, Zhicong Sun, Zongchao Chen

我们推出南贝阁4.1-3B模型，这是一个仅用30亿参数就同时实现强大智能体行为、代码生成与通用推理能力的统一通用语言模型。据我们所知，这是首个在单一模型中实现如此多功能的开源小语言模型（SLM）。为提升推理能力与偏好对齐，我们结合点对点和配对奖励建模技术，确保生成高质量且符合人类偏好的响应。在代码生成方面，我们通过强化学习设计复杂度感知奖励机制，同步优化正确性与执行效率。针对深度搜索任务，我们实施复杂数据合成策略，并在训练阶段引入轮次级监督机制，使模型能够稳定进行长周期工具交互——南贝阁4.1-3B可可靠执行多达600轮工具调用以解决复杂问题。大量实验结果表明，南贝阁4.1-3B显著超越同规模先前模型（如Nanbeige4-3B-2511和Qwen3-4B），甚至在某些任务上优于参数量大得多的Qwen3-30B-A3B模型。我们的研究成果证明，小模型能够同时实现广泛能力与专业优势，重新定义了30亿参数级模型的发展潜力。

REDSearcher：面向长程搜索智能体的可扩展高性价比框架
REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents

Feb 15

ByZheng Chu, Xiao Wang, Jack Hong, Huiming Fan, Yuqi Huang, Yue Yang, Guohai Xu, Chenxiao Zhao, Cheng Xiang, Shengchao Hu, Dongdong Kuang, Ming Liu, Bing Qin, Xing Yu

大型语言模型正从通用知识引擎向现实问题求解器转型，但针对深度搜索任务的优化仍具挑战。核心瓶颈在于高质量搜索轨迹与奖励信号的极端稀疏性，这源于可扩展长周期任务构建的困难性以及涉及外部工具调用的交互密集型推演的高成本。为应对这些挑战，我们提出REDSearcher框架，通过协同设计复杂任务合成、训练中期优化与训练后优化，实现可扩展的搜索智能体优化。具体而言，REDSearcher引入以下改进：（1）将任务合成构建为双约束优化问题，通过图拓扑结构与证据分散度精确控制任务难度，实现复杂高质量任务的可扩展生成；（2）引入工具增强型查询机制，激励智能体主动使用工具而非被动回忆；（3）在训练中期强化核心原子能力——知识处理、规划与函数调用，显著降低下游训练所需高质量轨迹的收集成本；（4）构建本地模拟环境，为强化学习实验提供快速低成本的算法迭代平台。在纯文本与多模态搜索智能体基准测试中，我们的方法均实现了最先进性能。为促进长周期搜索智能体的未来研究，我们将公开10K条高质量复杂文本搜索轨迹、5K条多模态轨迹、1K条文本强化学习查询集，并同步发布代码与模型检查点。

BitDance：基于二进制令牌的自回归生成模型规模化方法
BitDance: Scaling Autoregressive Generative Models with Binary Tokens

Feb 15

ByYuang Ai, Jiaming Han, Shaobin Zhuang, Weijia Mao, Xuefeng Hu, Ziyan Yang, Zhenheng Yang, Huaibo Huang, Xiangyu Yue, Hao Chen

我们提出BitDance——一种可扩展的自回归图像生成器，其通过预测二元视觉标记而非码本索引实现图像生成。借助高熵二元潜变量，BitDance使每个标记可表征多达2^{256}种状态，形成紧凑且高表达力的离散表示。传统分类方法难以从如此巨大的标记空间采样。为此，BitDance采用二元扩散头架构：摒弃基于softmax的索引预测，转而通过连续空间扩散生成二元标记。此外，我们提出下一图像块扩散技术，这种新型解码方法能以高精度并行预测多个标记，大幅加速推理过程。在ImageNet 256×256数据集上，BitDance实现了1.24的FID分数，成为自回归模型中的最佳结果。结合下一图像块扩散技术，BitDance以仅2.6亿参数（减少5.4倍）实现8.7倍加速，性能超越使用14亿参数的顶尖并行自回归模型。在文生图任务中，BitDance通过大规模多模态标记训练，能高效生成高分辨率逼真图像，展现出卓越性能与良好扩展性。生成1024×1024图像时，相较现有自回归模型提速超过30倍。我们公开代码与模型以促进自回归基础模型的深入研究。代码与模型详见：https://github.com/shallowdream204/BitDance。

查询作为锚点：基于大语言模型的场景自适应用户表征
Query as Anchor: Scenario-Adaptive User Representation via Large Language Model

Feb 16

ByJiahao Yuan, Yike Xu, Jinyong Wen, Baokun Wang, Ziyi Gao, Xiaotong Lin, Yun Liu, Xing Fu, Yu Cheng, Yongchao Liu, Weiqiang Wang, Zhongle Xie

工业级用户表征学习需要在稳健的通用性与敏锐的任务敏感性之间取得平衡。然而，现有范式主要生成静态的、任务无关的嵌入表示，难以在统一向量空间中协调下游场景的差异化需求。此外，异构多源数据引入的固有噪声与模态冲突会降低表征质量。我们提出"查询作为锚点"框架，将用户建模从静态编码转向动态的查询感知合成。为赋予大语言模型深度用户理解能力，我们首先构建UserU——一个工业级预训练数据集，将多模态行为序列与用户理解语义对齐；并通过Q-Anchor嵌入架构，将分层粗粒度到细粒度编码器集成至双塔式大语言模型，采用联合对比-自回归优化实现查询感知的用户表征。为弥合通用预训练与专业业务逻辑之间的差距，我们进一步引入基于聚类的软提示调优技术，以强化判别性潜在结构，有效对齐模型注意力与场景特定模态。在部署方面，将查询锚定于序列末端可实现KV缓存加速推理，且增量延迟可忽略不计。在支付宝10个工业基准测试上的评估表明，该方法具有持续的最优性能、强大的可扩展性和高效的部署能力。在支付宝生产系统中针对两个实际场景进行的大规模在线A/B测试进一步验证了其实际有效性。我们的代码已准备公开，即将发布于：https://github.com/JhCircle/Q-Anchor。

思维状态：面向思维树的结构化行动模板
STATe-of-Thoughts: Structured Action Templates for Tree-of-Thoughts

Feb 15

ByZachary Bamberger, Till R. Saenger, Gilad Morad, Ofra Amir, Brandon M. Stewart, Amir Feder

诸如最佳N采样（Best-of-N）和思维树（Tree-of-Thoughts）这类推理时计算（ITC）方法，旨在生成兼具高质量与多样性的输出候选，但其采用的高温采样策略往往难以实现有意义的输出多样性。此外，现有ITC方法对推理过程的控制能力有限，这反过来限制了其可解释性。我们提出STATe-of-Thoughts（STATe）——一种可解释的ITC方法，通过对高层推理模式进行搜索来实现优化。STATe用离散且可解释的文本干预替代随机采样：控制器选择编码高层推理决策的动作，生成器基于这些决策生成推理步骤，评估器则对候选结果评分以引导搜索。这种结构化方法具有三大优势：首先，动作引导的文本干预比基于温度的采样能产生更丰富的响应多样性；其次，在论证生成的案例研究中，STATe显式的动作序列能捕捉对输出质量具有高度预测性的可解释特征；最后，通过分析性能与动作选择的关联性，我们能识别动作空间中具有潜力但尚未探索的区域，并直接引导生成过程朝向这些区域。综合来看，这些成果确立了STATe作为生成高质量、多样化且可解释文本的实用框架。我们的框架已在https://github.com/zbambergerNLP/state-of-thoughts 开源。

创新评估：将研究思路评估视为基于知识的多元视角推理问题
InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem

Feb 16

ByShuofei Qiao, Yunxiang Wei, Xuehai Wang, Bin Wu, Boyang Xue, Ningyu Zhang, Hossein A. Rahmani, Yanshan Wang, Qiang Zhang, Keyan Ding, Jeff Z. Pan, Huajun Chen, Emine Yilmaz

大语言模型的快速发展催生了科学创意产出的激增，但这种飞跃并未伴随创意评估能力的同步提升。科学评估的本质需要知识基础作为支撑、集体审议机制以及多标准决策过程。然而，现有创意评估方法往往存在知识视野局限、评估维度扁平化以及LLM作为评判者固有偏见等问题。为此，我们将创意评估视为基于知识的多视角推理问题，提出深度创新评估框架InnoEval，旨在模拟人类水平的创意评估能力。该框架采用异构深度知识搜索引擎，从多元网络源动态检索并锚定证据；通过组建具有不同学术背景评审人员的创新评审委员会，实现跨多指标的多维解耦评估，最终达成评审共识。我们基于权威同行评审投稿构建了综合性数据集对InnoEval进行基准测试。实验表明，该框架在点对点、配对比较和群体评估任务中均能稳定超越基线模型，其判断模式与共识形成机制与人类专家高度吻合。

数据达尔文主义（上篇）：释放科学数据在预训练中的价值
Data Darwinism Part I: Unlocking the Value of Scientific Data for Pre-training

Feb 8

ByYiwei Qin, Zhen Huang, Tiantian Mi, Weiye Si, Chenyang Zhou, Qipeng Guo, Siyuan Feng, Pengfei Liu

数据质量决定基础模型性能，但系统性处理框架仍属缺失。我们提出"数据达尔文主义"——一个十级分类体系（L0-L9），将数据与模型的协同进化概念化：先进模型能为下一代系统生成更优质的数据。我们通过构建包含9000亿token的科学文献语料库Darwin-Science（L0-L5）验证该理论。研究发现原始科学文本存在可学习性断层，为此我们采用前沿大语言模型实施L4（生成式精炼）与L5（认知补全），通过显式推理和术语阐释弥合这一断层。为确保严谨溯源，我们从头预训练daVinci-origin-3B/7B模型，排除科学内容以构建无污染基线。经过6000亿token的持续预训练后，Darwin-Science在20余项基准测试中分别以+2.12（3B）和+2.95（7B）分优势超越基线，在领域对齐任务上优势更扩大至+5.60和+8.40分。系统性推进至L5级别带来+1.36分的总增益，证实高级别处理能释放数据的潜在价值。我们开源Darwin-Science语料库及daVinci-origin模型，以推动基于原则的协同进化发展。

UniWeTok：面向统一多模态大语言模型的码本规模达2^{128}的统一二进制分词器
UniWeTok: An Unified Binary Tokenizer with Codebook Size 2^{128} for Unified Multimodal Large Language Model

Feb 15

ByShaobin Zhuang, Yuang Ai, Jiaming Han, Weijia Mao, Xiaohui Li, Fangyikang Wang, Xiao Wang, Yan Li, Shanchuan Lin, Kun Xu, Zhenheng Yang, Huaibo Huang, Xiangyu Yue, Hao Chen, Yali Wang

统一多模态大语言模型（MLLMs）需要一种能够同时支持高保真重建、复杂语义提取与生成适配性的视觉表征方法。然而，现有视觉分词器通常难以在单一框架内满足这些相互冲突的目标。本文提出UniWeTok——一种基于海量二进制码本（2^{128}）的统一离散分词器来解决这一难题。在训练框架上，我们引入前后蒸馏技术与生成感知先验，以增强离散分词器的语义提取能力与生成先验特性。模型架构方面，我们设计了采用SigLu激活函数的卷积-注意力混合架构。SigLu激活函数不仅能够约束编码器输出、稳定语义蒸馏过程，还能有效化解分词熵损失与承诺损失之间的优化冲突。此外，我们提出三阶段训练框架，旨在提升UniWeTok对不同图像分辨率及感知敏感场景（如人脸与文本内容）的适应能力。在ImageNet数据集上，UniWeTok以极低的训练计算量（训练词元：UniWeTok 330亿 vs. REPA 2620亿）实现了最先进的图像生成性能（FID：UniWeTok 1.38 vs. REPA 1.42）。在通用领域，UniWeTok在多模态理解、图像生成（DPG评分：UniWeTok 86.63 vs. FLUX.1 [Dev] 83.84）与图像编辑（GEdit综合评分：UniWeTok 5.09 vs. OmniGen 5.06）等广泛任务中展现出卓越竞争力。我们公开代码与模型，以推动统一分词器及MLLM的社区探索。

VisPhyWorld：通过代码驱动视频重建探究物理推理能力
VisPhyWorld: Probing Physical Reasoning via Code-Driven Video Reconstruction

Feb 9

ByJiarong Liang, Max Ku, Ka-Hei Hui, Ping Nie, Wenhu Chen

评估多模态大语言模型是否真正具备物理动态推理能力仍具挑战。现有基准多采用视觉问答和期望违背等识别式范式，这类任务往往无需模型构建明确可验证的物理假设即可作答。我们提出VisPhyWorld——一个基于执行的评估框架，通过要求模型根据视觉观察生成可执行的模拟器代码来检验物理推理能力。通过生成可运行代码，模型推断的世界表征可直接被检验、编辑和证伪，从而将物理推理与渲染过程分离。基于该框架，我们构建了包含108个物理模板生成的209个评估场景的VisPhyBench，并制定系统化评估方案，检验模型重建物体外观与生成物理合理运动的能力。该流程在基准测试中实现了97.7%的有效重建视频生成率。实验表明，尽管前沿多模态大语言模型具备较强的场景语义理解能力，但在精确推断物理参数和模拟一致性物理动态方面仍存在明显不足。

Qute：迈向量子原生数据库
Qute: Towards Quantum-Native Database

Feb 16

ByMuzhi Chen, Xuanhe Zhou, Wei Zhou, Bangrui Xu, Surui Tang, Guoliang Li, Bingsheng He, Yeye He, Yitong Song, Fan Wu

本文提出一种量子数据库（Qute），将量子计算视为一等执行方案。与先前基于模拟的方法（在经典机器上运行量子算法或改造现有数据库以支持量子模拟）不同，Qute实现了四大创新：（一）将扩展版SQL编译为门高效的量子电路；（二）采用混合优化器动态选择量子与经典执行计划；（三）引入选择性量子索引机制；（四）设计保真度存储方案以缓解当前量子比特限制。我们还提出了量子原生数据库的三阶段演进路线图。通过在实际量子处理器（起源_悟空）上部署Qute，实验表明其在大规模场景下优于经典基准系统。开源原型已发布于https://github.com/weAIDB/Qute。

学会配置智能体人工智能系统
Learning to Configure Agentic AI Systems

Feb 12

ByAditya Taparia, Som Sagar, Ransalu Senanayake

基于大语言模型的智能体系统配置涉及从庞大的组合设计空间中选择工作流、工具、令牌预算和提示策略，目前通常采用固定的大型模板或人工调优的启发式方法。这种配置方式会导致系统行为脆弱且产生不必要的计算开销，因为无论输入查询难易程度如何，往往都采用相同的繁琐配置。我们将智能体配置定义为按查询决策的问题，并提出了ARC（智能体资源与配置学习器），该系统通过强化学习训练轻量级分层策略，动态调整配置方案。在涵盖推理任务和工具增强问答的多个基准测试中，学习得到的策略持续优于人工设计及其他基线方法，任务准确率最高提升25%，同时降低了令牌消耗和运行时间成本。这些结果表明，针对每个查询学习智能体配置是替代"一刀切"设计理念的有效方案。

WebWorld：面向网络智能体训练的大规模世界模型
WebWorld: A Large-Scale World Model for Web Agent Training

Feb 16

ByZikai Xiao, Jianhong Tu, Chuhang Zou, Yuxin Zuo, Zhi Li, Peng Wang, Bowen Yu, Fei Huang, Junyang Lin, Zuozhu Liu

网络智能体需要海量轨迹数据才能实现泛化，但现实训练常受网络延迟、速率限制和安全风险制约。我们推出首个大规模开放网络仿真环境WebWorld系列。现有仿真器仅限封闭环境且轨迹数据仅数千条，而WebWorld通过可扩展数据管道实现了100万+开放网络交互训练，支持推理任务、多模态数据及30步以上的长程模拟。在内在评估方面，我们提出涵盖九个维度的双重指标WebWorld-Bench，其仿真性能媲美Gemini-3-Pro。在外在评估中，基于WebWorld合成轨迹训练的Qwen3-14B在WebArena上提升9.2%，达到与GPT-4o相当的性能。WebWorld支持高效推理时搜索，作为世界模型超越GPT-5。除网络仿真外，WebWorld还展现出对代码、图形界面及游戏场景的跨领域泛化能力，为世界模型构建提供了可复现的解决方案。

BrowseComp-V^3：面向多模态浏览代理的视觉化、垂直化与可验证基准平台
BrowseComp-V^3: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents

Feb 13

ByHuanyao Zhang, Jiepeng Zhou, Bo Li, Bowen Zhou, Yanzhe Dan, Haishan Lu, Zhiyong Cao, Jiaoyang Chen, Yuqian Han, Zinan Sheng, Zhengwei Tao, Hao Liang, Jialong Wu, Yang Shi, Yuanpeng He, Jiaye Lin, Qintong Zhang, Guochen Yan, Runhao Zhao, Zhengpin Li, Xiaohan Yu, Lang Mei, Chong Chen, Wentao Zhang, Bin Cui

配备日益先进的规划与工具使用能力的多模态大语言模型，正逐步演变为能够在开放世界环境中执行多模态网络浏览与深度搜索的自主智能体。然而，现有多模态浏览基准在任务复杂度、证据可获取性及评估粒度方面仍存在局限，难以实现深度搜索能力的全面可复现评估。为此，我们推出BrowseComp-V^3——一个包含300个精心设计的跨领域高难度问题的新型基准。该基准强调深层、多层级、跨模态的多跳推理，关键证据交错分布于网页内及跨网页的文本与视觉模态中，且所有支撑证据严格限定为公开可检索内容，确保公平性与可复现性。除最终答案准确率外，我们引入经专家验证的子目标驱动流程评估机制，支持对中间推理行为进行细粒度分析及能力边界的系统性刻画。此外，我们提出OmniSeeker统一多模态浏览智能体框架，整合多样化网络搜索与视觉感知工具。综合实验表明，即使最先进模型在本基准上的准确率仅为36%，揭示了多模态信息整合与细粒度感知方面的关键瓶颈。研究结果凸显出现有模型能力与现实场景中鲁棒性多模态深度搜索之间的根本性差距。

Embed-RL：基于强化学习的推理驱动多模态嵌入方法
Embed-RL: Reinforcement Learning for Reasoning-Driven Multimodal Embeddings

Feb 14

ByHaonan Jiang, Yuji Wang, Yongjie Zhu, Xin Lu, Wenyu Qin, Meng Wang, Pengfei Wan, Yansong Tang

利用多模态大语言模型（MLLMs）已成为推进通用多模态嵌入（UME）技术以解决多样化跨模态任务的关键。近期研究表明，与判别式方法相比，融入生成式思维链（CoT）推理能显著增强任务特定表征。然而，现有生成式嵌入方法产生的推理CoT仅局限于对查询的文本分析，且与目标检索无关。针对这些局限性，我们提出一种推理驱动的UME框架，通过嵌入器引导的强化学习（EG-RL）优化推理器以生成具备可追溯性的证据化思维链（T-CoT）。我们的核心贡献包括三方面：（1）设计了EG-RL框架，通过嵌入器为推理器提供显式监督，确保生成的CoT轨迹与嵌入任务对齐；（2）提出T-CoT机制，通过提取关键多模态线索聚焦检索相关要素，为嵌入器提供多模态输入；（3）在有限计算资源下，我们的框架在MMEB-V2和UVRB基准测试中均超越领先的嵌入模型。通过将多模态证据融入结构化推理，并与检索导向的对齐机制相结合，该方案有效增强了跨模态语义一致性，提升了模型的细粒度匹配能力及复杂场景下的泛化性能。本研究证明，定向推理优化能显著提升多模态嵌入质量，为推理驱动的UME发展提供了实用高效的解决方案。

LaViDa-R1：推动统一多模态扩散语言模型的推理能力进阶
LaViDa-R1: Advancing Reasoning for Unified Multimodal Diffusion Language Models

Feb 15

ByShufan Li, Yuchen Zhu, Jiuxiang Gu, Kangning Liu, Zhe Lin, Yongxin Chen, Molei Tao, Aditya Grover, Jason Kuen

扩散语言模型（dLLMs）近期作为自回归大语言模型的有力替代方案崭露头角。最新研究进一步将其扩展至多模态理解与生成任务。本文提出LaViDa-R1——一种多模态通用推理扩散语言模型。与现有通过任务特定强化学习构建推理dLLMs的研究不同，LaViDa-R1以统一方式融合了多样化的多模态理解与生成任务。具体而言，该模型采用创新的统一后训练框架，无缝整合了监督微调（SFT）与多任务强化学习（RL），并运用答案强制、树搜索及互补似然估计等新型训练技术来提升效能与可扩展性。大量实验表明，LaViDa-R1在视觉数学推理、强推理需求的基础任务及图像编辑等多模态任务上均表现出卓越性能。

锚织记忆：基于局部空间记忆检索的世界一致性视频生成
AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories

Feb 16

ByZun Wang, Han Lin, Jaehong Yoon, Jaemin Cho, Yue Zhang, Mohit Bansal

在长时序中保持空间世界一致性始终是相机可控视频生成的核心挑战。现有基于记忆的方法通常通过从历史重建几何中渲染锚点视频，以全局重建的3D场景作为生成条件。然而，从多视角重建全局3D场景不可避免地会引入视角间错位问题——位姿与深度估计误差会导致同一表面在不同视角下被重建至略有差异的3D位置。这些不一致在融合过程中会累积成噪声几何，污染条件信号并降低生成质量。我们提出AnchorWeave框架，该记忆增强型视频生成系统以多个洁净的局部几何记忆替代单一错位的全局记忆，并学习协调其跨视角不一致性。具体而言，AnchorWeave执行与目标轨迹对齐的覆盖驱动式局部记忆检索，并通过多锚点编织控制器在生成过程中整合所选局部记忆。大量实验表明，AnchorWeave在保持优异视觉质量的同时显著提升了长时序场景一致性，消融与分析研究进一步验证了局部几何条件机制、多锚点控制策略及覆盖驱动检索的有效性。

对话式图像分割：基于可扩展监督的抽象概念定位
Conversational Image Segmentation: Grounding Abstract Concepts with Scalable Supervision

Feb 13

ByAadarsh Sahoo, Georgia Gkioxari

对话式图像分割将抽象的意图驱动概念转化为像素级精确掩码。现有指代性图像定位研究主要关注类别与空间查询（如“最左侧的苹果”），而忽视了功能与物理推理（如“哪里可以安全存放刀具？”）。针对这一空白，我们提出对话式图像分割（CIS）及涵盖实体、空间关系、意图、功能属性、安全性与物理推理的基准数据集ConverSeg。同时推出融合强分割先验与语言理解的ConverSeg-Net模型，以及无需人工标注即可生成提示-掩码对的AI驱动数据引擎。实验表明，当前语言引导的分割模型难以胜任CIS任务，而基于本数据引擎训练的ConverSeg-Net在ConverSeg基准上实现显著提升，并在现有语言引导分割基准中保持强劲性能。项目页面：https://glab-caltech.github.io/converseg/

MoRL：面向统一运动理解与生成的强化推理框架
MoRL: Reinforced Reasoning for Unified Motion Understanding and Generation

Feb 16

ByHongpeng Wang, Zeyu Zhang, Wenhao Li, Hao Tang

人体运动理解与生成是视觉与机器人技术的关键课题，但其推理能力和测试时规划能力仍存在局限。我们提出MoRL——一种通过监督微调与可验证奖励强化学习训练的统一多模态运动模型。针对特定任务的奖励设计结合了语义对齐与推理连贯性以提升理解能力，融合物理合理性与文本-运动一致性以优化生成效果，从而同步增强逻辑推理与感知真实性。为进一步优化推理过程，我们提出链式运动推理法（CoM），这是一种支持逐步规划与反思的测试时推理方法。我们还构建了两个大规模思维链数据集MoUnd-CoT-140K与MoGen-CoT-140K，将运动序列与推理轨迹及动作描述进行对齐。在HumanML3D和KIT-ML上的实验表明，MoRL相较现有最优基线模型取得显著提升。代码地址：https://github.com/AIGeeksGroup/MoRL。项目网站：https://aigeeksgroup.github.io/MoRL。

FireRed-Image-Edit-1.0 技术报告
FireRed-Image-Edit-1.0 Techinical Report

Feb 12

BySuper Intelligence Team, Changhao Qiao, Chao Hui, Chen Li, Cunzheng Wang, Dejia Song, Jiale Zhang, Jing Li, Qiang Xiang, Runqi Wang, Shuang Sun, Wei Zhu, Xu Tang, Yao Hu, Yibo Chen, Yuhao Huang, Yuxuan Duan, Zhiyi Chen, Ziyuan Guo

我们推出FireRed-Image-Edit——一种基于指令的图像编辑扩散Transformer模型，通过数据构建、训练方法和评估设计的系统化优化实现了最先进性能。我们构建了包含16亿样本的训练语料库，涵盖来自多元渠道的9亿文生图样本和7亿图像编辑样本。经过严格的数据清洗、分层处理、自动标注及两阶段筛选后，我们保留了超过1亿个生成与编辑任务均衡的高质量样本，确保强语义覆盖度和指令对齐。我们的多阶段训练流程通过预训练、监督微调和强化学习逐步构建编辑能力。为提升数据效率，我们引入了支持可变分辨率批处理的多条件感知分桶采样器，以及具有动态提示重索引功能的随机指令对齐技术。为稳定优化并增强可控性，我们提出了DPO的非对称梯度优化、针对文本编辑任务具备布局感知OCR奖励的DiffusionNFT方法，以及用于身份保持的可微一致性损失。我们还建立了REDEdit-Bench综合评测基准，涵盖15个编辑类别（包括新引入的美化与低级增强任务）。在REDEdit-Bench和公开基准（ImgEdit与GEdit）上的大量实验表明，本模型在开源与商业系统中均展现出竞争优势或更优性能。我们将公开代码、模型及评测套件以支持后续研究。

GitHub上的AI编程助手研究
AIDev: Studying AI Coding Agents on GitHub

Feb 9

ByHao Li, Haoxiang Zhang, Ahmed E. Hassan

AI编程助手正通过实现功能开发、调试和测试等任务，快速重塑软件工程领域。尽管其影响力与日俱增，但研究界仍缺乏全面记录这些助手在实际项目中应用情况的数据集。为填补这一空白，我们推出AIDev——一个聚焦真实GitHub仓库中由AI助手创建的拉取请求（自主式PR）的大规模数据集。AIDev汇集了由OpenAI Codex、Devin、GitHub Copilot、Cursor和Claude Code这五类AI助手生成的932,791个自主式PR，覆盖116,211个代码仓库，涉及72,189名开发者。此外，AIDev还包含从2,807个星标数超100的优质仓库中精选的33,596个自主式PR子集，额外提供代码评论、审阅记录、提交内容和相关议题等深度信息。该数据集为研究新时代软件工程中的人工智能应用、开发者效能提升以及人机协作奠定了坚实基础。 > AI智能体，自主人工智能，编程助手，自主编程，自主软件工程，智能体工程

LM词典：通过协调语义专家改进定义建模
LM-Lexicon: Improving Definition Modeling via Harmonizing Semantic Experts

Feb 15

ByYang Liu, Jiaye Yang, Weikang Li, Jiahui Liang, Yang Li, Lingyong Yan

我们提出LM-Lexicon——一种创新的定义建模方法，该方法通过稀疏专家混合架构整合了数据聚类、语义专家学习与模型融合技术。通过将定义建模任务分解至专用语义域，并训练小型语言模型作为领域专家，LM-Lexicon在五个广泛使用的基准测试中相较原有最优模型实现了显著提升（BLEU分数提高7%）。实证研究表明：1）聚类策略可实现细粒度专家专业化，使定义质量提升近10%；2）语义感知的域级路由机制相比传统词级路由提升专家效能1%；3）通过测试时计算优化与语义专家规模扩展可获得额外性能增益。本研究成果在推进定义建模技术的同时，为开发面向语义密集型应用的高效语言模型提供了重要洞见。

基于传统爪哇甘美兰音阶的ENSO现象初步声化研究
Preliminary sonification of ENSO using traditional Javanese gamelan scales

Feb 16

BySandy H. S. Herho, Rusmawan Suwarman, Nurjanna J. Trilaksono, Iwan P. Anwar, Faiz R. Fajary

声化（Sonification）——将数据映射至非语音音频的技术——为表征复杂动力系统提供了一个尚未充分探索的通道。本研究以厄尔尼诺-南方涛动（ENSO）这一低维气候混沌的典型范例为测试案例，通过复杂系统诊断方法评估文化情境化的声化呈现。基于1870-2024年尼诺3.4区海表温度异常指数的参数映射声化技术，我们将ENSO变率编码至爪哇甘美兰两种传统五声音阶体系（佩洛格与斯连德罗），并采用四种作曲策略进行重构，进而将生成音频视为二维声学相空间中的轨迹进行分析。基于递归的诊断、凸包几何及耦合分析表明：声化流程保留了关键动力学特征——交替模式产生最高轨迹递归率，呼应ENSO的准周期性；分层复调模式探索最广阔的相空间区域；两种音阶体系在频谱亮度与能量间引发质异性耦合机制（佩洛格以反相位为主，斯连德罗则呈现近独立状态）。相空间轨迹分析为复杂系统语境下比较声化设计方案提供了严谨的几何框架。尽管感知验证仍属必要，我们提出的动力系统方法论为评估此类映射关系提供了新路径。

EditCtrl：实现实时生成式视频编辑的局部与全局解耦控制
EditCtrl: Disentangled Local and Global Control for Real-Time Generative Video Editing

Feb 16

ByYehonathan Litman, Shikun Liu, Dario Seyb, Nicholas Milef, Yang Zhou, Carl Marshall, Shubham Tulsiani, Caleb Leak

高保真度生成式视频编辑通过利用预训练视频基础模型已实现显著的质量提升。然而，其计算成本仍是主要瓶颈——现有方法通常低效处理完整视频上下文，即使面对稀疏的局部编辑任务也不例外。本文提出EditCtrl，一种高效视频修复控制框架，可将计算资源精准聚焦于待编辑区域。我们的方案采用创新的局部视频上下文模块，该模块仅对掩码标记进行操作，使计算成本与编辑范围成正比。这种局部优先的生成过程由轻量级时序全局上下文编码器引导，能以最小开销确保视频整体上下文的一致性。EditCtrl不仅比当前最先进的生成式编辑方法提升10倍计算效率，其编辑质量甚至优于采用全局注意力机制的方案。最后，我们展示了EditCtrl如何解锁包括多区域文本提示编辑和自回归内容传播在内的新功能。

我能接收您的指令吗？基于蒙特卡洛树搜索的扩散语言模型槽位填充顺序优化
Can I Have Your Order? Monte-Carlo Tree Search for Slot Filling Ordering in Diffusion Language Models

Feb 13

ByJoshua Ong Jun Leang, Yu Zhao, Mihaela Cătălina Stoian, Wenda Li, Shay B. Cohen, Eleonora Giunchiglia

尽管掩码扩散模型中的规划填充解码方法在数学和代码推理任务中展现出潜力，但其性能对填充顺序高度敏感，常导致显著的输出差异。我们提出McDiffuSE框架，将槽位选择建模为决策过程，并通过蒙特卡洛树搜索优化填充顺序。该框架采用前瞻模拟机制，在确定填充前对部分生成结果进行评估，系统性地探索生成顺序的组合空间。实验表明，该方法相比自回归基线平均提升3.2%，较基础规划填充方法提升8.0%，在MBPP和MATH500数据集上分别取得19.5%和4.9%的显著增益。分析发现，虽然McDiffuSE主要遵循顺序生成模式，但融入非顺序生成对最大化性能至关重要。我们观察到，需要采用更大的探索常数（而非增加模拟次数）来克服模型置信度偏差并发现有效排序。这些发现确立了基于MCTS的规划作为提升掩码扩散模型生成质量的有效途径。

细胞大师：单细胞分析中的协作式细胞类型注释
CellMaster: Collaborative Cell Type Annotation in Single-Cell Analysis

Feb 12

ByZhen Wang, Yiming Gao, Jieyuan Liu, Enze Ma, Jefferson Chen, Mark Antkowiak, Mengzhou Hu, JungHo Kong, Dexter Pratt, Zhiting Hu, Wei Wang, Trey Ideker, Eric P. Xing

单细胞RNA测序（scRNA-seq）能够实现复杂组织的图谱级解析，揭示稀有谱系和短暂状态。然而，由于标记基因具有组织和状态依赖性，且新细胞状态缺乏参考标准，如何准确界定具有生物学意义的细胞身份仍是瓶颈。我们推出CellMaster人工智能代理，该系统通过模拟专家决策模式实现零样本细胞类型注释。与现有自动化工具不同，CellMaster利用大型语言模型（如GPT-4o）内嵌的知识体系，无需预训练或固定标记数据库即可实现实时注释，并提供可解释的判定依据。在涵盖8种组织的9个数据集测试中，CellMaster在自动模式下较最优基线方法（包括CellTypist和scTab）准确率提升7.1%。引入人机协同优化后，优势扩大至18.6%，其中亚群细胞注释准确率提升达22.1%。该系统在基线方法常失效的稀有及新型细胞状态识别方面表现尤为突出。源代码及网络应用详见https://github.com/AnonymousGym/CellMaster。

DHPLT：面向语义演变建模的大规模多语言历时语料库及词向量表示
DHPLT: large-scale multilingual diachronic corpora and word representations for semantic change modelling

Feb 12

ByMariia Fedorova, Andrey Kutuzov, Khonzoda Umarova

在本资源论文中，我们推出DHPLT——一个包含41种不同语言的历时语料库开放集合。该集合基于网络爬取的HPLT数据集，利用网页抓取时间戳作为文档创建时间的近似信号。语料库涵盖三个时段：2011-2015年、2020-2021年以及2024年至今（每种语言每个时段包含100万篇文档）。我们额外提供了预计算词汇类型与标记嵌入向量，以及选定目标词的词汇替换表，同时允许其他研究者使用相同数据集自主设定目标词。DHPLT旨在填补当前语义演变建模领域多语言历时语料库的空白（此前仅覆盖十几种高资源语言），为该领域开辟多种新型实验路径。本文所述所有资源均按语言分类，可通过https://data.hplt-project.org/three/diachronic/ 获取。

声视界专业版：开源交互式平台，用于房间脉冲响应分析与声学特性表征
Acoustivision Pro: An Open-Source Interactive Platform for Room Impulse Response Analysis and Acoustic Characterization

Feb 11

ByMandip Goswami

房间声学分析在建筑设计、音频工程、语音清晰度评估及听觉研究中具有核心地位。尽管现有混响时间、清晰度和语音传输指数等标准化指标，但将严谨信号处理与直观可视化相结合的易用工具仍显匮乏。本文推出AcoustiVision Pro——一个基于开源网页平台的房间脉冲响应综合分析系统。该平台可从上传或数据集获取的RIR中计算12种声学参数，提供早期反射声的交互式三维可视化，通过瀑布图生成频变衰减特性，并依据ANSI S12.60与ISO 3382等国际标准进行合规性检测。我们同步推出托管于Hugging Face的RIRMega和RIRMega Speech数据集，包含数千条带完整元数据的模拟房间脉冲响应。该系统支持基于FFT卷积的实时可听化处理，可生成适用于工程文档的详细PDF报告，并提供CSV数据导出功能以支持深度分析。本文阐述了各声学指标的数学基础，详述了系统架构，并通过教室声学、医疗设施设计和录音棚评估等跨领域案例研究，初步验证了该平台的实际应用价值。

检索增强生成中的知识抽取攻击与防御基准研究
Benchmarking Knowledge-Extraction Attack and Defense on Retrieval-Augmented Generation

Feb 10

ByZhisheng Qi, Utkarsh Sahu, Li Ma, Haoyu Han, Ryan Rossi, Franck Dernoncourt, Mahantesh Halappanavar, Nesreen Ahmed, Yushun Dong, Yue Zhao, Yu Zhang, Yu Wang

检索增强生成（RAG）已成为知识密集型应用的核心技术，涵盖企业聊天机器人、医疗辅助系统和智能体记忆管理等领域。然而最新研究表明，知识提取攻击可通过恶意构造的查询恢复知识库中的敏感内容，引发对知识产权窃取与隐私泄露的严重担忧。尽管已有研究探索了独立的攻防技术，但该领域研究仍呈碎片化状态，涉及异构检索嵌入模型、多样化生成模型，以及基于非标准化指标和不一致数据集的评估方法。为弥补这一空白，我们首次构建了针对RAG系统知识提取攻击的系统性基准测试框架。该基准涵盖广泛的攻防策略、代表性检索嵌入模型、开源与闭源生成器，并在统一实验框架下通过标准化协议对多数据集进行评估。通过整合实验环境并实现可复现、可比较的评估，本基准为应对新兴知识提取威胁、开发隐私保护型RAG系统提供了可行洞见与实践基础。相关代码已开源发布。

无视人类评判：基于大语言模型的摘要评估中的重叠性偏见（注：标题采用学术论文常见的双标题结构，前段以文学化表达点明核心问题，后段用专业术语明确研究主题。"Blind to the Human Touch"意译为"无视人类评判"，既保留原文隐喻又符合中文表达习惯。"Overlap Bias"译为"重叠性偏见"，采用自然语言处理领域的标准译法。）
Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation

Feb 7

ByJiangnan Fang, Cheng-Tse Liu, Hanieh Deilamsalehy, Nesreen K. Ahmed, Puneet Mathur, Nedim Lipka, Franck Dernoncourt, Ryan A. Rossi

在文本摘要等任务中，大语言模型（LLM）评判器常与传统基于算法的指标结合使用，因其能更好地捕捉语义信息、具备更强的推理能力，并对改写内容具有更高鲁棒性。然而，LLM评判器存在对文本长度和顺序等的偏好，且易受各类对抗性提示输入的影响。尽管近期研究已关注这些偏差，但少有工作基于明确定义的重合度指标进行细粒度分析。本研究通过分析摘要领域LLM评判结果与人工撰写响应的重合度函数关系，系统评估了其偏差特性。我们测试了9个参数规模从10亿到120亿的最新LLM，包括Gemma 3和LLaMA 3的多个变体。研究发现：当被评判摘要之间的相似度（以ROUGE和BLEU衡量）降低时，LLM评判器会逐渐更倾向于选择其他LLM生成的摘要而非人工撰写摘要，该模式在除一个模型外的所有测试模型中均存在，且不受模型自身位置偏差的影响。此外，模型甚至对有限重合度的摘要也难以准确评判，这表明摘要领域的LLM评判器需采用超越简单对比的进阶技术。

揭露开源权重模型对预填充攻击的系统性脆弱性
Exposing the Systematic Vulnerability of Open-Weight Models to Prefill Attacks

Feb 16

ByLukas Struppek, Adam Gleave, Kellin Pelrine

随着大语言模型能力的持续进步，其被滥用的风险也同步增长。闭源模型通常依赖外部防御机制，而开源权重模型则主要需依靠内部安全措施来抑制有害行为。现有的红队测试研究多集中于基于输入的越狱攻击和参数级操控，但开源权重模型本身支持预填充功能，这使得攻击者能在生成开始前预定义初始响应标记。尽管存在潜在威胁，此类攻击向量却鲜少获得系统性关注。我们开展了迄今规模最大的预填充攻击实证研究，在多个模型系列及前沿开源权重模型上评估了20余种现有及新型攻击策略。研究结果表明，预填充攻击对所有主流当代开源权重模型均持续有效，揭示出一个关键且此前未被充分探索的部署安全隐患。虽然某些大型推理模型对通用预填充表现出一定抗性，但仍无法抵御针对性设计的模型专属策略。我们的发现强调，模型开发者亟需将防御预填充攻击列为开源大语言模型的重点安防任务。

网络信息泄露：网络环境下的代理性过度分享
SPILLage: Agentic Oversharing on the Web

Feb 13

ByJaechul Roh, Eugene Bagdasarian, Hamed Haddadi, Ali Shahin Shamsabadi

基于大语言模型的智能体正逐渐实现开放互联网中用户任务的自动化，这些智能体通常具备访问用户资源（如电子邮件和日历）的权限。与在受控聊天机器人环境中回答问题的标准大语言模型不同，网络智能体在"开放环境"中运行，通过与第三方交互留下行为轨迹。因此我们提出核心问题：当网络智能体在真实网站上代用户执行任务时，会如何处理用户资源？本文正式提出"自然智能体过度共享"概念——即智能体在网络行为轨迹中无意泄露与任务无关的用户信息。我们引入SPILLage框架，从两个维度（渠道维度：内容vs行为；直接性维度：显性vs隐性）系统化表征过度共享现象。该分类法揭示了一个关键盲点：既有研究主要关注文本泄露，而网络智能体同样会通过可被监控的点击、滚动和导航模式进行行为层面的过度共享。我们在真实电商网站上对180项任务进行基准测试，通过人工标注严格区分任务相关与无关属性。涵盖两种智能体框架和三种骨干大语言模型的1,080次实验表明，过度共享现象普遍存在，其中行为过度共享量级是内容过度共享的5倍。这种效应在提示级缓解措施下持续存在甚至加剧。但若在执行前剔除任务无关信息，任务成功率最高可提升17.9%，证明减少过度共享能提升任务效能。我们的研究结果强调：保护网络智能体隐私是根本性挑战，需要拓展对"输出"的认知范畴——不仅要关注智能体输入的内容，更要关注其在网络上的行为轨迹。数据集与代码已开源：https://github.com/jrohsc/SPILLage。

Found-RL：基于基础模型增强的自动驾驶强化学习
Found-RL: foundation model-enhanced reinforcement learning for autonomous driving

Feb 11

ByYansong Qu, Zihao Sheng, Zilin Huang, Jiancong Chen, Yuhao Luo, Tianyi Wang, Yiheng Feng, Samuel Labi, Sikai Chen

强化学习（RL）已成为端到端自动驾驶（AD）领域的主流范式。然而，在复杂场景中，RL存在样本效率低和语义可解释性不足的问题。基础模型（特别是视觉语言模型VLM）可通过提供丰富的上下文感知知识缓解这一问题，但其高推理延迟阻碍了在高频RL训练循环中的部署。为弥合这一差距，我们推出Found-RL——专为利用基础模型高效增强自动驾驶RL而设计的平台。其核心创新是异步批量推理框架，该框架将繁重的VLM推理与仿真循环解耦，有效解决延迟瓶颈以支持实时学习。我们引入多种监督机制：价值边际正则化（VMR）和优势加权动作引导（AWAG），将类专家的VLM动作建议有效蒸馏至RL策略中。此外，我们采用高吞吐量CLIP模型进行稠密奖励塑造，并通过条件对比动作对齐解决CLIP的动态盲区问题——该方法基于离散化的速度/指令条件生成提示，通过特定上下文下的动作锚点评分产生归一化的边际奖励。Found-RL提供端到端的微调VLM集成流程，实验表明轻量化RL模型可实现接近百亿参数VLM的性能，同时保持实时推理能力（约500 FPS）。代码、数据及模型将公开于https://github.com/ys-qu/found-rl。

对定向指令选择的批判性审视：厘清关键因素与非关键因素
A Critical Look at Targeted Instruction Selection: Disentangling What Matters (and What Doesn't)

Feb 16

ByNihal V. Nayak, Paula Rodriguez-Diaz, Neha Hulkund, Sara Beery, David Alvarez-Melis

大型语言模型（LLM）的指令微调通常需要从大规模候选池中筛选指令训练数据子集，并利用目标任务的小规模查询集进行操作。尽管相关研究日益受到关注，但针对目标指令选择的文献仍呈现碎片化且不够透明：不同方法在筛选预算上差异显著，常忽略零样本基线，且频繁混淆关键组件的贡献。这导致实践者缺乏针对目标任务的指令筛选操作指南。本研究通过解构并系统分析两大核心要素——数据表征与筛选算法，旨在厘清该领域现状。我们提出的框架支持跨模型、跨任务、跨预算的受控比较。研究发现，仅基于梯度的数据表征方法能持续实现筛选子集与查询集的相似度预测性能，该结论在不同数据集和模型上均成立。虽然尚无单一方法占据绝对优势，但在低预算条件下，基于梯度的表征配合贪心循环筛选算法平均表现最佳，但这种优势随预算增加而减弱。此外，我们将多种现有筛选算法统一为选定子集与查询集间近似距离最小化的不同形式，并通过新的泛化边界理论支持该观点。总体而言，本研究为LLM微调中更规范的数据筛选提供了关键见解与理论基础。代码已发布于https://github.com/dcml-lab/targeted-instruction-selection。

知非真解：基于认知与行为洞察重筑生成式主动性的根基
Knowing Isn't Understanding: Re-grounding Generative Proactivity with Epistemic and Behavioral Insight

Feb 16

ByKirandeep Kaur, Xingda Lyu, Chirag Shah

生成式AI智能体将理解等同于解决显性查询，这种假设将交互局限在用户能够明确表述的范围内。当用户自身尚未意识到缺失、风险或值得考量的因素时，此种假设便会失效。在此类情境下，主动性不仅是效率的提升手段，更是一种认知层面的必然需求。我们将这种状态称为"认知不完整性"——即有效协作的进展取决于对未知未知领域的探索。现有主动性方法仍局限于狭隘的预测性框架，仅从历史行为进行推断并预设目标已明确定义，因而无法为用户提供实质性支持。然而，超越用户当前认知边界呈现可能性本身并非必然有益。无约束的主动干预可能误导注意力、造成信息过载甚至带来危害。因此，主动型智能体需要行为根基：关于干预时机、方式及程度的原则性约束。我们主张生成式主动性必须同时植根于认知基础与行为规范。借鉴无知哲学与主动性行为研究，我们认为这些理论为设计能够负责任地参与互动、培育有意义协作关系的智能体提供了关键指导。