HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

32 papers found

论数据工程在扩展大型语言模型终端能力中的作用
On Data Engineering for Scaling LLM Terminal Capabilities

Feb 24

ByRenjie Pi, Grace Lam, Mohammad Shoeybi, Pooya Jannaty, Bryan Catanzaro, Wei Ping

101

尽管大型语言模型的终端能力近期进展迅速，但支撑顶尖终端智能体的训练数据策略仍鲜有公开。我们通过系统性研究终端智能体的数据工程实践填补这一空白，做出两项关键贡献：(1) Terminal-Task-Gen——支持基于种子和基于技能的任务构建的轻量级合成任务生成流程；(2) 涵盖数据筛选、课程学习、长上下文训练及扩展规律的综合数据与训练策略分析。该流程产出Terminal-Corpus——面向终端任务的大规模开源数据集。基于该数据集，我们训练了从Qwen3(8B, 14B, 32B)初始化的Nemotron-Terminal模型系列，在Terminal-Bench 2.0上实现显著提升：Nemotron-Terminal-8B从2.5%提升至13.0%，Nemotron-Terminal-14B从4.0%提升至20.2%，Nemotron-Terminal-32B从3.4%提升至27.4%，达到与参数量更大模型相媲美的性能。为加速该领域研究，我们在https://huggingface.co/collections/nvidia/nemotron-terminal开源了模型检查点及大部分合成数据集。

面向查询与记忆感知的长文本重排序器
Query-focused and Memory-aware Reranker for Long Context Processing

Feb 12

ByYuqing Li, Jiangnan Li, Mo Yu, Guoxuan Ding, Zheng Lin, Weiping Wang, Jie Zhou

基于现有对大型语言模型中检索头部分析的研究，我们提出了一种新型重排序框架，通过训练模型利用选定注意力头的评分来评估段落-查询相关性。该方法提供了列表级解决方案，在排序过程中充分利用候选短名单内的整体信息。同时，该框架能自然生成连续的相关性评分，使得模型无需依赖李克特量表标注即可在任意检索数据集上进行训练。我们的框架兼具轻量化与高效性，仅需小规模模型（如40亿参数）即可实现强劲性能。大量实验表明，本方法在维基百科和长篇叙事数据集等多个领域均优于现有的点式和列表式先进重排序器，并在评估对话理解与记忆能力的LoCoMo基准测试中创造了最新纪录。我们进一步证明该框架支持灵活扩展：例如通过增强候选段落的上下文信息可提升排序准确率，而采用中间层注意力头进行训练则能在保持性能的同时提升效率。

PyVision-RL：通过强化学习锻造开放式智能视觉模型
PyVision-RL: Forging Open Agentic Vision Models via RL

Feb 24

ByShitian Zhao, Shaoheng Lin, Ming Li, Haoquan Zhang, Wenshuo Peng, Kaipeng Zhang, Chen Wei

面向智能体多模态模型的强化学习常面临交互崩溃问题，即模型倾向于减少工具使用与多轮推理，限制了智能体行为的优势。我们提出PyVision-RL——一个面向开源权重多模态模型的强化学习框架，通过稳定训练来维持交互持续性。该方法结合过采样-过滤-排序的轨迹生成策略与累积式工具奖励机制，既能防止交互崩溃，又能促进多轮工具使用。基于统一训练流程，我们开发了面向图像与视频理解的PyVision-Image和PyVision-Video模型。在视频推理任务中，PyVision-Video采用按需上下文构建技术，在推理过程中选择性采样任务相关帧，显著减少视觉标记的使用。实验表明，该方法在保持强劲性能的同时提升了效率，证明持续交互与按需视觉处理对可扩展多模态智能体具有关键意义。

KV绑定的测试时训练实为线性注意力的隐秘形式
Test-Time Training with KV Binding Is Secretly Linear Attention

Feb 24

ByJunchen Liu, Sven Elflein, Or Litany, Zan Gojcic, Ruilong Li

测试时训练（TTT）采用键值绑定作为序列建模层，通常被解释为一种在线元学习形式，即在测试时记忆键值映射关系。然而，我们的分析揭示了多个与该记忆驱动解释相矛盾的现象。基于这些发现，我们重新审视TTT的数学表述，证明一大类TTT架构可表示为某种习得的线性注意力算子。这一视角不仅能解释先前令人困惑的模型行为，还带来多重实践价值：它支持基于理论原理的架构简化，允许构建完全并行的实现方案（在保持性能的同时提升效率），并能将多样化的TTT变体系统性地归结为标准线性注意力形式。总体而言，我们的研究将TTT重新定义为具有增强表征能力的习得线性注意力机制，而非测试时记忆过程。

从感知到行动：视觉推理的交互式基准测试
From Perception to Action: An Interactive Benchmark for Vision Reasoning

Feb 24

ByYuhao Wu, Maojia Song, Yihuai Lan, Lei Wang, Zhiqiang Hu, Yao Xiao, Heng Zhou, Weihua Zheng, Dylan Raharja, Soujanya Poria, Roy Ka-Wei Lee

理解物理结构对于具身智能体、交互式设计及长程操作等现实应用至关重要。然而，当前主流的视觉语言模型评估仍集中于与结构无关的单轮测试（如视觉问答），无法评估智能体在动态环境中综合推理几何关系、接触关系与支撑关系如何共同制约可行行动的能力。为填补这一空白，我们推出因果行动与交互层级基准——一个基于交互式三维物理环境的测试平台，旨在评估模型能否理解、规划并执行基于物理约束的结构化动作序列。该基准将评估重点从被动感知转向主动问题解决，涵盖机械联锁拼图、三维堆叠与装箱等任务。我们在统一交互设置下对前沿视觉语言模型和扩散模型进行了全面研究。结果表明，顶尖模型仍难以内化物理结构与因果约束，常无法生成可靠的长程规划，亦不能稳健地将感知结构转化为有效行动。项目地址：https://social-ai-studio.github.io/CHAIN/。

多模态下的多向量索引压缩
Multi-Vector Index Compression in Any Modality

Feb 24

ByHanxiang Qin, Alexander Martin, Rohan Jha, Chunsheng Zuo, Reno Kriz, Benjamin Van Durme

我们研究面向任意模态的延迟交互多向量高效检索方法。延迟交互已成为文本、图像、视觉文档及视频信息检索的主流范式，但其计算与存储成本随文档长度线性增长，对富含图像、视频和音频的语料库成本高昂。为突破此限制，我们探索在固定向量预算下对多向量文档表征进行查询无关压缩的方法。我们提出四种索引压缩技术：序列缩放、记忆令牌、层次池化及新颖的注意力引导聚类（AGC）。AGC采用注意力引导机制识别文档中最具语义显著性的区域作为聚类中心，并加权令牌聚合。通过在文本（BEIR）、视觉文档（ViDoRe）和视频（MSR-VTT、MultiVENT 2.0）检索任务上的评估表明，注意力引导聚类始终优于其他参数化压缩方法（序列缩放与记忆令牌），相比非参数化层次聚类具有更灵活的索引尺寸调节能力，且与完整未压缩索引相比实现了具有竞争力或更优的性能。源代码发布于：github.com/hanxiangqin/omni-col-press。

QuantVLA：面向视觉-语言-动作模型的尺度校准后训练量化方法
QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models

Feb 23

ByJingxuan Zhang, Yunta Hsieh, Zhongwei Wang, Haokun Lin, Xin Wang, Ziqi Wang, Yingtie Lei, Mi Zhang

视觉-语言-动作（VLA）模型通过统一感知、语言与控制功能来实现具身智能体，但面对模型规模向长时程和大容量主干网络扩展时急剧增长的计算与内存需求，其实际部署仍存在显著挑战。为突破这些瓶颈，我们提出QuantVLA——一种无需重新训练的训练后量化（PTQ）框架。据我们所知，这是首个面向VLA系统的PTQ方案，也是首个成功量化扩散变换器（DiT）动作头的技术。QuantVLA包含三项尺度校准组件：（1）选择性量化布局，将语言主干网络与DiT中所有线性层整数化，同时保持注意力投影层为浮点运算以维持原始算子调度；（2）注意力温度匹配，通过轻量级逐头缩放机制稳定注意力对数概率，并在推理时将其折叠至反量化尺度中；（3）输出头平衡，通过逐层残差接口校准缓解投影后能量漂移。该框架无需额外训练，仅需少量未标注校准数据，支持低比特权重与激活值的整数核运算，且保持模型架构不变。在LIBERO基准测试中，QuantVLA在典型VLA模型上不仅超越全精度基线模型的任务成功率，量化组件实现约70%的相对内存节省，端到端推理延迟加速1.22倍，为在严苛算力、内存与功耗约束下实现可扩展的低比特具身智能提供了可行路径。

DREAM：基于智能体度量的深度研究评估
DREAM: Deep Research Evaluation with Agentic Metrics

Feb 21

ByElad Ben Avraham, Changhao Li, Ron Dorfman, Roy Ganz, Oren Nuriel, Amir Dudai, Aviad Aberdam, Noah Flynn, Elman Mansimov, Adi Kalyanpur, Ron Litman

深度研究智能体能够生成分析师级别的报告，但由于缺乏单一标准答案及研究质量的多维特性，其评估仍面临挑战。现有基准测试虽提出不同方法，却陷入"合成幻象"困境——表面流畅度与文献引用高度吻合可能掩盖底层事实错误与推理缺陷。我们通过构建四维分类法揭示关键能力错配：静态评估器先天缺乏评估时效性与事实准确性所需的工具调用能力。为此，我们提出DREAM框架（基于智能体指标的深度研究评估），通过使评估过程本身具备智能体特性来实现能力对等原则。DREAM采用结合查询无关指标与工具调用智能体生成自适应指标的评估协议，实现时效感知覆盖、事实核查验证及系统化推理探测。受控实验表明，DREAM对事实错误与时效性衰退的检测灵敏度显著优于现有基准，为规模化无参考评估提供了新范式。

洞察与修正缺陷：通过智能数据合成赋能视觉语言模型与扩散模型理解视觉伪影
See and Fix the Flaws: Enabling VLMs and Diffusion Models to Comprehend Visual Artifacts via Agentic Data Synthesis

Feb 24

ByJaehyun Park, Minyoung Ahn, Minkyu Kim, Jonghyun Lee, Jae-Gil Lee, Dongmin Park

尽管扩散模型近期取得了进展，但AI生成图像仍常存在影响真实感的视觉伪影。虽然更充分的预训练与更大规模的模型或许能减少伪影，但无法保证完全消除，这使得伪影消减成为至关重要的研究方向。现有基于人工标注伪影数据集的方法成本高昂且难以扩展，凸显了对自动化获取伪影标注数据集的迫切需求。本文提出ArtiAgent系统，能高效生成真实图像与注入伪影的图像对。该系统包含三个智能体：感知智能体负责识别并定位真实图像中的实体与子实体，合成智能体通过创新的扩散变压器块状嵌入操作与伪影注入工具引入伪影，策展智能体则对合成伪影进行筛选并为每个实例生成局部与全局解释。基于ArtiAgent，我们合成了包含10万张具有丰富伪影标注的图像，并在多类应用中验证了其有效性与通用性。代码发布于link。

LongCLI-Bench：命令行界面中长期智能体编程的初步基准与研究
LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

Feb 15

ByYukang Feng, Jianwen Sun, Zelai Yang, Jiaxin Ai, Chuanhao Li, Zizhen Li, Fanrui Zhang, Kang He, Rui Ma, Jifan Lin, Jie Sun, Yang Xiao, Sizhuo Zhou, Wenxiao Wu, Yiming Liu, Pengfei Liu, Yu Qiao, Shenglin Zhang, Kaipeng Zhang

人工智能辅助编程的最新进展已使智能体能够通过命令行界面执行复杂工作流，然而现有基准测试受限于任务跨度短、GitHub数据采集导致的数据污染，以及缺乏细粒度评估指标，无法严格评估现实软件工程所需的长程规划与执行能力。为弥补这些不足，我们推出LongCLI-Bench——一个专为评估长跨度现实任务中智能体能力而设计的综合基准。我们从千余项计算机科学作业和真实工作流中精选出20个高质量长跨度任务，涵盖从零开发、功能增补、缺陷修复到代码重构四大工程类别。我们为LongCLI-Bench提出双轨测试协议：既衡量需求实现度（从失败到通过），又评估回归规避能力（从通过到保持通过），并引入步骤级评分以精确定位执行故障。大量实验表明，即使最先进的智能体在LongCLI-Bench中的通过率也不足20%。步骤级分析进一步揭示，绝大多数任务在完成度低于30%时便陷入停滞，表明关键故障往往出现在早期阶段。虽然自我修正能带来有限提升，但通过计划注入和交互式指导实现的人机协作能产生显著改进。这些结果凸显未来研究必须重点关注协同式人机工作流的开发，同时推进智能体的规划与执行能力，以攻克长跨度任务性能中的关键挑战。

Conv-FinRe：面向实用导向金融推荐的对话式纵向基准框架
Conv-FinRe: A Conversational and Longitudinal Benchmark for Utility-Grounded Financial Recommendation

Feb 19

ByYan Wang, Yi Han, Lingfei Qian, Yueru He, Xueqing Peng, Dongji Feng, Zhuohan Xie, Vincent Jim Zhang, Rosie Guo, Fengran Mo, Jimin Huang, Yankai Chen, Xue Liu, Jian-Yun Nie

当前大多数推荐基准主要评估模型模仿用户行为的能力。然而在金融投顾领域，受市场波动影响，观测到的用户行为可能包含噪声或存在短视性，与用户的长期目标产生冲突。若将用户选择作为唯一基准，则会将行为模仿与决策质量混为一谈。我们推出Conv-FinRe——一个面向股票推荐的对话式长期评估基准，旨在超越行为匹配的范畴对大型语言模型进行评估。该基准要求模型在给定入职访谈、渐进式市场背景和投顾对话后，在固定投资周期内生成股票排名。关键创新在于，Conv-FinRe提供多视角参考标准，能够基于投资者特定风险偏好区分描述性行为与规范性效用，从而诊断LLM是遵循理性分析、模仿用户噪声，还是受市场动量驱动。我们基于真实市场数据和人类决策轨迹构建该基准，实例化受控投顾对话场景，并对一系列前沿LLM进行评估。结果表明理性决策质量与行为对齐之间存在持续张力：基于效用排名表现优异的模型往往难以匹配用户选择，而行为对齐的模型则可能过度拟合短期噪声。该数据集已公开发布于Hugging Face平台，代码库可在GitHub获取。

通用大语言模型代理的基准测试时扩展研究
Benchmark Test-Time Scaling of General LLM Agents

Feb 22

ByXiaochuan Li, Ryan Ming, Pranav Setlur, Abhijay Paladugu, Andy Tang, Hao Kang, Shuai Shao, Rong Jin, Chenyan Xiong

随着LLM智能体日益被期待成为能处理开放式用户请求的通用系统，现有基准测试主要聚焦于开发专用智能体的领域感知环境，而评估通用智能体则需要更贴近现实的设定，以挑战其在统一环境中跨越多技能与工具的操作能力。我们推出General AgentBench基准测试，该框架通过整合搜索、编程、推理和工具使用四大领域，为通用LLM智能体评估提供统一平台。基于此基准，我们系统研究了顺序扩展（迭代交互）与并行扩展（多轨迹采样）两种测试时扩展模式下的性能变化。对十大主流LLM智能体的评估表明，从领域特定评估转向通用智能体设定时会出现显著的性能衰减。更重要的是，我们发现两种扩展方法在实践中均未带来有效性能提升，这源于两个根本性局限：顺序扩展中的上下文天花板效应与并行扩展中的验证鸿沟问题。代码已开源于https://github.com/cxcscmu/General-AgentBench。

PETS：一种面向高效测试时自一致性的最优轨迹分配原则性框架
PETS: A Principled Framework Towards Optimal Trajectory Allocation for Efficient Test-Time Self-Consistency

Feb 18

ByZhangyi Liu, Huaizhi Qu, Xiaowei Yin, He Sun, Yanjun Han, Tianlong Chen, Zhun Deng

测试时尺度缩放通过聚合随机推理轨迹可提升模型性能。然而在有限计算预算下实现样本高效的测试时自一致性仍是开放难题。我们提出PETS（原则化高效测试时自一致性）方法，通过优化框架对轨迹分配进行原则性研究。该方法的核心理念是自一致率——一种定义为与无限预算多数投票结果一致性的新度量。该公式使样本高效的测试时分配具有理论依据并适用于严谨分析。我们研究了离线和在线两种场景：在问题预先可知的离线场景中，通过将推理轨迹建模为众包工人，将轨迹分配问题与经典成熟领域相关联，从而利用现有理论成果获得性能保证及高效的多数投票分配算法；在问题序列到达的在线流式场景中，受离线框架启发提出新方法，在保持理论保证与计算效率的同时使预算分配适配问题难度。实验表明PETS持续优于均匀分配策略，在GPQA数据集上两种场景均实现完美自一致性，同时相比均匀分配减少采样预算达75%（离线）和55%（在线）。代码详见https://github.com/ZDCSlab/PETS。

磁带：语言模型代理中的工具引导自适应规划与约束执行
TAPE: Tool-Guided Adaptive Planning and Constrained Execution in Language Model Agents

Feb 23

ByJongwon Jeong, Jungtaek Kim, Kangwook Lee

语言模型智能体在需要与环境进行多轮交互的任务中展现出卓越能力，但在单次错误即导致不可逆失败的场景中仍显脆弱，尤其在严格可行性约束条件下更为明显。我们系统分析了现有智能体框架，发现规划不完善与执行随机性是主要原因。为此，我们提出工具引导的自适应约束执行规划框架（TAPE）。该框架通过将多组规划方案聚合为图结构，并调用外部求解器识别可行路径以增强规划能力；在执行阶段采用约束解码降低采样噪声，同时根据环境反馈与预期状态的偏差进行自适应重规划。在Sokoban、ALFWorld、MuSiQue和GSM8K-Hard上的实验表明，TAPE始终优于现有框架，在困难场景中提升尤为显著：困难设置下的平均成功率提升21.0个百分点，弱基模型平均成功率提升20.0个百分点。代码与数据详见此处。

高效推理的艺术：数据、奖励与优化
The Art of Efficient Reasoning: Data, Reward, and Optimization

Feb 24

ByTaiqiang Wu, Zenan Zu, Bo Zhou, Ngai Wong

大型语言模型（LLMs）持续受益于规模化的思维链推理，但也承受着沉重的计算开销。为解决这一问题，高效推理技术旨在通过强化学习的奖励塑造机制，激励模型生成简短而准确的思维轨迹。本文系统性地研究了LLMs高效推理的内在机制。为全面评估，我们提出采用更细粒度的指标，包括基于正确性的长度分布分析，以及在2k至32k令牌预算范围内的性能表现。首先，我们发现训练过程遵循两阶段范式：长度适应与推理优化。随后，我们在统一实验框架下开展大规模实验（累计约20万GPU小时），解构了训练提示词与推演过程、奖励函数设计及优化策略。关键发现表明：在相对简单的提示词上训练可确保正向奖励信号的密度，从而避免长度塌缩问题。同时，习得的长度偏好具备跨领域泛化能力。我们将所有发现提炼为具有实践价值的指导原则，并在Qwen3系列模型（0.6B至30B参数规模）上进行验证，证明了其鲁棒性与泛化能力。

RankEvolve：基于大语言模型驱动的进化算法实现检索算法的自动化发现
RankEvolve: Automating the Discovery of Retrieval Algorithms via LLM-Driven Evolution

Feb 18

ByJinming Nian, Fangchen Li, Dae Hoon Park, Yi Fang

诸如BM25和狄利克雷平滑查询似然这类检索算法仍是高效强健的一阶排序器，但其改进多依赖于参数调优与人工经验。本研究探索在评估器引导下，通过进化搜索驱动大语言模型自动发现更优的词汇检索算法。我们提出RankEvolve——一种基于AlphaEvolve的程序演化框架，将候选排序算法表示为可执行代码，并依据在BEIR和BRIGHT的12个IR数据集上的检索效果进行迭代变异、重组与筛选。该系统以BM25和狄利克雷平滑查询似然两个种子程序为起点，最终演化出的算法不仅具有新颖性且效果显著，在完整BEIR/BRIGHT基准以及TREC DL 19/20数据集上均展现出良好的迁移性能。实验结果表明，评估器引导的LLM程序演化为自动发现新型排序算法提供了可行路径。

Aletheia自主攻克FirstProof验证系统。
Aletheia tackles FirstProof autonomously

Feb 24

ByTony Feng, Junehyuk Jung, Sang-hyun Kim, Carlo Pagano, Sergei Gukov, Chiang-Chiang Tsai, David Woodruff, Adel Javanmard, Aryan Mokhtari, Dawsen Hwang, Yuri Chervonyi, Jonathan N. Lee, Garrett Bingham, Trieu H. Trinh, Vahab Mirrokni, Quoc V. Le, Thang Luong

我们在首届FirstProof挑战赛中测试了基于Gemini 3 Deep Think的数学研究智能体Aletheia（Feng等人，2026b）的表现。在挑战赛规定时限内，根据多数专家评估，Aletheia自主解决了10道题目中的6道（第2、5、7、8、9、10题）；需要说明的是，仅在第8题上专家意见未达成一致。为保持完全透明，我们阐述了对FirstProof规则的理解，并公开了实验细节与评估方法。原始提示词及输出结果详见https://github.com/google-deepmind/superhuman/tree/main/aletheia。

解绑尤利西斯：基于分头处理的记忆高效上下文并行技术
Untied Ulysses: Memory-Efficient Context Parallelism via Headwise Chunking

Feb 24

ByRavi Ghadia, Maksim Abraham, Sergei Vorobyov, Max Ryabinin

针对长序列的高效Transformer模型处理通常需要借助上下文并行技术将计算任务分配至多个加速器。该领域的主流方法（如环形注意力或DeepSpeed Ulysses）虽能实现上下文维度的扩展，但未着重优化内存效率，从而限制了其支持的序列长度。更先进的技术（如全流水线分布式Transformer或激活值卸载）虽能进一步扩展上下文长度，但会牺牲训练吞吐量。本文提出UPipe——一种在注意力头层级进行细粒度分块的简洁而高效的上下文并行技术。该方法显著降低了自注意力机制的激活内存消耗，突破激活内存瓶颈，从而支持更长的上下文长度。在32B参数规模的Transformer中，我们的方法将注意力层中间张量的内存使用量降低高达87.5%，同时保持与既有上下文并行技术相当的训练速度。在单台8×H100节点上训练Llama3-8B时，UPipe可支持500万标记的上下文长度，较现有方法提升超过25%。

连续去噪：一步到位的语言建模方法
One-step Language Modeling via Continuous Denoising

Feb 18

ByChanhyuk Lee, Jaehoon Yoo, Manan Agarwal, Sheel Shah, Jerry Huang, Aditi Raghunathan, Seunghoon Hong, Nicholas M. Boffi, Jinwoo Kim

基于离散扩散的语言模型因其有望比自回归模型实现更快生成而广受关注。然而在实际应用中，这类模型在少步数生成场景下会出现样本质量急剧下降的问题，未能兑现其潜力。本文提出，利用基于流的连续去噪方法构建的语言模型，在生成质量和速度上均能超越离散扩散模型。通过重新审视离散模态上流模型的基本原理，我们构建了基于流的语言模型（FLM），该模型对独热编码的词元表示执行欧几里得空间去噪。我们证明该模型可通过交叉熵目标预测纯净数据的方式进行训练，并引入一种简单的时间重参数化方法显著提升训练稳定性和生成质量。通过将FLM蒸馏至其对应的流映射，我们获得了可实现少步数生成的蒸馏流映射语言模型（FMLM）。在LM1B和OWT语言数据集上，FLM的生成质量达到了最先进离散扩散模型的水准。而FMLM模型在各项指标上全面优于近期提出的少步数语言模型，其单步生成质量甚至超过这些模型8步生成的效果。我们的研究对"离散扩散过程是离散模态生成建模必要条件"这一普遍假设提出了质疑，为大规模流式语言模型的加速发展开辟了新路径。代码已发布于https://github.com/david3684/flm。

隐性智能——基于用户未言之语评估智能体
Implicit Intelligence -- Evaluating Agents on What Users Don't Say

Feb 23

ByVed Sirdeshmukh, Marc Wetter

现实世界中对智能体的请求本质上是非完备定义的。人类自然交流依赖于共享语境和未言明的约束条件，说话者期望听者能够自行推断。当前智能体基准测试主要检验显式指令执行能力，却未能评估智能体是否具备推断隐性需求的能力——这些需求涵盖无障碍需求、隐私边界、灾难性风险及情境约束。我们提出"隐性智能"评估框架，通过"世界即代理"测试平台检验AI智能体能否超越指令跟随成为真正的目标实现者。该平台采用人类可读的YAML文件定义交互世界，并由语言模型进行模拟。我们的测试场景具有用户请求表面简单、正确解决方案隐含复杂性、约束条件可通过环境探索发现三大特征。在对16个前沿开源模型进行205个场景测试后，发现即使表现最佳的模型场景通过率也仅为48.3%，这表明在弥合字面指令执行与类人情境推理之间的差距方面仍存在巨大改进空间。

从试错中学习：具身大语言模型的反思式测试时规划
Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs

Feb 24

ByYining Hong, Huang Huang, Manling Li, Li Fei-Fei, Jiajun Wu, Yejin Choi

具身大语言模型虽赋予机器人高层次任务推理能力，但其无法反思错误成因，导致部署过程沦为一系列独立试错——错误不断重复而非沉淀为经验。受人类反思实践者启发，我们提出反射式测试时规划框架，融合两种反思模式：行动中反思（通过测试时扩展生成多个候选动作，在执行前利用内部反思进行评分）与行动后反思（通过测试时训练，在执行后基于外部反思更新内部反思模型与行动策略）。我们还引入回溯性反思机制，使智能体能重新评估早期决策，并基于事后认知进行模型更新，实现精准的长周期信用分配。在全新设计的长周期家庭任务基准与MuJoCo橱柜装配基准上的实验表明，该方法显著超越基线模型，消融研究验证了两种反思模式的互补性。包括真实机器人试验在内的定性分析，凸显了反思机制对行为修正的有效性。

面向结构化图像表征的通信启发式分词方法
Communication-Inspired Tokenization for Structured Image Representations

Feb 24

ByAram Davtyan, Yusuf Sahin, Yasaman Haghighi, Sebastian Stapf, Pablo Acuaviva, Alexandre Alahi, Paolo Favaro

离散图像分词器已成为现代视觉与多模态系统的核心组件，为基于Transformer的架构提供序列化接口。然而现有方法主要仍针对重建与压缩任务进行优化，其生成的词元往往捕捉局部纹理而非物体级语义结构。受人类交流的渐进性与组合性启发，我们提出通信激励的分词框架COMiT，用于学习结构化的离散视觉词元序列。该框架通过在固定词元预算内迭代观察局部图像区块并循环更新离散表示来构建潜在消息。模型在每一步整合新视觉信息的同时，会对现有词元序列进行优化重组。经过多次编码迭代后，最终生成的消息将作为流匹配解码器的条件输入以重建完整图像。编码与解码过程均集成于单一Transformer模型，通过结合流匹配重建损失与语义表示对齐损失进行端到端训练。实验表明，语义对齐虽能提供基础支撑，但注意力驱动的序列化分词机制对于诱导可解释的以物体为中心的词元结构至关重要，相较现有方法能显著提升组合泛化与关系推理能力。

通过数据标准化实现生成式人工智能与机器学习协同预测集装箱滞留时间
Generative AI and Machine Learning Collaboration for Container Dwell Time Prediction via Data Standardization

Feb 24

ByMinseop Kim, Takhyeong Kim, Taekhyun Park, Hanbyeol Park, Hyerim Bae

进口集装箱滞留时间（ICDT）预测是提升集装箱码头作业效率的关键任务，精准预测能有效减少场桥对集装箱的二次搬移操作。实现这一目标需要准确预测单个集装箱的滞留时长，但决定滞留时间的主要因素——货主信息与货物信息——均以非结构化文本形式记录，限制了其在机器学习模型中的有效应用。本研究提出一种生成式人工智能（Gen AI）与机器学习协同的框架以突破此局限。该框架利用Gen AI将非结构化信息标准化为国际通用代码，并通过电子数据交换状态更新触发动态重预测，使机器学习模型能够精准预测ICDT。基于真实集装箱码头数据的大规模实验表明：相较于未使用标准化信息的传统模型，本方法在平均绝对误差指标上提升13.88%。进一步将优化后的预测结果应用于堆场堆存策略，可实现高达14.68%的翻箱率降低，实证了Gen AI提升码头运营效率的潜力。本研究从技术路径与方法论层面为生成式人工智能在港口物流领域的应用提供了有效性与实施思路。

SIMSPINE：面向三维脊柱运动标注与基准测试的生物力学感知仿真框架
SIMSPINE: A Biomechanics-Aware Simulation Framework for 3D Spine Motion Annotation and Benchmarking

Feb 24

ByMuhammad Saif Ullah Khan, Didier Stricker

脊柱运动建模是理解人体生物力学的基础，但由于脊柱复杂的多关节运动学特性及大规模三维标注数据的缺乏，该领域在计算机视觉中仍未被充分探索。我们提出一种生物力学感知的关键点模拟框架，通过从肌肉骨骼模型推导出解剖学一致的3D脊柱关键点，对现有人体姿态数据集进行增强。基于该框架，我们创建了首个开放数据集SIMSPINE，为无束缚条件下的室内多相机全身运动提供稀疏椎骨级三维脊柱标注。该数据集包含214万帧数据，能够从细微姿态变化中实现数据驱动的椎骨运动学学习，弥合了肌肉骨骼模拟与计算机视觉之间的鸿沟。此外，我们发布了涵盖微调二维检测器、单目三维姿态提升模型和多视角重建流程的预训练基线，建立了生物力学有效脊柱运动估计的统一基准。具体而言，我们的二维脊柱基线在受控环境中将最优性能从0.63 AUC提升至0.80，在自然场景脊柱追踪中将AP值从0.91提升至0.93。该模拟框架与SIMSPINE数据集共同推动了基于视觉的生物力学、运动分析和数字人体建模研究，实现了自然条件下可复现、解剖学基础扎实的三维脊柱估计。

扩散对偶论，第二章：Ψ采样器与高效课程学习
The Diffusion Duality, Chapter II: Ψ-Samplers and Efficient Curriculum

Feb 24

ByJustin Deschenaux, Caglar Gulcehre, Subham Sekhar Sahoo

均匀状态离散扩散模型因其具备自我校正能力，在少步生成与引导任务中表现卓越，使其在这些场景下优于自回归或掩码扩散模型。然而当采用祖先采样器时，其采样质量会随步数增加而进入平台期。我们提出了一类适用于离散扩散的预测-校正采样器族，该族方法可泛化现有技术并适用于任意噪声过程。当与均匀状态扩散结合时，我们的采样器在语言和图像建模任务上均超越祖先采样：在OpenWebText数据集上实现相同单字熵下的更低生成困惑度，在CIFAR10上获得更优的FID/IS分数。关键的是，与传统采样器不同，我们的预测-校正方法能随采样步数增加持续提升性能。这些发现共同对"掩码扩散是扩散式语言建模必然发展方向"的假设提出了质疑。在采样之外，我们还为高斯松弛训练阶段开发了内存高效的课程学习方案，相比Duo方法在保持OpenWebText和LM1B数据集上相当困惑度的同时，训练时间减少25%，内存占用降低33%，并保持强劲的下游性能。代码、检查点及视频教程已发布于：https://s-sahoo.com/duo-ch2

全能OCR：少数民族语言通用光学字符识别系统
OmniOCR: Generalist OCR for Ethnic Minority Languages

Feb 24

ByBonan Liu, Zeyu Zhang, Bingbing Meng, Han Wang, Hanshuo Zhang, Chengping Wang, Daji Ergu, Ying Cai

随着深度学习和多模态模型的快速发展，光学字符识别（OCR）技术取得了显著进步，但现有方法大多聚焦于拉丁文、中文等资源丰富语种。少数民族文字因书写系统复杂、标注资源稀缺、古今形态多样等因素，在低资源或零样本场景下的泛化能力面临挑战。为此，我们提出通用少数民族文字识别框架OmniOCR。该框架引入动态低秩适配机制（Dynamic LoRA），通过跨层级和跨文字的动态容量分配，在保持原有知识的前提下实现高效适配；同时采用稀疏正则化修剪冗余参数更新，确保无需额外推理成本的紧凑高效适配。在藏文TibetanMNIST、水书、古彝文和东巴文数据集上的实验表明，OmniOCR在零样本基础模型和常规后训练方法中均取得最优效果，以卓越的参数效率达到当前最高识别精度，相较基线模型在这四个数据集上的准确率提升39%-66%。代码地址：https://github.com/AIGeeksGroup/OmniOCR。

OCR-Agent：具备能力与记忆反思的智能OCR代理
OCR-Agent: Agentic OCR with Capability and Memory Reflection

Feb 24

ByShimin Wen, Zeyu Zhang, Xingdou Bian, Hongjie Zhu, Lulu He, Layi Shama, Daji Ergu, Ying Cai

大型视觉语言模型（VLMs）通过迭代优化方法已在复杂视觉理解任务中展现出显著潜力。然而，这类模型普遍缺乏有效的自我修正机制，难以自主纠正认知偏差。这导致模型在多轮修正过程中常陷入重复无效的尝试，无法实现答案质量的稳定提升。针对该问题，我们提出了一种新型迭代自校正框架，使模型具备两项核心能力：能力反思与记忆反思。该框架引导模型首先通过能力反思诊断错误并制定修正计划，继而借助记忆反思回顾历史尝试以避免重复、探索新解，最终通过严谨的重新推理优化答案。在挑战性基准OCRBench v2上的实验表明，OCR-Agent在英文和中文子集上分别以+2.0和+1.2的分数超越当前开源SOTA模型InternVL3-8B，同时在视觉理解（79.9）与推理（66.5）任务中达到顶尖水平——甚至优于规模更大的精调模型。我们的方法证明，结构化的自我反思机制无需额外训练即可显著增强VLMs的推理鲁棒性。代码地址：https://github.com/AIGeeksGroup/OCR-Agent。

自适应文本匿名化：通过提示优化学习隐私与效用的权衡
Adaptive Text Anonymization: Learning Privacy-Utility Trade-offs via Prompt Optimization

Feb 24

ByGabriel Loiseau, Damien Sileo, Damien Riquet, Maxime Meyer, Marc Tommasi

文本匿名化处理是一个高度依赖上下文的问题：隐私保护与数据效用的平衡点需根据数据领域、隐私目标和下游应用动态调整。然而，现有匿名化方法依赖静态的人工设计策略，缺乏适应多样化需求的灵活性，且难以跨领域泛化。我们提出自适应文本匿名化这一新任务范式，通过自动调整匿名化策略来满足特定的隐私-效用需求。该框架采用任务导向的提示优化技术，能自动构建面向语言模型的匿名化指令，从而适配不同的隐私目标、领域场景和下游使用模式。为评估该方法，我们构建了涵盖五个数据集的基准测试，包含多样化的领域、隐私约束和效用目标。在所有测试场景下，本框架均能持续实现优于基线方法的隐私-效用平衡，同时在开源语言模型上保持计算高效性，其性能可与更大规模的闭源模型相媲美。此外，实验表明本方法能发掘新型匿名化策略，探索隐私-效用权衡边界上的不同优化点。

TextPecker：通过结构性异常量化增强视觉文本渲染的奖励机制
TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering

Feb 24

ByHanshen Zhu, Yuliang Liu, Xuecheng Wu, An-Lan Wang, Hao Feng, Dingkang Yang, Chao Feng, Can Huang, Jingqun Tang, Xiang Bai

视觉文本渲染（VTR）在文生图领域仍是关键挑战，即使先进模型也常生成存在结构异常的文字，如扭曲、模糊和错位。然而我们发现，主流多模态大模型与专业OCR模型大多无法感知这类结构异常，这为VTR评估和基于强化学习的优化形成了关键瓶颈。因此，即使顶尖生成器（如SeedDream4.0、Qwen-Image）仍难以渲染结构保真的文本。针对此问题，我们提出TextPecker——一种即插即用的结构异常感知强化学习策略，可缓解噪声奖励信号干扰，并适配任意文生图生成器。为实现该能力，我们构建了带有字符级结构异常标注的识别数据集，并开发笔画编辑合成引擎以扩展结构错误覆盖范围。实验表明，TextPecker能持续提升多样化的文生图模型性能；即便在已充分优化的Qwen-Image上，其中文文本渲染的结构保真度平均提升4%，语义对齐度显著提高8.7%，创下高保真VTR的新标杆。本研究填补了VTR优化领域的空白，为实现可靠且结构保真的视觉文本生成奠定了基石。

LaS-Comp：基于隐空间一致性的零样本三维补全
LaS-Comp: Zero-shot 3D Completion with Latent-Spatial Consistency

Feb 21

ByWeilong Yan, Haipeng Li, Hao Xu, Nianjin Ye, Yihao Ai, Shuaicheng Liu, Jingyu Hu

本文提出LaS-Comp——一种零样本且类别无关的三维形状补全方法，该方法利用三维基础模型丰富的几何先验，实现对各类局部观测数据的形状补全。我们的贡献包括三方面：首先，通过互补的双阶段设计利用生成先验进行补全：（i）显式替换阶段保留局部观测几何特征以确保补全真实性；（ii）隐式细化阶段确保观测区域与合成区域实现无缝边界衔接。其次，本框架无需训练且兼容不同三维基础模型。第三，我们构建了Omni-Comp综合基准，整合了具有多样化挑战性局部结构的真实场景与合成数据，支持更全面、更贴近实际的评估。定量与定性实验均表明，本方法优于现有最优方法。代码与数据详见https://github.com/DavidYan2001/LaS-Comp。

FlowPrefill：将抢占与预填充调度粒度解耦以缓解大语言模型服务中的队头阻塞问题
FlowPrefill: Decoupling Preemption from Prefill Scheduling Granularity to Mitigate Head-of-Line Blocking in LLM Serving

Feb 18

ByChia-chi Hsieh, Zan Zong, Xinyang Chen, Jianjiang Li, Jidong Zhai, Lijie Wen

大型语言模型（LLM）服务需求的增长对推理系统提出了更高要求，需要同时处理大量具有差异化服务等级目标（SLO）的并发请求。这加剧了计算密集型预填充阶段中的队头阻塞问题：长时请求独占资源会导致高优先级请求被延迟，进而引发普遍的首令牌生成时间（TTFT）SLO违约。虽然分块预填充技术实现了可中断性，但带来了响应速度与吞吐量之间的固有矛盾——减小分块尺寸可降低响应延迟却会损害计算效率，而增大分块尺寸虽能最大化吞吐量却会加剧阻塞。这要求系统必须具备自适应抢占机制，但如何动态平衡执行粒度与调度开销仍是核心挑战。本文提出FlowPrefill系统，通过解耦抢占粒度与调度频率来解决这一矛盾，实现TTFT与优质吞吐量的协同优化。该系统包含两项关键技术突破：1）算子级抢占机制，利用算子边界实现细粒度执行中断，避免固定小分块导致的效率损失；2）事件驱动调度策略，仅在请求到达或完成时触发调度决策，在保证高效抢占响应能力的同时最小化控制面开销。基于真实生产流量的实验表明，FlowPrefill在满足异构SLO的前提下，较现有最优系统将最大优质吞吐量提升达5.6倍。

基于主动重构的语言模型训练数据检测方法研究
Learning to Detect Language Model Training Data via Active Reconstruction

Feb 22

ByJunjie Oscar Yin, John X. Morris, Vitaly Shmatikov, Sewon Min, Hannaneh Hajishirzi

检测大型语言模型训练数据通常被定义为成员推理攻击问题。然而传统MIA方法被动地基于固定模型权重，利用对数似然或文本来生成进行推断。本研究提出主动数据重建攻击系列方法，这类MIA通过主动诱导模型在训练过程中重建给定文本来实现。我们假设训练数据比非成员数据更具可重建性，且这种可重建性差异可用于成员推断。基于强化学习能强化权重中已有行为模式的发现，我们采用同策略强化学习技术，通过微调从目标模型初始化的策略来主动激发数据重建。为有效实现基于RL的MIA，我们设计了重建度量指标和对比奖励机制。最终形成的ADRA及其自适应变体ADRA+算法，在给定候选数据池的情况下同步提升了数据重建和成员检测能力。实验表明，我们的方法在检测预训练、后训练和蒸馏数据时持续优于现有MIA方案，相较此前最优方法平均提升10.7%。特别是在预训练检测的BookMIA任务中，ADRA+较Min-K%++提升18.8%；在后训练检测的AIME任务中提升7.6%。