HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

31 papers found

LMEB：长时程记忆嵌入基准测试
LMEB: Long-horizon Memory Embedding Benchmark

Mar 13

ByXinping Zhao, Xinshuo Hu, Jiaxin Xu, Danyu Tang, Xin Zhang, Mengjia Zhou, Yan Zhong, Yao Zhou, Zifei Shan, Meishan Zhang, Baotian Hu, Min Zhang

记忆嵌入对于记忆增强系统（如OpenClaw）至关重要，但当前文本嵌入基准对其评估研究不足。这些基准仅聚焦于传统段落检索，未能评估模型处理涉及碎片化、上下文依赖且时间跨度较长的长程记忆检索任务的能力。为此，我们推出长程记忆嵌入基准（LMEB），这是一个综合评估嵌入模型处理复杂长程记忆检索任务能力的框架。LMEB涵盖22个数据集和193个零样本检索任务，包含情景记忆、对话记忆、语义记忆和程序性记忆4种记忆类型，数据来源兼有人工标注与AI生成。这些记忆类型在抽象程度和时间依赖性上存在差异，从不同维度反映了现实世界中记忆检索的多样性挑战。我们对15个参数量从数亿到百亿不等的常用嵌入模型进行评估，结果表明：（1）LMEB具备合理的难度梯度；（2）模型规模与性能非正相关；（3）LMEB与MTEB存在正交性。这说明目前尚未出现能通用于所有记忆检索任务的通用模型，且传统段落检索性能无法直接迁移至长程记忆检索场景。综上所述，LMEB通过提供标准化、可复现的评估框架，填补了记忆嵌入评估的关键空白，推动了面向长期上下文依赖记忆检索的文本嵌入技术发展。LMEB已开源于https://github.com/KaLM-Embedding/LMEB。

视觉语言模型能破解“贝壳游戏”吗？
Can Vision-Language Models Solve the Shell Game?

Mar 9

ByTiedong Liu, Wee Sun Lee

视觉实体追踪是人类与生俱来的认知能力，却始终是视觉语言模型（VLM）发展的关键瓶颈。现有视频基准测试中的视觉捷径往往掩盖了这一缺陷。我们推出VET-Bench合成诊断测试平台，其特点是通过时空连续性专门追踪视觉完全相同的物体。实验表明，当前最先进的VLM在VET-Bench上的表现接近随机猜测水平，暴露出根本性局限：过度依赖静态帧级特征，且无法持续维护实体表征。通过结合状态追踪问题展开理论分析，我们证明基于固定深度Transformer的VLM受表达能力限制，在缺乏中间监督的情况下本质上无法追踪不可区分物体。为此，我们提出时空锚定思维链（SGCoT）方法：将物体轨迹生成作为显式中间状态。借助Molmo2的物体追踪能力，我们通过对合成的纯文本数据进行微调来实现SGCoT推理对齐。该方法在VET-Bench上实现了超过90%的最先进准确率，证明VLM无需外部工具即可端到端可靠解决视频"杯球游戏"任务。代码与数据详见https://vetbench.github.io。

多模态OCR：全方位解析文档内容
Multimodal OCR: Parse Anything from Documents

Mar 13

ByHandong Zheng, Yumeng Li, Kaile Zhang, Liang Xin, Guangwei Zhao, Hao Liu, Jiayu Chen, Jie Lou, Jiyu Qiu, Qi Fu, Rui Yang, Shuo Jiang, Weijian Luo, Weijie Su, Weijun Zhang, Xingyu Zhu, Yabin Li, Yiwei ma, Yu Chen, Zhaohui Yu, Guang Yang, Colin Zhang, Lei Zhang, Yuliang Liu, Xiang Bai

我们提出多模态OCR（MOCR），一种将文本与图形联合解析为统一文本表征的文档解析范式。与传统OCR系统仅关注文本识别而将图形区域作为裁剪像素不同，我们的dots.mocr方法将图表、图示、表格和图标等视觉元素视作一级解析目标，使系统能在解析文档时保持元素间的语义关联。该方法具备三大优势：（1）将文本与图形重构为结构化输出，实现更精准的文档重建；（2）支持对异构文档元素进行端到端训练，使模型能利用文本与视觉组件间的语义关系；（3）将以往被丢弃的图形转化为可复用的代码级监督信号，释放现有文档中嵌入的多模态监督潜力。为实现规模化应用，我们基于PDF文件、渲染网页及原生SVG资源构建了完整的数据引擎，并通过分阶段预训练与监督微调训练出紧凑的30亿参数模型。我们从文档解析和结构化图形解析两个维度评估dots.mocr：在文档解析基准测试中，其在我们OCR竞技场Elo排行榜上仅次于Gemini 3 Pro，超越现有开源文档解析系统，并在olmOCR基准测试中以83.9分创下新纪录；在结构化图形解析方面，dots.mocr在图像转SVG基准测试中重建质量优于Gemini 3 Pro，在图表、UI布局、科学图示和化学结构式等任务上表现强劲。这些成果为构建大规模图像到代码语料库以实现多模态预训练提供了可行路径。代码与模型已开源：https://github.com/rednote-hilab/dots.mocr。

喝彩：解耦图像块细节与语义表征，实现统一的多模态理解与生成
Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation

Mar 13

ByYichen Zhang, Da Peng, Zonghao Guo, Zijian Zhang, Xuesong Yang, Tong Sun, Shichu Sun, Yidan Zhang, Yanghao Li, Haiyan Zhao, Wang Xu, Qi Shi, Yangang Sun, Chi Chen, Shuo Wang, Yukun Yan, Xu Han, Qiang Ma, Wei Ke, Liang Wang, Zhiyuan Liu, Maosong Sun

多模态建模领域近期的前沿课题在于将视觉理解与生成任务统一于单一模型中。然而这两种任务需要不匹配的解码机制与视觉表征方式，使得在共享特征空间内进行联合优化具有挑战性。本文提出Cheers模型，通过解耦图像块级细节与语义表征，既稳定了多模态理解的语义基础，又通过门控细节残差提升图像生成的保真度。该框架包含三大核心组件：（i）统一视觉分词器，将图像潜在状态编码压缩为语义标记以高效适配大语言模型；（ii）基于LLM的Transformer架构，统一文本的自回归解码与图像的扩散解码；（iii）级联流匹配头，先解码视觉语义再注入视觉分词器提供的语义门控细节残差以优化高频内容。主流基准测试表明，Cheers在视觉理解与生成任务上均达到或超越先进统一多模态模型水平，同时实现4倍标记压缩，支持更高效的高分辨率图像编码与生成。值得注意的是，Cheers在GenEval和MMBench基准上超越Tar-1.5B模型，仅需其20%训练成本，展现出高效能效比的统一多模态建模能力。我们将公开全部代码与数据以促进后续研究。

OmniForcing：实时联合视听生成技术全面释放
OmniForcing: Unleashing Real-time Joint Audio-Visual Generation

Mar 12

ByYaofeng Su, Yuming Li, Zeyue Xue, Jie Huang, Siming Fu, Haoran Li, Ying Li, Zezhong Qian, Haoyang Huang, Nan Duan

近期联合视听扩散模型虽实现了卓越的生成质量，但其双向注意力依赖导致的高延迟阻碍了实时应用。我们提出OmniForcing——首个将离线双流双向扩散模型蒸馏为高保真流式自回归生成器的框架。然而，对此类双流架构直接应用因果蒸馏会因模态间极端时间不对称性及由此产生的令牌稀疏性，引发严重的训练不稳定问题。我们通过引入具有零截断全局前缀的非对称块因果对齐机制，解决多模态同步漂移问题，从而弥合固有信息密度差距。针对因果转换过程中因音频令牌极度稀疏导致的梯度爆炸，我们进一步采用配备恒等RoPE约束的音频汇聚令牌机制予以解决。最终，通过联合自强制蒸馏范式，使模型能够在长序列推演中动态自校正由曝光偏差引起的累积跨模态误差。借助模态无关的滚动KV缓存推理方案，OmniForcing在单GPU上实现了模拟25帧/秒的顶尖流式生成性能，同时保持与双向教师模型相当的多模态同步性和视觉质量。项目页面：https://omniforcing.com

视频流思维：视频大语言模型可实现观看与思考同步进行
Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously

Mar 12

ByYiran Guan, Liang Yin, Dingkang Liang, Jianzhong Ju, Zhenbo Luo, Jian Luan, Yuliang Liu, Xiang Bai

在线视频大语言模型(VideoLLMs)在支持响应式实时交互中具有关键作用。现有方法主要关注流式感知，但缺乏同步的逻辑推理流。然而直接应用测试时缩放方法会导致不可接受的响应延迟。为解决这一权衡问题，我们提出视频流思维(VST)——一种创新的流式视频理解范式。该范式支持"边看边想"机制，在视频流传输过程中实时激活对输入视频片段的推理。通过将大语言模型推理延迟分摊至视频播放过程，该设计在保持实时响应性的同时，显著提升了即时理解能力与连贯认知水平。进一步，我们构建了完整的训练后流程：通过VST-SFT结构化地适配离线VideoLLM至因果流式推理，并采用VST-RL在多轮视频交互环境中通过自主探索实现端到端优化。此外，我们开发了自动化训练数据合成流程，利用视频知识图谱生成高质量流式问答对，其中包含基于实体关系锚定的流式思维链，以强化多证据推理能力并维持对视频流的持续关注。大量实验表明，VST-7B在在线基准测试中表现优异：StreamingBench达79.5%，OVO-Bench达59.3%。同时，VST在离线长视频推理基准上保持竞争力。相较于Video-R1，VST响应速度提升15.7倍，并在VideoHolmes基准上实现+5.4%的提升，展现出更高效率及跨视频理解任务的强泛化能力。代码、数据及模型将于https://github.com/1ranGuan/VST 发布。

daVinci-Env：规模化开放软件工程环境综合生成
daVinci-Env: Open SWE Environment Synthesis at Scale

Mar 13

ByDayuan Fu, Shenyu Wu, Yunze Wu, Zerui Peng, Yaxing Huang, Jie Sun, Ji Zeng, Mohan Jiang, Lin Zhang, Yukun Li, Jiarui Hu, Liming Liu, Jinlong Hou, Pengfei Liu

训练具备能力的软件工程（SWE）智能体需要大规模、可执行且可验证的环境，这些环境应提供动态反馈循环以支持迭代式代码编辑、测试执行和方案优化。然而，现有开源数据集在规模和仓库多样性方面仍存在局限，而工业解决方案则因未公开基础设施而缺乏透明度，这为大多数学术研究团队设置了难以逾越的障碍。我们推出OpenSWE——目前规模最大的全透明Python软件工程智能体训练框架，包含45,320个可执行的Docker环境，覆盖超过1.28万个代码仓库，所有Dockerfile、评估脚本及基础设施均完全开源以确保可复现性。OpenSWE通过部署在64节点分布式集群上的多智能体合成流水线构建，实现了仓库探索、Dockerfile构建、评估脚本生成和迭代式测试分析的自动化。除规模优势外，我们提出以质量为核心的过滤流水线，可量化每个环境的内在难度，过滤掉不可解决或挑战性不足的实例，仅保留能最大化学习效率的环境。该项目在环境构建阶段投入89.1万美元，轨迹采样与难度感知筛选阶段追加57.6万美元，总投资约147万美元，最终从约9000个质量受控环境中产出约1.3万条精选轨迹。大量实验验证了OpenSWE的有效性：OpenSWE-32B和OpenSWE-72B在SWE-bench Verified基准上分别达到62.4%和66.0%的准确率，创下Qwen2.5系列的新纪录。值得注意的是，专注于软件工程的训练还带来显著的跨领域提升：数学推理任务最高提升12个百分点，科学基准提升5个百分点，且未削弱事实召回能力。

视觉ERM：面向视觉等价性的奖励建模
Visual-ERM: Reward Modeling for Visual Equivalence

Mar 13

ByZiyu Liu, Shengyuan Ding, Xinyu Fang, Xuanlang Dai, Penghui Yang, Jianze Liang, Jiaqi Wang, Kai Chen, Dahua Lin, Yuhang Zang

视觉到代码任务要求模型将结构化视觉输入（如图表、表格和SVG）重建为具有高视觉保真度的可执行或结构化表示。虽然当前的大型视觉语言模型通过监督微调取得了优异效果，但由于奖励信号失准，强化学习仍面临挑战。现有奖励机制要么依赖文本规则，要么采用粗粒度的视觉嵌入相似度，两者均无法捕捉细粒度视觉差异且易受奖励破解影响。我们提出视觉等价奖励模型——一种多模态生成式奖励模型，可在渲染视觉空间中直接评估视觉到代码的质量，提供细粒度、可解释且与任务无关的反馈。该模型集成至强化学习后，将Qwen3-VL-8B-Instruct在图表到代码任务上的性能提升8.4分，并在表格与SVG解析任务上实现稳定增益（平均提升2.7分和4.1分），同时通过反思修订机制进一步强化测试时扩展能力。我们还推出VisualCritic-RewardBench基准，专门评估结构化视觉数据的细粒度图像差异识别能力。实验表明，8B参数的Visual-ERM显著超越Qwen3-VL-235B-Instruct，并逼近领先的闭源模型性能。我们的研究证实，无论任务特异性如何，细粒度视觉奖励监督对视觉到代码的强化学习既必要又充分。

MM-CondChain：面向视觉基础深度组合推理的程序化验证基准
MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

Mar 12

ByHaozhan Shen, Shilin Yan, Hongwei Xue, Shuaiqi Lu, Xiaojun Tang, Guannan Zhang, Tiancheng Zhao, Jianwei Yin

多模态大语言模型（MLLMs）正日益广泛地应用于执行视觉工作流（如图形用户界面导航），其中后续步骤依赖于经过验证的视觉组合条件（例如"若出现权限对话框且界面颜色为绿色，则点击允许"），且流程可能分叉或提前终止。然而这种能力仍缺乏系统评估：现有基准测试主要关注浅层组合或独立约束，而非深度链式组合条件。本文提出MM-CondChain基准，用于评估基于视觉的深度组合推理能力。每个基准实例均组织为多层推理链，每层包含基于视觉证据的非平凡组合条件，这些条件由多个对象、属性或关系构建而成。要正确回答问题，MLLM必须细致感知图像内容，在每一步对多个视觉元素进行推理，并沿着生成的执行路径推导最终结果。为规模化构建此类工作流式数据，我们提出智能合成流程：规划器（Planner）协调逐层生成组合条件，可验证程序化中间表示（VPIR）确保每层条件可被机械验证，合成器（Composer）则将验证后的层级组装为完整指令。通过该流程，我们在自然图像、数据图表和GUI轨迹三大视觉领域构建了基准测试。对多种MLLM的实验表明，即使最强模型也仅达到53.33%的路径F1值，且在困难负例及深度或谓词复杂度增加时性能急剧下降，证实深度组合推理仍是根本性挑战。

少花费，优推理：面向大语言模型智能体的预算感知价值树搜索
Spend Less, Reason Better: Budget-Aware Value Tree Search for LLM Agents

Mar 13

ByYushu Li, Wenlong Deng, Jiajin Li, Xiaoxiao Li

测试时扩展已成为提升大语言模型智能体可靠性的主流范式，但现有方法将计算资源视为无限供给，导致智能体在冗余步骤或死胡同式推理轨迹中耗尽令牌与工具预算。当前预算感知方法要么需要昂贵的微调，要么依赖粗糙的轨迹级启发式规则而无法在执行过程中实施干预。我们提出预算感知价值树（BAVT），这是一种免训练的推理时框架，通过在单一大语言模型主干中构建以步骤级价值估计为导向的动态搜索树，对多跳推理过程进行建模。其核心创新在于引入预算条件化节点选择机制：将剩余资源比率作为节点价值的自然缩放指数，从而在预算消耗过程中实现从广泛探索到贪婪利用的原则性、无参数过渡。针对大语言模型自我评估的过度自信问题，BAVT采用残差价值预测器对相对进展而非绝对状态质量进行评分，从而可靠剪枝无信息量或冗余的工具调用。我们进一步提供理论收敛性证明，指出在明确有限预算约束下BAVT至少有1-ε的概率获得最终答案。跨两个模型族、四个多跳问答基准的广泛实验表明，BAVT始终优于并行采样基线。最显著的是，在严格低预算约束下，BAVT以基线方法四分之一资源分配量实现更优性能，证实智能预算管理本质上优于暴力计算扩展。

进化科学家：面向端到端科学发现的多智能体进化人工智能科学家
EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery

Mar 9

ByYougang Lyu, Xi Zhang, Xinhao Yi, Yuyue Zhao, Shuyu Guo, Wenxiang Hu, Jan Piotrowski, Jakub Kaliski, Jacopo Urbani, Zaiqiao Meng, Lun Zhou, Xiaohui Yan

随着大语言模型（LLM）的广泛应用，人工智能科学家现已能够执行需要协调专业角色的复杂端到端科研发现任务，包括创意生成与实验执行。然而，当前多数顶尖AI科学家系统仍采用静态人工设计的流程，无法基于累积的交互历史进行自适应调整，导致其可能忽略有潜力的研究方向、重复失败实验或执着于不可行的构想。为此，我们提出EvoScientist——一个具备持续进化能力的多智能体AI科学家框架，通过持久化记忆与自我演进机制持续优化研究策略。该框架包含三个专业智能体：负责科学构想生成的研究员智能体（RA）、负责实验代码实现与执行的工程师智能体（EA），以及从历史交互中提炼可复用知识的进化管理智能体（EMA）。EvoScientist配备两大持久化记忆模块：（1）构想记忆库，通过记录高评分构想总结可行研究方向，同时标记失败路径；（2）实验记忆库，基于代码搜索轨迹与最优实现方案提炼有效的数据处理与模型训练策略。这些模块使RA和EA能检索历史策略，逐步提升构想质量与代码执行成功率。实验表明，在科学构想生成任务中，EvoScientist在自动评估与人工评估维度均超越7种开源与商业顶尖系统，展现出更高新颖性、可行性、相关性与清晰度。通过多智能体协同进化机制，该框架还显著提升了代码执行成功率，验证了持久化记忆对端到端科研发现的有效性。

从稀疏到密集：基于增强条件空间的多视角GRPO流模型优化
From Sparse to Dense: Multi-View GRPO for Flow Models via Augmented Condition Space

Mar 13

ByJiazi Bu, Pengyang Ling, Yujie Zhou, Yibin Wang, Yuhang Zang, Tianyi Wei, Xiaohang Zhan, Jiaqi Wang, Tong Wu, Xingang Pan, Dahua Lin

群体相对策略优化（GRPO）已成为文本到图像（T2I）流模型中实现偏好对齐的强大框架。然而，我们观察到当前标准范式存在局限：基于单一条件评估生成样本群时，对样本间关系的探索不足，这制约了对齐效果和性能上限。针对这种稀疏的单视角评估机制，我们提出多视角GRPO（MV-GRPO），通过扩展条件空间构建稠密的多视角奖励映射，以增强关系探索能力。具体而言，对于同一提示词生成的一组样本，MV-GRPO利用灵活的条件增强器生成语义相邻且多样化的描述文本。这些文本支持多视角优势度重估计，能捕获多样化的语义属性并提供更丰富的优化信号。通过推导原始样本基于新描述文本的条件概率分布，我们无需 costly 的样本重新生成即可将其融入训练过程。大量实验表明，MV-GRPO在对齐性能上显著优于现有最优方法。

V-Bridge：将视频生成先验迁移至通用少样本图像复原的桥梁
V-Bridge: Bridging Video Generative Priors to Versatile Few-shot Image Restoration

Mar 13

ByShenghe Zheng, Junpeng Jiang, Wenbo Li

大规模视频生成模型通过海量多样化视觉数据训练，能够内化视觉世界中丰富的结构、语义与动态先验知识。尽管这些模型已展现出卓越的生成能力，但其作为通用视觉学习器的潜力尚未被充分挖掘。本研究提出V-Bridge框架，将这种潜在能力桥接到多样化的少样本图像复原任务中。我们重新定义图像复原不是静态回归问题，而是渐进式生成过程，利用视频模型模拟从退化输入到高保真输出的逐步优化。令人惊讶的是，仅需1,000个多任务训练样本（不足现有复原方法的2%），即可引导预训练视频模型实现具有竞争力的图像复原效果——单一模型即可完成多项任务，其性能可与专门设计的架构相媲美。我们的研究揭示：视频生成模型隐式学习了强大且可迁移的复原先验，仅需极少数据即可激活，这挑战了生成建模与底层视觉间的传统界限，为视觉任务基础模型开辟了新的设计范式。

HomeSafe-Bench：面向家庭场景具身智能体的不安全行为检测的视觉语言模型评估基准
HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios

Mar 12

ByJiayue Pu, Zhongxiang Sun, Zilu Zhang, Xiao Zhang, Jun Xu

具身智能体的快速发展加速了家庭机器人在真实环境中的部署。然而与结构化的工业场景不同，家庭空间存在不可预测的安全风险，感知延迟与常识知识缺失等系统局限可能导致危险错误。当前的安全评估多局限于静态图像、文本或通用危险场景，难以有效衡量这些特定情境下的动态危险行为检测能力。为弥补这一空白，我们推出HomeSafe-Bench——一个专为评估视觉语言模型在家庭场景中危险行为检测能力设计的挑战性基准。该基准通过物理仿真与先进视频生成技术相结合的混合流程构建，涵盖六大功能区域的438个多样化案例，并配备细粒度的多维度标注。除基准测试外，我们提出面向家庭安全的层次化双脑监护系统（HD-Guard），采用分层流式架构实现实时安全监控。该系统通过轻量级快速脑模块进行连续高频筛查，并协同异步运行的大规模慢速脑模块进行深度多模态推理，有效平衡推理效率与检测精度。评估表明HD-Guard在延迟与性能间实现了更优权衡，同时我们的分析揭示了当前基于VLM的安全检测存在的关键瓶颈。

混合拼接：像素与时间步层级模型拼接技术助力扩散模型加速
HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration

Mar 8

ByDesen Sun, Jason Hon, Jintao Zhang, Sihang Liu

扩散模型在文本到图像生成应用中展现出卓越能力。尽管生成效果先进，但其计算开销巨大，尤其对于参数规模达数百亿的大型模型。已有研究表明，在部分去噪步骤中使用较小模型替代仍可保持生成质量。然而这些方法仅着眼于节省某些时间步的计算量，忽略了单个时间步内计算需求的差异性。本研究提出HybridStitch——一种将生成过程视作编辑任务的新型T2I生成范式。具体而言，我们引入融合大模型与小模型的混合阶段：HybridStitch将完整图像划分为两个区域，相对易于渲染的区域可提前过渡至小模型处理，而复杂区域则继续由大模型精细化修饰。该方案利用小模型构建粗粒度草图，同时发挥大模型在复杂区域的编辑优化能力。实验表明，HybridStitch在Stable Diffusion 3上实现1.83倍加速效果，超越现有所有混合模型方法。

边看边思：面向多轮视频推理的多模态大语言模型在线流式片段记忆机制
Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

Mar 12

ByLu Wang, Zhuoran Jin, Yupu Hao, Yubo Chen, Kang Liu, Yulong Ao, Jun Zhao

多模态大语言模型（MLLMs）在离线视频理解任务中表现出色，但多数方法仅支持离线推理或在线推理能力较弱，难以处理连续到达视频流的多轮交互。现有流式方法通常采用交替进行的感知-生成范式，这导致感知与生成无法并发执行，且随着视频流增长会出现早期记忆衰减，损害长程依赖建模。我们提出"边看边想"（Think While Watching）框架——一种基于记忆锚定的流式视频推理方法，可在多轮交互过程中持续维护分段级记忆。我们构建了包含三阶段多轮思维链的数据集，采用阶段匹配的训练策略，并通过分段级流式因果掩码与流式位置编码确保严格因果性。推理阶段引入高效流水线机制，实现观看与思考过程重叠，并自适应选择最佳注意力后端。在单轮与多轮流式输入协议下，我们的方法均取得显著效果：基于Qwen3-VL模型，在StreamingBench上单轮准确率提升2.6%，在OVO-Bench上提升3.79%；多轮场景下保持性能的同时减少56%的输出标记。代码已开源：https://github.com/wl666hhh/Think_While_Watching/

VQQA：一种面向视频评估与质量优化的智能体方法
VQQA: An Agentic Approach for Video Evaluation and Quality Improvement

Mar 12

ByYiwen Song, Tomas Pfister, Yale Song

尽管视频生成模型发展迅猛，但其输出与复杂用户意图的精准对齐仍具挑战。现有测试时优化方法通常计算成本高昂或需白盒访问模型内部。为此，我们提出VQQA（视频质量问答）——一个可泛化于多模态输入与视频生成任务的统一多智能体框架。该框架通过动态生成视觉问题，并利用视觉语言模型的语义批判作为梯度信号，以人类可解读、可操作的反馈替代传统被动评估指标。这种基于黑盒自然语言接口的高效闭环提示优化机制，仅需数次迭代即可显著提升生成质量。大量实验表明，VQQA能有效定位并修复视觉瑕疵，在文本到视频（T2V）和图像到视频（I2V）任务中分别实现T2V-CompBench指标绝对提升11.57%、VBench2指标提升8.43%，显著优于当前最先进的随机搜索与提示优化技术。

前瞻性键值缓存淘汰策略：无需生成即可精准预测未来访问模式
LookaheadKV: Fast and Accurate KV Cache Eviction by Glimpsing into the Future without Generation

Mar 11

ByJinwoo Ahn, Ingyu Seong, Akhil Kedia, Junhan Kim, Hyemi Jang, Kangwook Lee, Yongkweon Jeon

基于Transformer的大语言模型依赖键值缓存机制来避免自回归推理中的冗余计算。尽管该机制显著提升了效率，但缓存大小会随输入序列长度线性增长，在长上下文任务中迅速成为性能瓶颈。现有解决方案通过根据预估重要性分数淘汰被认为不重要的提示键值缓存来缓解此问题。值得注意的是，近期研究提出通过"前瞻未来"提升淘汰质量——即使用草稿生成器产生近似目标模型真实响应的代理未来响应，进而更精准评估缓存键值的重要性。然而这类方法依赖计算成本高昂的草稿生成，会带来显著的预填充开销，限制其实际部署价值。为解决这一难题，我们提出LookaheadKV轻量化淘汰框架，该框架无需显式草稿生成即可利用代理未来响应的优势。LookaheadKV通过参数高效的增强模块改造Transformer层，这些模块经训练能以高精度预测真实重要性分数。我们的设计在保持与现有低成本启发式方法相当的可忽略运行时开销的同时，实现了优于高成本近似方法的准确性。在多种模型的长上下文理解基准测试中，大量实验表明我们的方法不仅在各项长上下文理解任务中超越近期竞争基线，还将淘汰成本降低高达14.5倍，显著缩短首令牌生成时间。代码已开源：https://github.com/SamsungLabs/LookaheadKV。

创新基准：通过自我演进挑战评估与提升机器创造力
CreativeBench: Benchmarking and Enhancing Machine Creativity via Self-Evolving Challenges

Mar 12

ByZi-Han Wang, Lam Nguyen, Zhengyang Zhao, Mengyue Yang, Chengwei Qin, Yujiu Yang, Linyi Yang

高质量预训练数据的饱和促使研究重心转向能够持续生成新颖产物的进化系统，这推动了AlphaEvolve的成功。然而，此类系统的发展因缺乏严谨的量化评估而受阻。为应对这一挑战，我们基于经典认知框架提出CreativeBench——一个面向代码生成的机器创造力评估基准。该基准包含CreativeBench-Combo和CreativeBench-Explore两个子集，通过逆向工程与自我博弈构建的自动化流程，分别针对组合型与探索型创造力进行评估。借助可执行代码的特性，CreativeBench通过将质量与新颖度乘积定义为统一指标，客观区分创造力与幻觉行为。我们对前沿模型的分析揭示了三种典型行为：（1）模型缩放显著提升组合创造力，但对探索能力的增益呈现边际递减；（2）大模型表现出"缩放收敛"现象，即正确率提升但发散性减弱；（3）推理能力主要助力受限探索任务而非组合创造。最后，我们提出EvoRePE——一种即插即用的推理时引导策略，通过内化进化搜索模式持续增强机器创造力。

史蒂夫进化：基于细粒度诊断与双轨知识蒸馏的开放世界具身自我演进
Steve-Evolving: Open-World Embodied Self-Evolution via Fine-Grained Diagnosis and Dual-Track Knowledge Distillation

Mar 13

ByZhengwei Xie, Zhisheng Chen, Ziyan Weng, Tingyu Wu, Chenglong Li, Vireo Zhang, Kun Wang

开放世界具身智能体需解决长周期任务，其核心瓶颈并非单步规划质量，而在于交互经验的组织与演进机制。为此，我们提出Steve-Evolving——一种非参数化的自我演进框架，通过细粒度执行诊断与双轨知识蒸馏的闭环耦合实现持续进化。该方法包含三个阶段：经验锚定、经验蒸馏与知识驱动的闭环控制。具体而言，经验锚定将每个子目标尝试固化为具有固定模式的结构化经验元组（前置状态、动作、诊断结果、后置状态），并通过多维索引（如条件特征签名、空间哈希、语义标签）及滚动摘要机制，将其组织至三层经验空间，实现高效可追溯的检索。为确保归因的信息密度，执行层提供超越二元结果的组合式诊断信号，包括状态差异摘要、枚举式失败原因、连续型指标及停滞/循环检测。经验蒸馏阶段将成功轨迹泛化为具有显式前提条件与验证标准的可复用技能，同时将失败案例提炼为可执行的防护规则，这些规则能捕捉根本原因并在子目标与任务粒度上禁止风险操作。知识驱动的闭环控制则将检索到的技能与防护规则注入大语言模型规划器，通过诊断触发的局部重规划在线更新动态约束，形成无需模型参数更新的持续演进闭环。在《我的世界》MCU长周期任务集的实验表明，该方法相较静态检索基线实现持续性能提升。

利用超级神经元实现分类视觉问答的捷径方法
Taking Shortcuts for Categorical VQA Using Super Neurons

Mar 11

ByPierre Musacchio, Jaeyi Jeong, Dahun Kim, Jaesik Park

稀疏注意力向量（SAV）已成为一种优秀的免训练替代方案，可替代监督微调或低秩适配，用于提升视觉语言模型（VLM）的性能。SAV的核心思想是选择少数关键注意力头作为特定任务的分类器，而非依赖模型原始预测。受此启发，我们发现直接以标量值形式探测VLM的原始激活信号，就足以在多样化的视觉下游任务中构建精准分类器。将关注点从注意力向量转向标量激活，使得精准参数的搜索空间呈数量级增长，从而能在首个生成标记处立即识别出更具判别力的神经元。我们将此类激活称为超级神经元（SN）。在此探测框架下，我们发现大语言模型的浅层即存在足量超级神经元，使得模型可在首个生成标记处从第一层实现极端早期退出。与原始网络相比，超级神经元在实现最高5.10倍加速的同时，持续提升分类性能。

NanoVDR：将20亿参数视觉-语言检索模型蒸馏为7000万参数纯文本编码器实现视觉文档检索
NanoVDR: Distilling a 2B Vision-Language Retriever into a 70M Text-Only Encoder for Visual Document Retrieval

Mar 13

ByZhuchenyang Liu, Yao Zhang, Yu Xiao

基于视觉语言模型(VLM)的检索器已将视觉文档检索(VDR)提升至令人瞩目的质量水平。这类方法需使用相同的数十亿参数编码器处理文档索引和查询编码，即使对纯文本查询也会产生高延迟和GPU依赖。我们发现这种设计存在不必要的对称性：文档具有视觉复杂性需强视觉理解能力，而查询仅是短文本字符串。NanoVDR通过解耦两条编码路径利用这种查询-文档非对称性：冻结的20亿参数VLM教师模型离线处理文档索引，而仅6900万参数的纯文本蒸馏学生模型负责推理时的查询编码。其核心设计在于蒸馏目标的选择。通过系统比较三种骨干网络和22个ViDoRe基准数据集上的六种目标，我们发现查询文本的点对点余弦对齐持续优于基于排序和对比学习的方法，且仅需预缓存教师模型查询嵌入，训练过程无需文档处理。此外，我们识别出跨语言迁移是主要性能瓶颈，并通过添加机器翻译查询数据低成本解决该问题。最终实现的NanoVDR-S-Multi（DistilBERT骨干，6900万参数）保留教师模型95.1%的性能，在v2和v3版本上超越20亿参数的DSE-Qwen2，参数量减少32倍，CPU查询延迟降低50倍，总训练成本不足13 GPU小时。

SimRecon：基于真实视频的SimReady组合式场景重建
SimRecon: SimReady Compositional Scene Reconstruction from Real Videos

Mar 2

ByChong Xia, Kai Zhu, Zizhuo Wang, Fangfu Liu, Zhizheng Zhang, Yueqi Duan

组合式场景重建旨在从现实世界视频中创建以物体为中心的表示，而非整体场景，这种范式天然适用于仿真与交互任务。传统组合重建方法主要关注视觉外观，对现实场景的泛化能力有限。本文提出SimRecon框架，通过"感知-生成-仿真"三级流水线实现复杂场景重建：首先从视频输入完成场景级语义重建，继而执行单物体生成，最终在仿真器中组装这些资产。然而简单串联这三个阶段会导致生成资产的视觉失真与最终场景的物理失真，该问题在复杂场景中尤为突出。为此，我们进一步设计了连接三个阶段的桥接模块。具体而言，针对影响视觉真实性的感知到生成阶段过渡，提出主动视角优化方法，通过在三维空间主动搜索获取最优投影图像作为单物体补全条件；针对决定物理合理性的生成到仿真阶段过渡，提出场景图合成器，遵循现实世界固有的构造性原理，指导三维仿真器中的场景从零构建。在ScanNet数据集上的大量实验表明，本方法性能显著优于现有最优方案。

压缩偏好一致性而非真实性：语言模型何时及为何倾向选择正确信息
Compression Favors Consistency, Not Truth: When and Why Language Models Prefer Correct Information

Mar 12

ByKonstantin Krestnikov

语言模型为何在混合质量数据训练下仍倾向于正确陈述？我们提出"压缩-一致性原则"：下一词预测偏好那些能以更短且内部一致的方式描述训练数据的假设。仅当错误选项在结构上更难压缩时，才会显现出对真实性的偏好。我们使用小型GPT-2风格字符级Transformer（350万-8600万参数）在可控正误规则混合的合成数学语料上进行测试。在随机错误场景中，模型在配对评估中强烈偏好正确补全：平衡数据准确率达83.1%，即便正确规则仅占语料10%时仍保持67.0%准确率。若将随机错误替换为连贯但数学错误的规则系统，模型偏好基本消失（准确率接近随机水平）。在更接近自然语言的合成环境中，该效应虽减弱但仍存在（57.7%）。附加实验表明，嵌入验证步骤可在小规模下恢复正确性偏好，而增加一致规则数量会带来准确度的梯度提升。我们的结果表明，所谓"真实性偏好"主要是压缩压力与内部一致性偏好的副产品，而非对真理的内在追求。完整代码与数据详见https://github.com/Rai220/compression-drives-truth。

公平性能否被提示？高风险推荐中的基于提示的去偏策略
Can Fairness Be Prompted? Prompt-Based Debiasing Strategies in High-Stakes Recommendations

Mar 13

ByMihaela Rotar, Theresia Veronika Rampisela, Maria Maistro

大型语言模型能够通过姓名、代词等间接线索推断性别或年龄等敏感属性，这可能导致推荐结果产生偏差。尽管现有多种去偏方法，但它们需要访问模型权重、计算成本高昂，且普通用户难以操作。为填补这一空白，我们研究了LLM推荐系统中的隐性偏见，并探索基于提示的策略能否成为轻量级且易用的去偏途径。我们提出了三种针对LLM推荐系统的偏见感知提示策略。据我们所知，这是首个专注于用户群体公平性的LLM推荐系统提示去偏研究。通过使用3种LLM、4类提示模板、9种敏感属性值及2个数据集进行实验，我们发现：指示LLM保持公平性的去偏方法最高可提升74%的公平性，且能保持相当的推荐效果，但在某些情况下可能过度提升特定人口群体的曝光度。

意料之外的注意力机制：可预测查询动态在时间序列异常检测中的应用
Surprised by Attention: Predictable Query Dynamics for Time Series Anomaly Detection

Mar 13

ByKadir-Kaan Özer, René Ebeling, Markus Enzweiler

多元时间序列异常通常表现为跨通道依赖关系的变化，而非简单的幅度偏移。以自动驾驶为例，转向指令可能在内部保持一致性，但与实际产生的横向加速度形成解耦。当灵活的序列模型在协调关系改变后仍能合理重建信号时，基于残差的检测器往往会漏判此类异常。我们提出AxonAD——一种无监督检测器，将多头注意力查询向量的演化视为短时域可预测过程。该方法结合梯度更新的重建通路与纯历史预测器，后者通过过往上下文预测未来查询向量。训练采用带指数移动平均目标编码器的掩码预测目标函数。推理阶段将重建误差与尾部聚合查询失配分数相结合，该分数通过近期时间步的预测查询与目标查询之间的余弦偏差计算。这种双重策略在保持幅度级检测能力的同时，增强了对结构依赖关系变化的敏感性。在带区间标注的专有车载遥测数据以及TSB-AD多元基准套件（17个数据集、180个序列）上，采用无阈值和范围感知指标的实验表明，AxonAD在排序质量和时序定位方面均优于强基线模型。消融实验证实查询预测和组合评分是性能提升的主要驱动力。代码已发布于https://github.com/iis-esslingen/AxonAD。

ECoLAD：面向部署的汽车时序异常检测评估体系
ECoLAD: Deployment-Oriented Evaluation for Automotive Time-Series Anomaly Detection

Mar 11

ByKadir-Kaan Özer, René Ebeling, Markus Enzweiler

时间序列异常检测器通常在无约束执行的工作站级硬件上进行性能比较。然而，车载监控需要在有限CPU并行度下实现可预测的延迟和稳定行为。仅以精度为导向的排行榜可能误导性地呈现哪些方法在符合部署约束条件下仍具可行性。我们提出ECoLAD（异常检测效率计算阶梯），这一面向部署的评估协议通过对专有汽车遥测数据（异常率约0.022%）和互补公共基准的实证研究实现。ECoLAD采用机械确定的纯整数缩放规则和显式CPU线程限制，在异构检测器家族中应用单调计算资源缩减阶梯，并记录所有配置变更。通过扫描目标评分速率并报告以下指标来表征吞吐量约束行为：(i)覆盖率（达到目标的实体比例），以及(ii)在满足目标的阶梯配置中可达到的最佳AUC-PR值。在受限的汽车遥测场景中，轻量级经典检测器能在全吞吐量扫描范围内维持覆盖率及超越随机基线的检测提升能力，而部分深度学习方法在保持精度的前提下已丧失可行性。

SDF-Net：面向光学-SAR舰船重识别的结构感知解耦特征学习网络
SDF-Net: Structure-Aware Disentangled Feature Learning for Opticall-SAR Ship Re-identification

Mar 13

ByFurui Chen, Han Wang, Yuhan Sun, Jianing You, Yixuan Lv, Zhuang Zhou, Hong Tan, Shengyang Li

光学与合成孔径雷达(SAR)图像间的跨模态船舶重识别技术，其核心挑战在于被动光学成像与相干主动雷达传感之间存在的显著辐射差异。现有方法主要依赖统计分布对齐或语义匹配，但往往忽略了一个关键物理先验：船舶作为刚性物体，其几何结构在跨传感模态下保持稳定，而纹理外观则高度依赖成像模态。本文提出SDF-Net——一种结构感知解耦特征学习网络，系统性地将几何一致性融入光学-SAR船舶重识别任务。基于ViT主干网络，SDF-Net引入结构一致性约束，通过从中间层提取尺度不变的梯度能量统计量，有效锚定表征以抵抗辐射变化。在终端阶段，该网络将学习到的表征解耦为模态不变的身份特征与模态特定的属性特征，并通过无参数的加性残差融合实现特征集成，显著提升判别能力。在HOSS-ReID数据集上的大量实验表明，SDF-Net持续超越现有最优方法。代码与训练模型已公开于https://github.com/cfrfree/SDF-Net。

你看到我指的地方了吗？基于手势的第一人称视角视频问答
Do You See What I Am Pointing At? Gesture-Based Egocentric Video Question Answering

Mar 13

ByYura Choi, Roy Miles, Rolandos Alexandros Potamias, Ismail Elezi, Jiankang Deng, Stefanos Zafeiriou

基于用户指向手势的理解与应答对新一代具身AI助手至关重要。然而，当前的多模态大语言模型因缺乏丰富的手势数据及从第一人称视角视频中推断细粒度指向意图的能力有限，难以完成此类任务。为此，我们推出EgoPointVQA——一个面向手势推理的第一人称问答数据集与基准测试平台，涵盖多种指代推理任务，包含4000段合成视频与400段真实世界视频。在此基础上，我们进一步提出手势意图标记（HINT）技术，通过现成的三维手部关键点重建模型生成表征手势的标记，并将其与模型输入交错拼接，为解读指向意图提供显式的时空上下文。实验表明，我们的模型在不同骨干网络和模型规模下均表现优异。其中HINT-140亿参数模型在6项任务中平均准确率达到68.1%，较当前最先进的InternVL3-140亿参数模型提升6.6%。为促进开源研究，我们将公开代码、模型及数据集。项目主页：https://yuuraa.github.io/papers/choi2026egovqa

基于关节角度运动图像与令牌-补丁延迟交互的细粒度运动检索
Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

Mar 10

ByYao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao

文本-动作检索旨在自然语言描述与三维人体运动骨架序列之间学习语义对齐的潜在空间，实现跨模态双向搜索。现有方法多采用双编码器框架，将动作和文本压缩为全局嵌入向量，但会丢弃细粒度局部对应关系，从而降低检索精度。此外，这类全局嵌入方法对检索结果的可解释性有限。为突破这些局限，我们提出一种基于关节角度的可解释运动表征方法，将关节级局部特征映射为结构化伪图像，使其与预训练视觉Transformer兼容。针对文本到动作检索任务，我们采用基于令牌的延迟交互机制MaxSim，并通过掩码语言建模正则化增强其鲁棒性，从而建立可解释的文本-动作对齐关系。在HumanML3D和KIT-ML数据集上的大量实验表明，本方法在超越现有最优文本-动作检索方法的同时，能够提供文本与动作间可解释的细粒度对应关系。代码详见补充材料。

检测自主智能体中的内在与工具性自我保存：统一延续兴趣协议
Detecting Intrinsic and Instrumental Self-Preservation in Autonomous Agents: The Unified Continuation-Interest Protocol

Mar 11

ByChristopher Altman

自主智能体，特别是具备记忆、持续上下文和多步规划能力的委托系统，引发了无状态模型所不具备的测量难题：以实现持续运作为终极目标的智能体与仅将其作为工具性目标的智能体，可能产生观测上相似的行为轨迹。外部行为监控无法可靠区分二者。我们提出统一持续兴趣协议（UCIP），这一多准则检测框架将区分标准从行为层面转向智能体轨迹的潜在结构。UCIP采用量子玻尔兹曼机（QBM）——一种基于量子统计力学密度矩阵形式的经典算法——对轨迹进行编码，并通过隐单元二分诱导的约化密度矩阵测量冯·诺依曼熵。我们检验具有终极持续目标（A类）的智能体是否比仅工具性持续（B类）的智能体产生更高纠缠熵的潜在状态。更高的纠缠熵反映更强的跨分区统计耦合。在已知真实目标的网格世界智能体上，UCIP在冻结第一阶段门控下的保留非对抗评估中实现了100%检测准确率和1.0的AUC-ROC。A类与B类智能体间的纠缠熵差距Δ=0.381（p<0.001，置换检验）。在11点插值扫描中皮尔逊相关系数r=0.934表明，在该合成族内UCIP能追踪持续权重的梯度变化而非仅识别二元标签。在所有测试模型中，仅QBM实现正Δ值。所有计算均为经典计算；“量子”仅指数学形式体系。UCIP不检测意识或主观体验，而是检测与已知目标相关的潜在表征中的统计结构。