HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

26 papers found

阐明扩散概率模型的信噪比时序偏置
Elucidating the SNR-t Bias of Diffusion Probabilistic Models

Apr 17

ByMeng Yu, Lei Sun, Jianhao Zeng, Xiangxiang Chu, Kun Zhan

扩散概率模型在各类生成任务中展现出卓越性能。然而我们发现，这些模型普遍存在信噪比-时间步（SNR-t）偏差问题。该偏差是指推理阶段去噪样本的信噪比与其对应时间步之间的失配现象。具体而言，在训练过程中样本的信噪比与时间步严格绑定，但这种对应关系在推理时会被破坏，导致误差累积并影响生成质量。我们通过详实的实证证据与理论分析验证了这一现象，并提出一种简单有效的差分校正方法以缓解SNR-t偏差。基于扩散模型在反向去噪过程中通常先重建低频成分再聚焦高频细节的认知，我们将样本分解为不同频率分量，并对各分量分别施加差分校正。大量实验表明，该方法在可忽略的计算开销下，显著提升了多种扩散模型（IDDPM、ADM、DDIM、A-DPM、EA-DPM、EDM、PFGM++和FLUX）在不同分辨率数据集上的生成质量。代码详见https://github.com/AMAP-ML/DCW。

无需数据或优化的最大脑损伤：通过符号位翻转破坏神经网络
Maximal Brain Damage Without Data or Optimization: Disrupting Neural Networks via Sign-Bit Flips

Apr 16

ByIdo Galil, Moshe Kimhi, Ran El-Yaniv

深度神经网络（DNN）仅需翻转少量参数位即可遭受灾难性破坏。我们提出深度神经损伤定位法（DNL），这是一种无需数据且不依赖优化的方法，能够定位关键参数；同时提出增强型单次变体1P-DNL，通过随机输入的一次前向与反向传播来优化参数选择。研究表明，这种脆弱性广泛存在于图像分类、目标检测、实例分割以及推理型大语言模型等多个领域。在ImageNet数据集上，仅翻转ResNet-50的两个符号位即可使分类准确率下降99.8%；在目标检测与实例分割任务中，对Mask R-CNN和YOLOv8-seg模型骨干网络的一到两个符号位翻转，会导致COCO检测与掩码AP值崩溃；在语言建模领域，向不同专家模块注入两个符号位翻转可使Qwen3-30B-A3B-Thinking模型的准确率从78%骤降至0%。研究还表明，选择性保护少量易损符号位能为此类攻击提供有效防御方案。

PersonaVLM：长期个性化多模态大语言模型
PersonaVLM: Long-Term Personalized Multimodal LLMs

Mar 20

ByChang Nie, Chaoyou Fu, Yifan Zhang, Haihua Yang, Caifeng Shan

多模态大语言模型（MLLMs）已成为数百万用户的日常助手，但其生成符合个体偏好回复的能力仍存在局限。现有方法仅能通过输入增强或输出对齐实现静态的单轮个性化，无法捕捉用户随时间演变的偏好与个性特征（见图1）。本文提出PersonaVLM——一个面向长期个性化的创新型个性化多模态智能体框架。该框架通过整合三大核心能力将通用MLLM转化为个性化助手：（a）记忆能力：主动从交互中提取并总结时序多模态记忆，将其整合至个性化数据库；（b）推理能力：通过检索并融合数据库中的相关记忆进行多轮推理；（c）响应对齐：在长期交互中推断用户动态变化的个性特征，确保输出始终契合其独特属性。为进行评估，我们构建了Persona-MME基准数据集，包含逾2000个精心策划的交互案例，用于从七个核心维度和14项细粒度任务评估MLLM的长期个性化性能。大量实验验证了本方法的有效性：在128k上下文长度下，基线模型在Persona-MME和PERSONAMEM数据集上分别提升22.4%和9.8%，同时较GPT-4o分别领先5.2%和2.0%。项目页面：https://PersonaVLM.github.io。

## Qwen3.5-Omni技术报告
Qwen3.5-Omni Technical Report

Apr 17

ByQwen Team

在本研究中，我们推出Qwen3.5-Omni——通义千问Omni模型家族的最新进展。作为前代模型的重大升级，Qwen3.5-Omni的参数规模扩展至数千亿级别，并支持256K上下文长度。通过融合包含异构图文对数据及超1亿小时音视频内容的大规模训练集，该模型展现出强大的全模态能力。Qwen3.5-Omni-plus在215项音频与音视频理解、推理及交互子任务和基准测试中取得SOTA成果，在关键音频任务上超越Gemini-3.1 Pro，在综合音视频理解方面与之持平。架构层面，Qwen3.5-Omni采用混合注意力专家混合（MoE）框架统筹思考与输出模块，实现高效长序列推理。该模型支持复杂交互场景，可处理超10小时音频理解任务及400秒720P视频（1帧/秒）。针对流式语音合成中因文本与语音分词器编码效率差异导致的固有不稳定性和非自然度问题，我们提出ARIA动态对齐机制。该技术通过实时协调文本与语音单元，在几乎不影响延迟的前提下显著提升对话语音的稳定性和韵律自然度。此外，Qwen3.5-Omni突破语言边界，支持10种语言的多语言理解与语音生成，并能呈现类人情感韵律。最终，该模型展现出卓越的音视频 grounding 能力，可生成具有精确时间同步性和自动场景分割的剧本级结构化描述。值得注意的是，我们观察到全模态模型涌现出新能力：基于音视频指令直接执行编程任务，我们将其命名为"音视频沉浸式编程（Audio-Visual Vibe Coding）"。

面向高效经济检索增强生成系统的网络检索感知分块方法
Web Retrieval-Aware Chunking (W-RAC) for Efficient and Cost-Effective Retrieval-Augmented Generation Systems

Jan 8

ByUday Allu, Sonu Kedia, Tanmay Odapally, Biddwan Ahmed

检索增强生成（RAG）系统的效能关键取决于文档分块策略对检索质量、延迟与运营成本的平衡能力。传统分块方法（如固定尺寸分块、基于规则分块或全智能体分块）常面临高令牌消耗、冗余文本生成、可扩展性有限及调试困难等问题，尤其在处理大规模网络内容时更为突出。本文提出网络检索感知分块（W-RAC），这是一种专为网络文档设计的新型高性价比分块框架。W-RAC通过将解析后的网络内容表示为结构化可寻址单元，使文本提取与语义分块规划相分离，并仅利用大语言模型（LLM）进行检索感知的分组决策而非文本生成。该设计显著降低了令牌使用量，消除了幻觉风险，并提升了系统可观测性。实验分析与架构对比表明，W-RAC在实现与传统分块方法相当或更优检索性能的同时，将分块相关的LLM成本降低了一个数量级。

断舍离！学会及早剪枝路径以实现高效并行推理
Cut Your Losses! Learning to Prune Paths Early for Efficient Parallel Reasoning

Apr 17

ByJiaxi Bi, Tongxu Luo, Wenyu Du, Zhengyang Tang, Benyou Wang

并行推理能够增强大型推理模型（LRMs）的性能，但由于早期错误导致的无效路径会产生高昂成本。为缓解这一问题，在路径前缀层面进行剪枝至关重要，然而现有研究缺乏统一框架而显得零散。本研究首次提出系统化的路径剪枝分类法，根据信号来源（内部/外部）与可学习性（可学习/不可学习）对方法进行归类。该分类体系揭示了可学习内部方法的未开发潜力，由此我们提出STOP（剪枝超级令牌）方案。在1.5B至20B参数规模的LRMs上进行广泛评估表明，STOP相比现有基线方法具有更优的效能与效率。此外，我们严格验证了STOP在不同计算预算下的可扩展性——例如在固定计算预算下，将GPT-OSS-20B在AIME25数据集上的准确率从84%提升至近90%。最终，我们将研究结果提炼为形式化的实证指南，以促进实际部署的最优化。代码、数据及模型详见https://bijiaxihh.github.io/STOP。

（一维）有序令牌实现高效测试时搜索
(1D) Ordered Tokens Enable Efficient Test-Time Search

Apr 16

ByZhitong Gao, Parham Rezaei, Ali Cy, Mingqiao Ye, Nataša Jovanović, Jesse Allardice, Afshin Dehghan, Amir Zamir, Roman Bachmann, Oğuzhan Fatih Kar

分词是自回归生成模型的核心组件，它将原始数据转换为更易于建模的单元。通常，分词描述局部信息（如图像中的像素区域或文本中的词片段），而自回归生成以固定顺序预测这些分词。一个值得探讨的问题是：分词结构是否会影响通过测试时搜索引导生成的能力？这种搜索会探索多个候选生成结果并由验证器进行评估。以图像生成为实验平台，我们假设最近具有由粗到细结构的单向有序分词器，可能比经典的二维网格结构更适用于搜索。这源于以下事实：由粗到细序列中的中间状态携带语义信息，验证器可可靠评估这些信息，从而在生成过程中实现有效引导。通过受控实验，我们发现基于由粗到细有序分词训练的自回归模型，相比基于网格分词的模型展现出更好的测试时扩展性能。此外，我们证明得益于这种有序结构，纯测试时搜索（即无需训练自回归模型）在图文验证器的引导下可实现无需训练的文生图生成。除此之外，我们系统研究了经典搜索算法（N选最优、束搜索、前瞻搜索）与不同分词结构的交互作用，以及不同验证器和自回归先验的作用。我们的研究结果凸显了分词结构对推理时可扩展性的影响，并为自回归模型的测试时扩展提供了实用指导。

后训练中输出多样性在何处崩溃？
Where does output diversity collapse in post-training?

Apr 17

ByConstantinos Karouzos, Xingwei Tan, Nikolaos Aletras

后训练语言模型产生的输出多样性低于其基础模型。这种输出多样性崩溃削弱了依赖多样化样本的推理时扩展方法，并可能在创意性和价值负载任务上导致模型输出同质化。先前研究将崩溃归因于特定后训练方法，但未区分训练数据构成与方法的作用，也未分离生成格式与模型权重的影响。我们通过三条并行后训练路径（Olmo 3的Think路径——思维链蒸馏、Instruct路径——广谱多源数据、RL-Zero路径），在15个任务和四种文本多样性指标上追踪输出多样性变化。研究发现崩溃位置与数据构成存在共变关系：Think路径在监督微调阶段损失最多语义多样性，且DPO在Instruct路径中的影响大于Think路径。在Think模型中抑制推理时的思维链思考会降低困难任务的准确率，但答案级多样性保持不变，表明崩溃由训练数据嵌入模型权重而非生成格式导致。通过将六个可验证任务的多样性损失分解为质量控制成分（剔除错误输出）和残差成分（正确答案间的真实收窄），发现这种分解具有任务依赖性，且Think模型尽管总体崩溃更严重，但比Instruct模型保留了更多正确答案多样性。我们的结果表明，多样性崩溃由训练期间的数据构成决定，无法仅通过推理时干预解决。

基于三维生成模型的自回归布局生成方法重构
Repurposing 3D Generative Model for Autoregressive Layout Generation

Apr 17

ByHaoran Feng, Yifan Niu, Zehuan Huang, Yang-Tian Sun, Chunchao Guo, Yuxin Peng, Lu Sheng

我们提出LaviGen框架，通过重构3D生成模型实现3D布局生成。与现有从文本描述推断物体布局的方法不同，LaviGen直接在原生3D空间中运行，将布局生成构建为自回归过程，显式建模物体间的几何关系与物理约束，从而生成具有连贯性与物理合理性的3D场景。为进一步优化该过程，我们提出改进的3D扩散模型，该模型融合场景、物体与指令信息，并采用双引导自推演蒸馏机制以提升效率与空间精度。在LayoutVLM基准上的大量实验表明，LaviGen实现了卓越的3D布局生成性能，其物理合理性较现有最优方法提升19%，计算速度加快65%。代码已开源：https://github.com/fenghora/LaviGen。

大型语言模型能否重塑基础算法？
Can Large Language Models Reinvent Foundational Algorithms?

Apr 7

ByJian Zhao, Haoren Luo, Yu Wang, Yuhan Cao, Pingyue Sheng, Tianxing He

大语言模型已展现出推动科学发现的强大潜力，但其是否具备基础性创新能力仍存争议。本研究聚焦基础创新的先决条件：大语言模型能否重新发明计算机科学中的基础算法？我们提出的"遗忘-重构"框架首先通过LLM遗忘技术从预训练知识中移除特定基础算法（如Dijkstra或Euclid算法），随后在受控环境中测试模型重构该算法的能力。为实现有效遗忘，我们采用基于GRPO的策略性遗忘方法。在涵盖10个目标算法、3个强开源模型和3级提示强度的实验中发现：（1）最强模型Qwen3-4B-Thinking-2507在无提示时成功重构50%算法，一级提示达70%，二级提示达90%；（2）少量高层级提示可提升重构成功率，但逐步提示对复杂算法仍失效；（3）测试时强化学习使Strassen算法在二级提示下实现成功重构。通过输出轨迹分析和消融实验，我们发现重构阶段的生成验证器对维持模型推理能力至关重要，可有效避免"思维坍缩"现象。这些发现为理解大语言模型创新思维的潜力与局限提供了新见解。

为高效视觉推理学习自适应推理路径
Learning Adaptive Reasoning Paths for Efficient Visual Reasoning

Apr 16

ByYixu Huang, Tinghui Zhu, Muhao Chen

视觉推理模型（VRMs）近期通过融合视觉感知与语言推理展现出强大的跨模态推理能力。然而，这类模型常存在过度推理问题，即对任何任务都生成不必要的冗长推理链。我们将此问题归因于视觉推理中的推理路径冗余：多数视觉问题并不需要完整的推理流程。为此，我们提出自适应视觉推理框架AVR，将视觉推理分解为视觉感知、逻辑推理和答案应用三个认知功能，并支持模型动态选择完整格式、纯感知格式和直接答案三种响应模式。通过改进型分组相对策略优化算法FS-GRPO进行训练，AVR能在保证正确性的前提下选择最高效的推理格式。在多模态基准测试上的实验表明，AVR在保持整体精度的同时将token使用量降低50%-90%，尤其在感知密集型任务中效果显著。这些结果证明自适应视觉推理能有效缓解VRM的过度推理问题。代码与数据详见：https://github.com/RunRiotComeOn/AVR。

QuantCode-Bench：面向大语言模型可执行量化交易策略生成能力的评估基准
QuantCode-Bench: A Benchmark for Evaluating the Ability of Large Language Models to Generate Executable Algorithmic Trading Strategies

Apr 16

ByAlexey Khoroshilov, Alexey Chernysh, Orkhan Ekhtibarov, Nini Kamkia, Dmitry Zmitrovich

大型语言模型在通用编程任务上已展现出强大性能，但其生成可执行算法交易策略的能力仍待深入探索。与标准代码基准不同，交易策略生成需要同时掌握领域特定的金融逻辑、专业API知识，以及生成不仅语法正确还能在历史数据上产生实际交易的代码能力。本研究提出QuantCode-Bench基准，用于系统评估现代LLM根据英文文本描述为Backtrader框架生成交易策略的能力。该基准包含从Reddit、TradingView、StackExchange、GitHub及合成来源收集的400个不同难度任务。评估通过多阶段流程进行，包括检查语法正确性、回测执行成功率、交易记录存在性，并使用LLM评判器检测任务描述的语义对齐度。我们在两种设置下对比前沿模型表现：单轮生成（要求首次尝试即生成正确策略）与智能体多轮交互（模型可接收迭代反馈并修正错误）。通过分析流程各阶段的失败模式，我们发现当前模型的主要局限并非语法问题，而在于正确实现交易逻辑、规范使用API以及遵循任务语义要求。这些发现表明，交易策略生成构成了一类独特的领域特定代码生成任务，其成功不仅需要技术正确性，更要求自然语言描述、金融逻辑与策略在数据上的可观测行为三者之间的深度契合。

TIPSv2：通过增强的补丁-文本对齐技术推进视觉语言预训练
TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment

Apr 13

ByBingyi Cao, Koert Chen, Kevis-Kokitsi Maninis, Kaifeng Chen, Arjun Karpur, Ye Xia, Sahil Dua, Tanmaya Dabral, Guangxing Han, Bohyung Han, Joshua Ainslie, Alex Bewley, Mithun Jacob, René Wagner, Washington Ramos, Krzysztof Choromanski, Mojtaba Seyedhosseini, Howard Zhou, André Araujo

视觉-语言预训练的最新进展显著提升了诸多下游计算机视觉应用的性能，如分类、检索、分割和深度预测。然而，这些模型仍难以实现密集图像块表征与对应概念文本嵌入的精准对齐。本文针对这一核心问题展开研究，提出了增强基础视觉-语言模型该能力的新技术。首先，我们发现图像块级蒸馏方法能显著提升密集图文对齐能力——令人惊讶的是，蒸馏后学生模型的图文对齐能力甚至显著超越教师模型。这一现象启发我们改进预训练方案，由此提出iBOT++：对常用iBOT掩码图像目标函数的升级版本，使未掩码标记也能直接参与损失计算。该方法大幅提升了预训练模型的图文对齐能力。此外，为提升视觉-语言预训练的效率和效果，我们改进了学习方案中的指数移动平均设置，并引入描述语采样策略以利用不同粒度的合成描述语。整合这些组件后，我们开发了TIPSv2——适用于广泛下游应用的图文编码器新模型系列。通过在9项任务、20个数据集上的综合实验，模型展现出强劲性能，普遍达到或超越了近期视觉编码器模型的水平。代码与模型已通过项目页面https://gdm-tipsv2.github.io/发布。

GTA-2基准：从原子级工具使用到开放式工作流的通用工具智能体评估体系
GTA-2: Benchmarking General Tool Agents from Atomic Tool-Use to Open-Ended Workflows

Apr 17

ByJize Wang, Xuanxuan Liu, Yining Li, Songyang Zhang, Yijun Wang, Zifei Shan, Xinyi Le, Cailian Chen, Xinping Guan, Dacheng Tao

通用智能体的发展需要从执行简单指令转向完成复杂的现实世界生产力工作流。然而当前的工具使用评估标准仍与真实需求脱节，依赖AI生成的查询、虚拟工具和有限的系统级协调。为此，我们提出GTA-2——一个面向通用工具智能体的分层评估体系，涵盖原子级工具使用与开放式工作流。该体系基于真实世界场景构建，采用真实用户查询、已部署工具和多模态上下文：（i）GTA-Atomic继承自我们先前提出的GTA基准，评估短周期封闭式工具使用精度；（ii）GTA-Workflow引入长周期开放式任务，实现真实端到端完成度评估。针对开放式产出，我们提出基于递归检查点的评估机制，将目标分解为可验证的子目标，实现对模型能力与智能体执行框架（即执行环境）的统一评估。实验表明存在显著的能力断层：前沿模型在原子任务上表现已不理想（低于50%），在工作流任务中更是严重失效，顶级模型成功率仅达14.39%。进一步分析显示，检查点引导的反馈能提升性能，而Manus、OpenClaw等先进框架可显著改善工作流完成度，这揭示了执行环境设计相较于底层模型能力的重要性。这些发现为开发可靠的个人及专业助手提供了指导。数据集与代码将在https://github.com/open-compass/GTA 发布。

边缘检测：基于同态聚合的重要性感知梯度压缩技术在联邦入侵检测中的应用
EdgeDetect: Importance-Aware Gradient Compression with Homomorphic Aggregation for Federated Intrusion Detection

Apr 16

ByNoor Islam S. Mohammad

联邦学习（FL）能够实现无需原始数据交换的协同入侵检测，但传统FL因传输全精度梯度而产生高通信开销，且易受梯度推断攻击。本文提出EdgeDetect——一种面向带宽受限6G-IoT环境的高效通信且隐私感知的联邦入侵检测系统。该方法创新引入梯度智能化技术，通过基于中位数的统计二值化将本地更新压缩为{+1,-1}表示，在保持收敛性的同时实现上行负载降低32倍。我们进一步在二值化梯度上集成Paillier同态加密，在不暴露个体更新的前提下防御诚实但好奇的服务器。基于CIC-IDS2017数据集（280万流量数据，7类攻击）的实验表明，系统达到98.0%多类准确率和97.9%宏观F1值，与集中式基线持平，同时将每轮通信量从450MB降至14MB（降幅96.9%）。树莓派4部署验证边缘可行性：内存占用4.2MB，延迟0.8ms，单次推理能耗12mJ，精度损失小于0.5%。在5%投毒攻击和严重数据不平衡场景下，EdgeDetect仍保持87%准确率和0.95少数类F1值（p<0.001），为下一代边缘入侵检测建立了实用化的精度、通信与隐私权衡方案。

AccelOpt：一种用于AI加速器内核优化的自改进LLM智能体系统
AccelOpt: A Self-Improving LLM Agentic System for AI Accelerator Kernel Optimization

Apr 15

ByGenghan Zhang, Shaowei Zhu, Anjiang Wei, Zhenyu Song, Allen Nie, Zhen Jia, Nandita Vijaykumar, Yida Wang, Kunle Olukotun

我们推出AccelOpt——一种具备自我优化能力的大型语言模型智能体系统，该系统能自主优化新兴AI加速器的计算内核，无需依赖专家提供的硬件特定优化知识。通过迭代生成机制，AccelOpt在优化记忆库的指导下探索内核优化空间，该记忆库系统化记录了从历史快慢内核对比中积累的经验与洞见。我们构建了NKIBench基准测试套件，其中包含从真实LLM工作负载提取的、具有不同复杂度的AWS Trainium加速器内核，用以评估AccelOpt效能。实验证实AccelOpt具备持续进化能力，在Trainium1上使NKIBench内核的峰值吞吐量占比从49%提升至61%，在Trainium2上从45%提升至59%。此外，该系统极具成本效益：使用开源模型即可达到Claude Sonnet 4的内核优化效果，而成本降低26倍。代码已开源：https://github.com/zhang677/AccelOpt。

分层编解码扩散模型在视频到语音生成中的应用
Hierarchical Codec Diffusion for Video-to-Speech Generation

Apr 17

ByJiaxin Ye, Gaoxiang Cong, Chenhui Wang, Xin-Cheng Wen, Zhaoyang Li, Boyuan Cao, Hongming Shan

视频语音生成(VTS)旨在从无声视频中合成语音信号。然而，现有VTS方法忽视了语音的层级特性——从粗粒度的说话人语义到细粒度的韵律细节。这种忽视导致在属性匹配过程中，视觉特征与语音特征难以在特定层级实现直接对齐。本文基于残差向量量化(RVQ)编解码器的层级结构，提出HiCoDiT这一新型分层编解码扩散变换器，通过利用离散语音令牌的固有层级特性实现强视听觉对齐。具体而言，由于底层令牌编码粗粒度的说话人语义，而高层令牌捕获细粒度韵律，HiCoDiT采用低层与高层模块分别生成不同层级的令牌。低层模块基于唇部同步运动和面部身份特征来捕捉说话人相关的内容，而高层模块则利用面部表情调节韵律动态。最后，为实现更有效的由粗到细的条件控制，我们提出双尺度自适应实例层归一化方法，通过通道维度归一化联合捕获全局音色风格，并通过时间维度归一化捕捉局部韵律动态。大量实验表明，HiCoDiT在保真度与表现力上均优于基线方法，彰显了离散建模在VTS任务中的潜力。代码与语音示例均已开源：https://github.com/Jiaxin-Ye/HiCoDiT。

人工智能架构中普适的演化统计特征
Universal statistical signatures of evolution in artificial intelligence architectures

Apr 12

ByTheodor Spiro

我们通过检验人工智能架构演化是否遵循与生物演化相同的统计规律，基于161篇文献中的935项消融实验发现：架构修改的适应度效应分布（DFE）呈现重尾型学生t分布，其中主要架构消改的效应比例（有害68%、中性19%、有益13%，样本量n=568）使人工智能处于紧凑型病毒基因组与简单真核生物之间的演化区间。该分布形态与黑腹果蝇（标准化KS=0.07）和酿酒酵母（KS=0.09）高度吻合；而有益突变比例显著高于生物界（13%对比1-6%）量化了定向搜索相对盲目搜索的优势，同时保留了分布形态的保守性。架构创新遵循逻辑斯蒂动力学（R²=0.994），呈现间断平衡与向领域生态位自适应辐射的特点，14项架构特征被独立发明3-5次，与生物趋同演化现象形成对照。这些结果表明演化的统计结构具有基质无关性，由适应度景观的拓扑结构而非选择机制决定。

双轨追溯：医学图像分割的多评估者后验校准方法
TwinTrack: Post-hoc Multi-Rater Calibration for Medical Image Segmentation

Apr 17

ByTristan Kirscher, Alexandra Ertl, Klaus Maier-Hein, Xavier Coubez, Philippe Meyer, Sylvain Faisan

胰腺导管腺瘤（PDAC）在增强CT图像上的分割存在固有模糊性：专家间评估差异反映的是真实不确定性而非标注噪声。传统深度学习方法假设存在单一标准答案，其生成的概率输出在此类模糊场景下容易出现校准不佳且难以解释的问题。我们提出TwinTrack框架，通过将集成分割概率后验校准到经验性人类平均响应（MHR）——即专家将体素标注为肿瘤的比例，来解决这一缺陷。经校准的概率可直接解释为标注者分配肿瘤标签的预期比例，从而显式建模评估者间差异。所提出的后验校准流程简洁高效，仅需少量多人标注校准集。在MICCAI 2025 CURVAS-PDACVI多人标注基准测试中，该方法持续优化了校准指标表现。

DiPO：解耦困惑度策略优化算法——实现细粒度探索-利用权衡
DiPO: Disentangled Perplexity Policy Optimization for Fine-grained Exploration-Exploitation Trade-Off

Apr 15

ByXiaofan Li, Ming Yang, Zhiyuan Ma, Shichao Ma, Jintao Du, Yu Cheng, Weiqiang Wang, Zhizhong Zhang, Xin Tan, Yanyun Qu, Lizhuang Ma, Yuan Xie

基于可验证奖励的强化学习（RLVR）显著推动了大型语言模型推理能力的发展，但如何有效平衡探索与利用的权衡仍是关键挑战。本文深入分析了训练过程中极难样本与极易样本引发的探索-利用困境，提出了一种新型细粒度权衡机制。具体而言，我们引入困惑度空间解耦策略，将样本空间划分为探索子空间（高困惑度）和利用子空间（低困惑度），从而挖掘需要探索-利用权衡的细粒度样本。随后提出双向奖励分配机制，在最小化验证奖励干扰的前提下实现困惑度引导的探索与利用，使策略优化更加稳定。我们在数学推理和函数调用两大主流任务上评估了所提方法，实验结果表明该方法具有优越性，证实了通过细粒度探索-利用权衡提升LLM性能的有效性。

PRL-Bench：评估大语言模型在物理学前沿研究能力的综合性基准
PRL-Bench: A Comprehensive Benchmark Evaluating LLMs' Capabilities in Frontier Physics Research

Apr 16

ByTingjia Miao, Wenkai Jin, Muhua Zhang, Jinxin Tan, Yuelin Hu, Tu Guo, Jiejun Zhang, Yuhan Wang, Wenbo Li, Yinuo Gao, Shuo Chen, Weiqi Jiang, Yayun Hu, Zixing Lei, Xianghe Pang, Zexi Liu, Yuzhi Zhang, Linfeng Zhang, Kun Chen, Wei Wang, Weinan E, Siheng Chen

智能体科学范式要求人工智能系统具备强健的推理能力，并能进行长周期自主探索。然而现有科学基准仍局限于领域知识理解与复杂推理，未能评估现实科研的探索特性与流程复杂性。本研究聚焦理论与计算物理学这一天然试验场——其具备完整的领域知识体系、复杂推理要求及可验证的端到端工作流，且无需依赖实体实验，据此提出面向科研任务的评估体系。我们推出PRL-Bench（大语言模型物理研究基准），通过系统化映射大语言模型在执行端到端物理研究时的能力边界。该基准选取2025年8月以来《物理评论快报》最新刊载的100篇论文，经领域专家校验，覆盖现代物理学中五个理论与计算密集的子领域：天体物理、凝聚态物理、高能物理、量子信息及统计物理。每项任务设计均复现了真实科研的核心特征，包括探索导向的问题构建、长周期工作流和客观可验证性，从而重构真实物理研究中的关键推理过程与科研工作流。前沿模型评估结果表明，当前性能仍存在局限，最佳综合得分低于50分，揭示出现有大语言模型能力与真实科研需求间的显著差距。PRL-Bench为评估面向自主科学发现的下一代AI科学家提供了可靠试验平台。

RoboLab：面向任务通用策略分析的高保真仿真基准平台
RoboLab: A High-Fidelity Simulation Benchmark for Analysis of Task Generalist Policies

Apr 14

ByXuning Yang, Rishit Dagli, Alex Zook, Hugo Hadfield, Ankit Goyal, Stan Birchfield, Fabio Ramos, Jonathan Tremblay

通用机器人技术的追求已催生出令人瞩目的基础模型，但基于仿真的基准测试因性能快速饱和与缺乏真正泛化测试而仍是瓶颈。现有基准测试常存在训练与评估间的显著领域重叠，导致成功率虚高且难以揭示鲁棒性本质。我们推出RoboLab仿真基准测试框架以应对这些挑战。具体而言，该框架旨在回答两个问题：(1) 通过分析策略在仿真环境中的表现，能在多大程度上理解其真实世界性能；(2) 哪些外部因素在受控扰动下对行为影响最显著。首先，RoboLab支持通过人工编写和LLM生成的方式，在物理逼真与照片级真实的仿真环境中，以机器人及策略无关的形式创建场景与任务。基于此，我们提出包含120项任务的RoboLab-120基准，这些任务按三个能力维度（视觉、流程、关系认知）和三个难度等级进行分类。其次，我们引入对真实世界策略的系统化分析，量化其性能及行为对受控扰动的敏感度，证明高保真仿真可作为分析性能及其外部因素依赖性的有效代理。通过RoboLab评估发现，当前顶尖模型存在显著性能差距。该框架通过提供细粒度指标与可扩展工具集，为评估通用任务机器人策略的真实泛化能力提供了标准化方案。

超凡特工对决：工具运用强者，导航定位弱者
The Amazing Agent Race: Strong Tool Users, Weak Navigators

Apr 17

ByZae Myung Kim, Dongseok Lee, Jaehyung Kim, Vipul Raheja, Dongyeop Kang

现有的大语言模型智能体工具使用基准测试绝大多数呈线性特征：我们对六个基准的分析显示，55%至100%的测试案例都是2到5步的简单链式操作。我们推出《神奇智能体竞速赛》（AAR）这一创新基准，其特点在于采用有向无环图（DAG）谜题（或称"赛段"），包含分叉-聚合式工具链。我们发布了两个变体的1400个测试案例：顺序型（800赛段）与组合型（600个DAG赛段）。智能体需在维基百科中导航，执行多步工具链，并将结果汇总为可验证答案。这些赛段基于维基百科种子按四个难度级别通过程序化生成，并经过实时API验证。三项互补指标（终点准确率、维修站访问率、路障完成率）分别用于诊断导航、工具使用和算术错误。在1400个赛段上评估三种智能体框架时，最佳表现者准确率仅达37.2%。导航错误占主导（试验次数的27%至52%），工具使用错误始终低于17%，且智能体架构的重要性不亚于模型规模（Claude Code与Codex CLI均达到37%准确率，但前者token消耗量减少六倍）。AAR的组合结构揭示：智能体的失败不在于工具调用，而在于能否导航至正确页面——这一盲点是线性基准测试无法发现的。项目页面请访问：https://minnesotanlp.github.io/the-amazing-agent-race

NTIRE 2026视频显著性预测挑战赛：方法与成果
NTIRE 2026 Challenge on Video Saliency Prediction: Methods and Results

Apr 16

ByAndrey Moskalenko, Alexey Bryncev, Ivan Kosmynin, Kira Shilovskaya, Mikhail Erofeev, Dmitry Vatolin, Radu Timofte, Kun Wang, Yupeng Hu, Zhiran Li, Hao Liu, Qianlong Xiang, Liqiang Nie, Konstantinos Chaldaiopoulos, Niki Efthymiou, Athanasia Zlatintsi, Panagiotis Filntisis, Katerina Pastra, Petros Maragos, Li Yang, Gen Zhan, Yiting Liao, Yabin Zhang, Yuxin Liu, Xu Wu, Yunheng Zheng, Linze Li, Kun He, Cong Wu, Xuefeng Zhu, Tianyang Xu, Xiaojun Wu, Wenzhuo Zhao, Keren Fu, Gongyang Li, Shixiang Shi, Jianlin Chen, Haibin Ling, Yaoxin Jiang, Guoyi Xu, Jiajia Liu, Yaokun Shi, Jiachen Tu

本文对NTIRE 2026视频显著性预测挑战赛进行了全面综述。该竞赛要求参赛者为指定视频序列开发自动显著性图谱预测方法。为此专门构建了包含2000个开放许可多样化视频的全新数据集，通过众包鼠标追踪技术采集了5000余名评估者的注视点及对应显著性图谱数据。竞赛采用公认质量指标对800段测试视频子集进行评估，共吸引20余支团队提交方案，其中7支团队通过最终阶段的代码审核。本次挑战赛所用全部数据已公开：https://github.com/msu-video-group/NTIRE26_Saliency_Prediction。

ArtifactNet：基于物理残留痕迹的AI生成音乐检测技术
ArtifactNet: Detecting AI-Generated Music via Forensic Residual Physics

Apr 17

ByHeewon Oh

我们提出ArtifactNet——一种轻量级框架，通过将AI生成音乐检测问题重构为取证物理学任务，专门提取并分析神经音频编解码器在生成音频中必然遗留的物理痕迹。该框架采用有界掩码UNet（ArtifactUNet，360万参数）从幅度谱中提取编解码残差，再通过HPSS分解为7通道取证特征，最终由紧凑型CNN（40万参数，总计400万参数）进行分类。我们同步推出ArtifactBench多生成器评估基准，包含6,183条音轨（4,383条AI生成音轨来自22种生成器，1,800条真实音轨来自6个不同来源），每条音轨均标注bench_origin标签以实现公平零样本评估。在未见测试集（n=2,263）上，ArtifactNet的F1分数达0.9829（误报率1.49%），显著优于相同测试条件下使用公开权重的CLAM（F1=0.7576，误报率69.26%）和SpecTTTra（F1=0.7713，误报率19.43%）。通过编解码感知训练（WAV/MP3/AAC/Opus四维数据增强），跨编解码器概率漂移降低83%（Δ从0.95降至0.16），成功解决了主要编解码器不变性失效问题。这些结果表明，取证物理学方法——直接提取编解码器层级痕迹——相比表征学习具有更优的泛化能力和参数效率，参数量较CLAM减少49倍，较SpecTTTra减少4.8倍。

VEFX-Bench：通用视频编辑与视觉特效综合评测基准
VEFX-Bench: A Holistic Benchmark for Generic Video Editing and Visual Effects

Apr 17

ByXiangbo Gao, Sicong Jiang, Bangya Liu, Xinghao Chen, Minglai Yang, Siyuan Yang, Mingyang Wu, Jiongze Yu, Qi Zheng, Haozhi Wang, Jiayi Zhang, Jared Yang, Jie Yang, Zihan Wang, Qing Yin, Zhengzhong Tu

随着AI辅助视频创作日益普及，基于指令的视频编辑技术已成为精修生成或实拍素材以满足专业需求的关键环节。然而该领域仍面临两大空白：既缺乏包含完整编辑案例的大规模人工标注数据集，也缺少用于横向比较编辑系统的标准化评估体系。现有资源受限于规模狭小、编辑成品缺失或人工质量标签不足，而当前评估方法往往依赖高成本的人工检查或未针对编辑质量优化的通用视觉语言模型。我们推出VEFX数据集——包含5,049个视频编辑案例的人工标注资源，涵盖9大编辑类别和32个子类，每个案例均从指令遵循度、渲染质量、编辑专属性三个解耦维度进行标注。基于该数据集，我们提出专用于视频编辑质量评估的奖励模型VEFX-Reward。该模型通过联合处理源视频、编辑指令与编辑成品，采用序数回归预测多维度质量分数。我们同步发布VEFX-Bench基准测试集，包含300个精选视频-指令对，用于标准化比较不同编辑系统。实验表明，在标准图像质量评估/视频质量评估指标及分组偏好评估中，VEFX-Reward相较通用VLM评估器及现有奖励模型与人类判断具有更高一致性。借助该评估器对代表性商业及开源视频编辑系统进行测试，发现当前模型在视觉合理性、指令遵循度与编辑局部性方面仍存在显著差距。