AI研究论文每日精选

每日精选AI研究论文及翻译

明日是否依然成立？多语言常青问题分类提升可信问答系统
Will It Still Be True Tomorrow? Multilingual Evergreen Question Classification to Improve Trustworthy QA

May 27

BySergey Pletenev, Maria Marina, Nikolay Ivanov, Daria Galimzianova, Nikita Krayko, Mikhail Salnikov, Vasily Konovalov, Alexander Panchenko, Viktor Moskvoretskii

140

大型语言模型（LLMs）在问答（QA）任务中常常出现幻觉现象。一个关键但尚未充分探讨的因素是问题的时间性——即它们是常青的（答案随时间保持稳定）还是可变的（答案会变化）。在本研究中，我们引入了EverGreenQA，这是首个带有常青标签的多语言QA数据集，支持评估与训练。利用EverGreenQA，我们对12个现代LLMs进行了基准测试，以评估它们是否通过显式（通过言语判断）或隐式（通过不确定性信号）方式编码问题的时间性。此外，我们训练了EG-E5，一个轻量级的多语言分类器，在该任务上达到了最先进的性能。最后，我们展示了常青分类在三个应用中的实际效用：提升自我知识估计、过滤QA数据集以及解释GPT-4o的检索行为。

PartCrafter：基于组合式潜在扩散Transformer的结构化三维网格生成
PartCrafter: Structured 3D Mesh Generation via Compositional Latent Diffusion Transformers

Jun 5

ByYuchen Lin, Chenguo Lin, Panwang Pan, Honglei Yan, Yiqiang Feng, Yadong Mu, Katerina Fragkiadaki

我们推出PartCrafter，这是首个结构化3D生成模型，能够从单一RGB图像中联合合成多个语义明确且几何形态各异的3D网格。与现有方法不同，这些方法要么生成单一整体的3D形状，要么采用两阶段流程——先分割图像再重建每个部分，PartCrafter采用了一种统一的、组合式的生成架构，无需依赖预先分割的输入。在单张图像的条件下，它同时去噪多个3D部件，实现了从个体对象到复杂多对象场景的端到端部件感知生成。PartCrafter基于预训练的3D网格扩散变换器（DiT）构建，该变换器针对完整对象进行训练，继承了预训练的权重、编码器和解码器，并引入了两项关键创新：（1）一个组合式潜在空间，其中每个3D部件由一组解耦的潜在令牌表示；（2）一种层次化注意力机制，该机制支持在单个部件内部及所有部件之间进行结构化信息流动，确保生成过程中的全局一致性同时保留部件级别的细节。为了支持部件级别的监督，我们通过从大规模3D对象数据集中挖掘部件级注释，精心策划了一个新数据集。实验表明，PartCrafter在生成可分解的3D网格方面超越了现有方法，包括在输入图像中不可直接观察到的部件，展示了部件感知生成先验在3D理解与合成中的强大能力。代码及训练数据将予以公开。

少数中的真理：高效多模态推理的高价值数据选择
Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning

Jun 5

ByShenshen Li, Kaiyuan Deng, Lei Wang, Hao Yang, Chong Peng, Peng Yan, Fumin Shen, Heng Tao Shen, Xing Xu

尽管多模态大语言模型（MLLMs）通过强化学习在复杂推理任务上取得了显著进展，但普遍认为提升多模态推理能力需要大量训练数据，这不可避免地导致了数据冗余和巨大的计算成本。然而，较小的高价值数据集能否在MLLMs的多模态推理中匹敌甚至超越完整数据集？在本研究中，我们通过一个关键观察对这一假设提出挑战：有意义的多模态推理仅由训练样本中的稀疏子集——我们称之为认知样本——触发，而大多数样本贡献甚微。基于这一洞见，我们提出了一种新颖的数据选择范式，称为推理激活潜力（RAP），它通过两个互补的估计器来识别认知样本，评估每个样本激发真正多模态推理的潜力：1）基于潜在结果模型原则的因果差异估计器（CDE），通过比较多模态输入与纯文本输入下的输出，剔除过度依赖语言先验的样本；2）注意力置信度估计器（ACE），利用令牌级自注意力机制，丢弃在中间推理阶段被无关但过度强调的令牌主导的样本。此外，我们引入了难度感知替换模块（DRM），用认知挑战性实例替换简单实例，从而确保复杂性的多模态推理。在六个数据集上的实验表明，我们的RAP方法仅使用9.3%的训练数据便持续实现卓越性能，同时计算成本降低超过43%。我们的代码可在https://github.com/Leo-ssl/RAP 获取。

利用自注意力机制实现大语言模型中的输入相关软提示
Leveraging Self-Attention for Input-Dependent Soft Prompting in LLMs

Jun 5

ByAnanth Muppidi, Abhilash Nandy, Sambaran Bandyopadhyay

大型语言模型在特定领域任务中的表现往往需要进行微调，这一过程既计算成本高昂又技术难度较大。本文聚焦于采用软提示的参数高效微调方法，这是一种通过训练少量参数使预训练模型适应下游任务的前沿技术。我们提出了一种新颖的基于输入依赖的软提示技术，结合自注意力机制（ID-SPAM），该技术能够根据输入令牌生成软提示，并以不同重要性关注各个令牌。我们的方法简洁高效，保持了可训练参数的数量较少。通过多项任务对比，我们展示了所提方法相较于现有技术的优势，并验证了其在零样本领域迁移能力上的提升。

MORSE-500：一个可编程控制的视频基准测试集，用于压力测试多模态推理能力
MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning

Jun 5

ByZikui Cai, Andrew Wang, Anirudh Satheesh, Ankit Nakhawa, Hyunwoo Jae, Keenan Powell, Minghui Liu, Neel Jay, Sungbin Oh, Xiyao Wang, Yongyuan Liang, Tom Goldstein, Furong Huang

尽管视觉-语言模型（VLMs）取得了快速进展，当前的多模态推理基准在三个关键维度上仍显不足。首先，它们过度依赖静态图像，未能捕捉现实世界环境中的时间复杂性。其次，这些基准过于集中于数学问题解决，忽视了包括抽象、物理、规划、空间和时间能力在内的更广泛推理技能，这些是构建强大多模态智能所必需的。第三，许多基准很快达到饱和，为诊断失败模式或衡量持续进步提供的空间有限。我们推出了MORSE-500（多模态推理压力测试环境），这是一个由500个完全脚本化的视频片段组成的基准，涵盖了六个互补的推理类别，每个片段都嵌入了相关问题。每个实例均通过确定性的Python脚本（利用Manim、Matplotlib、MoviePy）、生成式视频模型以及精选的真实素材程序化生成。这种脚本驱动的设计允许对视觉复杂度、干扰物密度及时间动态进行精细控制，使得难度能随模型进步而系统性地提升。与一旦饱和即过时的静态基准不同，MORSE-500旨在持续进化：其可控的生成管道支持创建任意挑战性的新实例，使其非常适合用于压力测试下一代模型。对包括当时最强的Gemini 2.5 Pro和OpenAI o3在内的多种最先进系统，以及强大的开源模型进行的初步实验显示，在所有类别中均存在显著的性能差距，尤其是在抽象和规划任务上表现尤为不足。我们公开了完整的数据集、生成脚本及评估工具，以支持透明、可复现且前瞻性的多模态推理研究。

FusionAudio-1.2M：迈向多模态上下文融合的细粒度音频描述
FusionAudio-1.2M: Towards Fine-grained Audio Captioning with Multimodal Contextual Fusion

Jun 1

ByShunian Chen, Xinyuan Xie, Zheshu Chen, Liyan Zhao, Owen Lee, Zhan Su, Qilin Sun, Benyou Wang

高质量、大规模的音频描述对于推进音频理解至关重要，然而当前的自动化方法生成的描述往往缺乏细致入微的细节和上下文准确性，这主要归因于它们依赖于有限的单模态或浅层次的多模态信息。受人类听觉感知的启发，人类能够巧妙地整合跨模态线索并进行复杂的听觉场景分析，我们引入了一种新颖的两阶段自动化流程。该流程首先利用专门的预训练模型提取多样化的上下文线索（例如，语音、音乐、一般声音以及相关视频中的视觉信息）。随后，一个大型语言模型（LLM）将这些丰富的多模态输入进行综合，生成详细且上下文感知的音频描述。本工作的主要贡献包括：（1）提出的可扩展的细粒度音频描述生成方法；（2）FusionAudio，一个包含120万条此类详细描述及600万问答对的新大规模数据集；（3）利用FusionAudio开发的增强音频模型，特别是具有卓越音频-文本对齐和指令跟随能力的基于CLAP的音频编码器。本文为更细致、准确地自动化理解复杂音频环境铺平了道路。代码和数据可在https://github.com/satsuki2486441738/FusionAudio 获取。

STARFlow：面向高分辨率图像生成的扩展型潜在归一化流
STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis

Jun 6

ByJiatao Gu, Tianrong Chen, David Berthelot, Huangjie Zheng, Yuyang Wang, Ruixiang Zhang, Laurent Dinh, Miguel Angel Bautista, Josh Susskind, Shuangfei Zhai

我们提出了STARFlow，这是一种基于归一化流的可扩展生成模型，在高分辨率图像合成中表现出色。STARFlow的核心是Transformer自回归流（TARFlow），它结合了归一化流的强大表达能力与自回归Transformer的结构化建模能力。我们首先从理论上证明了TARFlow在建模连续分布方面的普适性。在此基础上，我们引入了多项关键的架构与算法创新，显著提升了模型的可扩展性：（1）深浅层设计，其中深层Transformer模块承载了模型的主要表示能力，辅以少量计算高效但效果显著的浅层Transformer模块；（2）在预训练自编码器的潜在空间中进行建模，相比直接像素级建模更为有效；（3）一种新颖的引导算法，大幅提升了样本质量。重要的是，我们的模型仍保持为端到端的归一化流，能够在连续空间中进行精确的最大似然训练，无需离散化处理。STARFlow在类别条件与文本条件图像生成任务中均展现出竞争力，样本质量接近最先进的扩散模型。据我们所知，这是首次成功展示归一化流在此规模和分辨率下有效运作的研究。

扩展模态是实现全模态的正确路径吗？
Is Extending Modality The Right Path Towards Omni-Modality?

Jun 2

ByTinghui Zhu, Kai Zhang, Muhao Chen, Yu Su

全模态语言模型（OLMs）旨在整合并推理多种输入模态——如文本、图像、视频和音频——同时保持强大的语言能力。尽管近期取得了一些进展，现有模型，尤其是开源模型，仍远未实现真正的全模态，难以在训练时未涉及的特定模态对之外进行泛化，或在处理多模态输入时达到强劲性能。我们研究了模态扩展这一训练多模态模型的主导技术的影响，即对现成的语言模型进行目标领域和语言数据的微调。具体而言，我们探讨了三个关键问题：（1）模态扩展是否会损害核心语言能力？（2）模型合并能否有效整合独立微调的模态特定模型，以实现全模态？（3）与顺序扩展相比，全模态扩展是否能带来更好的知识共享与泛化能力？通过大量实验，我们分析了这些权衡，并为利用现有方法实现真正全模态的可行性提供了洞见。

Sentinel：防御提示注入攻击的顶尖模型
Sentinel: SOTA model to protect against prompt injections

Jun 5

ByDror Ivry, Oran Nahum

大型语言模型（LLMs）日益强大，但仍易受提示注入攻击的影响，恶意输入会导致模型偏离其既定指令。本文介绍了Sentinel，一种基于\answerdotai/ModernBERT-large架构的新型检测模型qualifire/prompt-injection-sentinel。通过利用ModernBERT的先进特性，并在包含多个开源和私有数据集的广泛且多样化的数据集上进行微调，Sentinel实现了最先进的性能。该数据集融合了多种攻击类型，从角色扮演和指令劫持到生成偏见内容的尝试，以及广泛的良性指令，其中私有数据集特别针对细微的错误修正和现实世界中的误分类。在一个全面的、未见过的内部测试集上，Sentinel展示了平均准确率为0.987和F1分数为0.980的优异表现。此外，在公共基准测试中，它始终优于protectai/deberta-v3-base-prompt-injection-v2等强基线模型。本文详细阐述了Sentinel的架构、其精细的数据集构建、训练方法以及全面的评估，凸显了其卓越的检测能力。

医疗世界模型：面向治疗规划的肿瘤演化生成式模拟
Medical World Model: Generative Simulation of Tumor Evolution for Treatment Planning

Jun 2

ByYijun Yang, Zhao-Yang Wang, Qiuping Liu, Shuwen Sun, Kang Wang, Rama Chellappa, Zongwei Zhou, Alan Yuille, Lei Zhu, Yu-Dong Zhang, Jieneng Chen

在现代医学与临床护理中，提供有效治疗并做出明智的临床决策是核心目标。我们致力于利用大型生成模型的最新进展，模拟疾病动态以辅助临床决策。为此，我们引入了医学世界模型（Medical World Model, MeWM），这是医学领域首个基于临床决策视觉预测未来疾病状态的世界模型。MeWM由两部分构成：(i) 作为策略模型的视觉-语言模型，以及(ii) 作为动态模型的肿瘤生成模型。策略模型负责生成如临床治疗方案等行动计划，而动态模型则模拟在给定治疗条件下肿瘤的进展或消退情况。在此基础上，我们提出了逆向动态模型，该模型对模拟的治疗后肿瘤进行生存分析，从而评估治疗效果并筛选最优临床行动计划。因此，MeWM通过合成治疗后肿瘤来模拟疾病动态，在放射科医生评估的图灵测试中展现出顶尖的特异性。同时，其逆向动态模型在优化个体化治疗方案方面，各项指标均超越医疗专用GPT模型。尤为突出的是，MeWM显著提升了介入医生的临床决策能力，在选择最佳TACE方案时的F1分数提高了13%，为未来医学世界模型作为第二阅片者的整合铺平了道路。

音频感知大语言模型作为口语风格的评判者
Audio-Aware Large Language Models as Judges for Speaking Styles

Jun 6

ByCheng-Han Chiang, Xiaofei Wang, Chung-Ching Lin, Kevin Lin, Linjie Li, Radu Kopetz, Yao Qian, Zhendong Wang, Zhengyuan Yang, Hung-yi Lee, Lijuan Wang

音频感知大语言模型（ALLMs）能够理解音频输入中的文本与非文本信息。本文探讨了将ALLMs作为自动评判者来评估演讲的说话风格。我们利用ALLM评判者来评估由口语语言模型（SLMs）在两项任务上生成的演讲：语音风格指令跟随与角色扮演。所考察的说话风格包括情感、音量、语速、词语强调、音调控制以及非语言元素。我们采用四种口语语言模型完成这两项任务，并分别由人类和ALLMs对SLMs的响应进行评判。我们比较了两种ALLM评判者——GPT-4o-audio与Gemini-2.5-pro——与人类评估结果，发现Gemini与人类评判者之间的一致性可与人类评估者之间的一致性相媲美。这些积极结果表明，ALLMs可作为评判者来评估SLMs。我们的研究结果还揭示，当前的SLMs，即便是GPT-4o-audio，在控制说话风格和生成自然对话方面仍有提升空间。

AssetOpsBench：工业资产运维任务自动化AI代理基准测试平台
AssetOpsBench: Benchmarking AI Agents for Task Automation in Industrial Asset Operations and Maintenance

Jun 4

ByDhaval Patel, Shuxin Lin, James Rayfield, Nianjun Zhou, Roman Vaculin, Natalia Martinez, Fearghal O'donncha, Jayant Kalagnanam

面向工业资产全生命周期管理的AI技术，旨在自动化复杂的运营工作流程——如状态监测、维护规划及干预调度——以减轻人力负担并最小化系统停机时间。传统的AI/ML方法主要孤立地解决这些问题，仅在更广泛的运营流程中处理特定任务。相比之下，AI代理与大型语言模型（LLMs）的出现带来了新一代机遇：实现贯穿整个资产生命周期的端到端自动化。本文展望了一个未来，其中AI代理自主管理以往需依赖专门知识与手动协调的任务。为此，我们推出了AssetOpsBench——一个统一框架与环境，旨在指导为工业4.0应用量身定制的领域特定代理的开发、编排与评估。我们概述了此类整体系统的关键需求，并提供了构建集成感知、推理与控制能力以应对现实工业运营的代理的可操作见解。该软件可在https://github.com/IBM/AssetOpsBench获取。

MIRIAD：通过数百万医疗问答对增强大型语言模型
MIRIAD: Augmenting LLMs with millions of medical query-response pairs

Jun 6

ByQinyue Zheng, Salman Abdullah, Sam Rawal, Cyril Zakka, Sophie Ostmeier, Maximilian Purk, Eduardo Reis, Eric J. Topol, Jure Leskovec, Michael Moor

大型语言模型（LLMs）必将通过先进的决策支持和灵活的聊天助手彻底改变医疗保健领域。然而，LLMs容易生成不准确的医疗内容。为了使LLMs基于高质量的医学知识，人们通过检索增强生成（RAG）为其配备了外部知识，其中非结构化的医学知识被分割成小块文本，可以选择性地检索并整合到LLMs的上下文中。然而，现有的RAG管道依赖于原始的、非结构化的医学文本，这些文本可能包含噪声、未经整理，且难以被LLMs有效利用。目前，缺乏系统化的方法来组织医学知识，以便最好地呈现给LLMs。为了解决这些挑战，我们引入了MIRIAD，这是一个大规模、经过精心策划的语料库，包含5,821,948个医学问答对，每个问答对均通过半自动化流程从同行评审的医学文献中提取并重新表述，结合了LLM生成、过滤、锚定和人工注释。与以往依赖非结构化文本的医学语料库不同，MIRIAD以可操作的查询-响应格式封装了网络规模的医学知识，从而实现了更有针对性的检索。在具有挑战性的医学问答基准测试中，实验表明，与使用相同源语料库和相同数量检索文本的非结构化RAG基线相比，使用MIRIAD增强的LLMs准确率提高了高达6.7%。此外，MIRIAD将LLMs检测医学幻觉的能力提高了22.5%至37%（F1分数提升）。我们还引入了MIRIAD-Atlas，这是一个涵盖56个医学学科的交互式地图，使临床用户能够直观地探索、搜索和精炼医学知识。MIRIAD有望解锁大量下游应用，包括医学信息检索器、增强的RAG应用以及基于知识的聊天界面，最终在医疗保健领域实现更可靠的LLM应用。

同行评审精度：基于DataSeeds标注图像构建视觉模型微调的基础数据集
Peer-Ranked Precision: Creating a Foundational Dataset for Fine-Tuning Vision Models from DataSeeds' Annotated Imagery

Jun 6

BySajjad Abdoli, Freeman Lewin, Gediminas Vasiliauskas, Fabian Schonholz

现代人工智能（AI）模型的发展，尤其是应用于计算机视觉和图像生成任务的基于扩散的模型，正在经历方法论上的范式转变。传统上，这一领域主要采用“模型中心”方法，即通过日益复杂的模型架构和超参数优化来追求性能提升。然而，当前领域正逐渐认识到一种更为精细的“数据中心”方法。这一新兴框架将训练数据的质量、结构和相关性视为模型性能的主要驱动力。为了实践这一范式转变，我们引入了DataSeeds.AI样本数据集（简称“DSD”），该数据集最初包含约10,610张经过人类同行排名的高质量摄影图像，并附有详尽的多层次注释。DSD作为基础计算机视觉数据集，旨在为商业图像数据集树立新标准。作为DataSeed.AI超过1亿张图像目录中的一小部分，DSD为稳健的商业和多模态AI开发提供了可扩展的基础。通过深入的探索性分析，我们记录了DSD在特定模型上相对于已知基准的定量改进，并公开了评估中使用的代码和训练模型。

CodeContests+：面向竞技编程的高质量测试用例生成
CodeContests+: High-Quality Test Case Generation for Competitive Programming

Jun 6

ByZihan Wang, Siyao Liu, Yang Sun, Hongyan Li, Kai Shen

由于竞争编程具有高推理难度和精确的正确性反馈，它已成为训练和评估大型语言模型（LLMs）推理能力的关键任务。然而，尽管大量公开的问题数据（如问题描述和解决方案）可供获取，这些问题的测试用例却往往难以获得。因此，测试用例生成是构建大规模数据集的必要任务，而测试用例的质量直接决定了评估的准确性。本文介绍了一种基于LLM的代理系统，该系统为竞争编程问题创建高质量的测试用例。我们将此系统应用于CodeContests数据集，并提出了一个改进测试用例的新版本，命名为CodeContests+。我们评估了CodeContests+中测试用例的质量。首先，我们使用了172万条带有通过/失败标签的提交记录来检验这些测试用例在评估中的准确性。结果表明，CodeContests+的准确性显著高于CodeContests，尤其是在真阳性率（TPR）方面表现尤为突出。随后，我们在LLM强化学习（RL）中的实验进一步证实，测试用例质量的提升为RL带来了显著的益处。

视角融合：基于第一人称与第三人称视觉的跨视角协同智能研究综述
Bridging Perspectives: A Survey on Cross-view Collaborative Intelligence with Egocentric-Exocentric Vision

Jun 6

ByYuping He, Yifei Huang, Guo Chen, Lidong Lu, Baoqi Pei, Jilan Xu, Tong Lu, Yoichi Sato

从自我中心（第一人称）和外部中心（第三人称）视角感知世界是人类认知的基础，这种双重视角使我们能够对动态环境产生丰富且互补的理解。近年来，让机器利用这两种视角的协同潜力已成为视频理解领域一个引人注目的研究方向。在本综述中，我们全面回顾了从外部中心和自我中心视角进行的视频理解研究。我们首先强调了整合自我中心与外部中心技术的实际应用，展望了它们跨领域合作的潜力。接着，我们确定了实现这些应用的关键研究任务。随后，我们将最新进展系统地归纳为三大研究方向：(1) 利用自我中心数据增强外部中心理解，(2) 运用外部中心数据提升自我中心分析，以及(3) 统一两种视角的联合学习框架。针对每个方向，我们分析了一系列相关任务及代表性工作。此外，我们讨论了支持双视角研究的基准数据集，评估了它们的范围、多样性和适用性。最后，我们探讨了当前研究的局限性，并提出了未来可能的研究方向。通过综合两种视角的见解，我们的目标是推动视频理解与人工智能的进步，使机器更接近人类感知世界的方式。相关工作的GitHub资源库可在https://github.com/ayiyayi/Awesome-Egocentric-and-Exocentric-Vision找到。

物理场景的Splatting：从非完美机器人数据到端到端的真实到仿真转换
Splatting Physical Scenes: End-to-End Real-to-Sim from Imperfect Robot Data

Jun 4

ByBen Moran, Mauro Comi, Steven Bohez, Tom Erez, Zhibin Li, Leonard Hasenclever

从真实世界机器人运动直接创建精确的物理仿真，对于实现安全、可扩展且经济高效的机器人学习具有重大价值，然而这一过程仍面临极大挑战。真实机器人数据存在遮挡、相机位姿噪声以及动态场景元素等问题，这些因素阻碍了对未见物体构建几何精确且逼真的数字孪生体。我们提出了一种新颖的真实到仿真框架，一次性解决所有这些问题。我们的核心洞察在于一种混合场景表示方法，它将3D高斯溅射的逼真渲染与适用于物理仿真的显式物体网格相结合，形成单一表示。我们设计了一个端到端优化流程，利用MuJoCo中的可微分渲染与可微分物理，直接从原始且不精确的机器人轨迹中联合优化所有场景组件——从物体几何与外观到机器人位姿及物理参数。这种统一优化使我们能够同时实现高保真物体网格重建、生成逼真的新视角，并执行无需标注的机器人位姿校准。我们通过在仿真中使用ALOHA 2双手操作器以及在具有挑战性的真实世界序列上的实验，验证了该方法的有效性，从而推动了更实用、更稳健的真实到仿真流程的发展。

3DFlowAction：从3D流态世界中学习跨实体操作模型
3DFlowAction: Learning Cross-Embodiment Manipulation from 3D Flow World Model

Jun 6

ByHongyan Zhi, Peihao Chen, Siyuan Zhou, Yubo Dong, Quanxi Wu, Lei Han, Mingkui Tan

长期以来，操控一直是机器人面临的一项挑战，而人类却能轻松完成与物体的复杂交互，例如将杯子挂在杯架上。一个关键原因在于缺乏大规模且统一的数据集来教授机器人操控技能。现有的机器人数据集通常记录的是简单场景中不同动作空间内的机器人行为，这阻碍了机器人在多样化场景中为不同机器人学习统一且稳健的动作表示。通过观察人类如何理解操控任务，我们发现理解物体在三维空间中应如何移动是指导动作的关键线索。这一线索与具体形态无关，既适用于人类，也适用于各种机器人。受此启发，我们旨在从人类和机器人的操控数据中学习一个三维流世界模型。该模型预测交互物体在三维空间中的未来运动，从而指导操控动作的规划。具体而言，我们通过移动物体自动检测管道合成了一个名为ManiFlow-110k的大规模三维光流数据集。随后，一个基于视频扩散的世界模型从这些数据中学习操控物理，生成基于语言指令的三维光流轨迹。利用生成的三维物体光流，我们提出了一种流引导渲染机制，该机制渲染预测的最终状态，并利用GPT-4o评估预测的光流是否与任务描述相符。这为机器人提供了闭环规划能力。最后，我们将预测的三维光流作为优化策略的约束条件，以确定一系列用于操控的机器人动作。大量实验表明，该方法在多种机器人操控任务中展现出强大的泛化能力，并实现了无需硬件特定训练的可靠跨形态适应。

HASHIRU：面向混合智能资源利用的分层代理系统
HASHIRU: Hierarchical Agent System for Hybrid Intelligent Resource Utilization

Jun 1

ByKunal Pai, Parth Shah, Harshil Patel

大型语言模型（LLM）的快速发展正推动着自主多智能体系统（MAS）的进步。然而，现有框架往往在灵活性、资源意识、模型多样性和自主工具创建方面存在不足。本文介绍了HASHIRU（混合智能资源利用的层次化智能体系统），这是一种新型MAS框架，旨在提升灵活性、资源效率和适应性。HASHIRU采用“CEO”智能体动态管理专业“员工”智能体，这些智能体根据任务需求和资源限制（成本、内存）实例化。其混合智能优先使用较小、本地的LLM（通过Ollama），同时在必要时灵活调用外部API和更大模型。通过引入包含雇佣/解雇成本的经济模型，促进了团队稳定性和资源高效分配。系统还具备自主API工具创建和记忆功能。在学术论文评审（成功率58%）、安全评估（在JailbreakBench子集上达到100%）、复杂推理（在GSM8K上超越Gemini 2.0 Flash：96%对61%；JEEBench：80%对68.3%；SVAMP：92%对84%）等任务上的评估，展示了HASHIRU的强大能力。案例研究进一步说明了其通过自主成本模型生成、工具集成和预算管理实现自我优化的过程。HASHIRU通过动态层次控制、资源感知的混合智能和自主功能扩展，为构建更健壮、高效和适应性的MAS提供了有前景的解决方案。源代码和基准测试分别发布于https://github.com/HASHIRU-AI/HASHIRU和https://github.com/HASHIRU-AI/HASHIRUBench，现场演示可根据请求在https://hashiruagentx-hashiruai.hf.space获取。

当语义误导视觉：缓解大规模多模态模型在场景文本检测与理解中的幻觉问题
When Semantics Mislead Vision: Mitigating Large Multimodal Models Hallucinations in Scene Text Spotting and Understanding

Jun 5

ByYan Shu, Hangui Lin, Yexin Liu, Yan Zhang, Gangyan Zeng, Yan Li, Yu Zhou, Ser-Nam Lim, Harry Yang, Nicu Sebe

大型多模态模型（LMMs）在视觉感知与推理方面取得了显著进展。然而，面对视觉上模糊或非语义的场景文本时，它们往往难以准确识别并理解内容，频繁生成语义上合理但视觉上错误的答案，我们称之为语义幻觉。在本研究中，我们深入探讨了语义幻觉的根源，并发现一个关键现象：在LLM中，Transformer层对场景文本区域注意力越强，产生语义幻觉的可能性越低。基于此，我们提出了一种无需训练的语义幻觉缓解框架，该框架包含两大核心组件：(1) ZoomText，一种从粗到细的策略，无需外部检测器即可识别潜在文本区域；(2) 基于层校正的接地方法，它自适应地利用不易产生幻觉的层内部表示来指导解码，在纠正非语义样本的幻觉输出的同时，保留有意义样本的语义。为了进行严格评估，我们引入了TextHalu-Bench，这是一个包含超过1,730个样本的基准测试集，涵盖语义与非语义案例，并配有精心设计的问题-答案对，旨在探测模型的幻觉现象。大量实验证明，我们的方法不仅有效缓解了语义幻觉，还在场景文本识别与理解的公共基准测试中展现了强劲性能。

前缀分组器：通过共享前缀前向传播实现高效的GRPO训练
Prefix Grouper: Efficient GRPO Training through Shared-Prefix Forward

Jun 5

ByZikang Liu, Tongtian Yue, Yepeng Tang, Longteng Guo, Junxian Cai, Qingbin Liu, Xi Chen, Jing Liu

群组相对策略优化（GRPO）通过计算共享相同输入前缀的候选输出之间的相对比较梯度，增强了策略学习。尽管GRPO效果显著，但在处理长共享前缀时，它引入了显著的计算开销，因为每个群组成员都需要冗余编码这些前缀。这种低效性在长上下文学习场景中成为主要的可扩展性瓶颈。我们提出了前缀分组器（Prefix Grouper），一种高效的GRPO训练算法，通过共享前缀前向策略消除了冗余前缀计算。具体而言，通过将自注意力机制重构为两部分，我们的方法使得共享前缀仅需编码一次，同时保持完全可微分性，并与端到端训练兼容。我们提供了理论和实证证据，证明前缀分组器在训练上等同于标准GRPO：它产生相同的前向输出和后向梯度，确保优化动态和最终策略性能保持不变。实验证实，前缀分组器在显著降低训练计算成本的同时，特别是在长前缀场景下，能够取得一致的结果。所提出的方法完全即插即用：它与现有的基于GRPO的架构兼容，可以作为直接替换无缝集成到当前训练流程中，无需结构修改，仅需对输入构建和注意力计算进行最小化调整。前缀分组器使得在相同计算预算下能够使用更大的群组规模，从而提升GRPO在更复杂任务和更大模型上的可扩展性。代码现已发布于https://github.com/johncaged/PrefixGrouper。

当模型所知超越其解释能力：量化人机协作中的知识迁移
When Models Know More Than They Can Explain: Quantifying Knowledge Transfer in Human-AI Collaboration

Jun 5

ByQuan Shi, Carlos E. Jimenez, Shunyu Yao, Nick Haber, Diyi Yang, Karthik Narasimhan

人工智能推理领域的最新进展推动了多项任务的显著提升。一个关键性的开放问题是：这些改进是否也带来了更好的知识迁移能力，即模型能否以人类可理解、可应用并从中学习的方式传达其推理过程。为探究这一问题，我们引入了知识整合与迁移评估（KITE），这是一个针对人机知识迁移能力的概念与实验框架，并开展了首个大规模人类研究（N=118），专门设计以衡量这一能力。在我们的两阶段实验设置中，人类首先与AI共同构思问题解决策略，随后独立实施解决方案，以此隔离模型解释对人类理解的影响。研究发现，尽管模型基准性能与协作成果存在相关性，但这种关系显著不一致，存在明显异常值，表明知识迁移需要专门的优化。我们的分析揭示了影响成功知识迁移的行为与策略因素。我们公开了代码、数据集及评估框架，以支持未来在沟通对齐模型方面的研究工作。

GuideX：面向零样本信息抽取的引导式合成数据生成
GuideX: Guided Synthetic Data Generation for Zero-Shot Information Extraction

May 31

ByNeil De La Fuente, Oscar Sainz, Iker García-Ferrero, Eneko Agirre

信息抽取（IE）系统传统上具有领域特定性，需要进行成本高昂的适配，包括专家模式设计、数据标注和模型训练。尽管大型语言模型在零样本信息抽取中展现出潜力，但在标签定义不同的未知领域中，性能显著下降。本文提出了GUIDEX，一种创新方法，能够自动定义领域特定模式、推断指导原则并生成合成标注实例，从而实现更好的跨领域泛化能力。通过使用GUIDEX对Llama 3.1进行微调，在七个零样本命名实体识别基准测试中创下了新的最先进水平。采用GUIDEX训练的模型，在无需人工标注数据的情况下，比以往方法提升了多达7个F1分数，结合人工标注数据后，更是高出近2个F1分数。基于GUIDEX训练的模型展现了对复杂领域特定标注模式更深入的理解。代码、模型及合成数据集可在neilus03.github.io/guidex.com获取。

稀疏化状态空间模型是高效的高速网络架构。
Sparsified State-Space Models are Efficient Highway Networks

May 27

ByWoomin Song, Jihoon Tack, Sangwoo Mo, Seunghyuk Oh, Jinwoo Shin

状态空间模型（SSMs）为序列建模提供了一种极具潜力的架构，通过用线性递归替代昂贵的自注意力机制，为Transformer提供了一种替代方案。本文提出了一种简单而有效的技巧，在给定计算预算内通过稀疏化来增强SSMs。我们的直觉是，由于逐步的递归更新，SSMs中的token具有高度冗余性，而密集的递归操作阻碍了历史信息的传递。特别是，我们观察到SSMs的上层由于编码全局信息而往往更为冗余，而下层则编码局部信息。基于此，我们引入了Simba，一种基于token剪枝的SSMs层次化稀疏化方法。Simba对上层进行比下层更大幅度的稀疏化，促使上层表现得像高速公路一样。为此，我们提出了一种新颖的SSMs token剪枝准则，通过累积局部递归来衡量token对最终输出的全局影响。我们证明，在各种自然语言任务中，Simba在相同FLOPS下优于基线模型Mamba。此外，我们展示了高速公路的效果，表明Simba不仅提升了效率，还改善了长序列中的信息流动。代码可在https://github.com/woominsong/Simba获取。

AI研究论文每日精选

每日精选AI研究论文及翻译

明日是否依然成立？多语言常青问题分类提升可信问答系统
Will It Still Be True Tomorrow? Multilingual Evergreen Question Classification to Improve Trustworthy QA

May 27

BySergey Pletenev, Maria Marina, Nikolay Ivanov, Daria Galimzianova, Nikita Krayko, Mikhail Salnikov, Vasily Konovalov, Alexander Panchenko, Viktor Moskvoretskii

140

PartCrafter：基于组合式潜在扩散Transformer的结构化三维网格生成
PartCrafter: Structured 3D Mesh Generation via Compositional Latent Diffusion Transformers

Jun 5

ByYuchen Lin, Chenguo Lin, Panwang Pan, Honglei Yan, Yiqiang Feng, Yadong Mu, Katerina Fragkiadaki

少数中的真理：高效多模态推理的高价值数据选择
Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning

Jun 5

ByShenshen Li, Kaiyuan Deng, Lei Wang, Hao Yang, Chong Peng, Peng Yan, Fumin Shen, Heng Tao Shen, Xing Xu

利用自注意力机制实现大语言模型中的输入相关软提示
Leveraging Self-Attention for Input-Dependent Soft Prompting in LLMs

Jun 5

ByAnanth Muppidi, Abhilash Nandy, Sambaran Bandyopadhyay

MORSE-500：一个可编程控制的视频基准测试集，用于压力测试多模态推理能力
MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning

Jun 5

ByZikui Cai, Andrew Wang, Anirudh Satheesh, Ankit Nakhawa, Hyunwoo Jae, Keenan Powell, Minghui Liu, Neel Jay, Sungbin Oh, Xiyao Wang, Yongyuan Liang, Tom Goldstein, Furong Huang

FusionAudio-1.2M：迈向多模态上下文融合的细粒度音频描述
FusionAudio-1.2M: Towards Fine-grained Audio Captioning with Multimodal Contextual Fusion

Jun 1

ByShunian Chen, Xinyuan Xie, Zheshu Chen, Liyan Zhao, Owen Lee, Zhan Su, Qilin Sun, Benyou Wang

STARFlow：面向高分辨率图像生成的扩展型潜在归一化流
STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis

Jun 6

ByJiatao Gu, Tianrong Chen, David Berthelot, Huangjie Zheng, Yuyang Wang, Ruixiang Zhang, Laurent Dinh, Miguel Angel Bautista, Josh Susskind, Shuangfei Zhai

扩展模态是实现全模态的正确路径吗？
Is Extending Modality The Right Path Towards Omni-Modality?

Jun 2

ByTinghui Zhu, Kai Zhang, Muhao Chen, Yu Su

Sentinel：防御提示注入攻击的顶尖模型
Sentinel: SOTA model to protect against prompt injections

Jun 5

ByDror Ivry, Oran Nahum

医疗世界模型：面向治疗规划的肿瘤演化生成式模拟
Medical World Model: Generative Simulation of Tumor Evolution for Treatment Planning

Jun 2

ByYijun Yang, Zhao-Yang Wang, Qiuping Liu, Shuwen Sun, Kang Wang, Rama Chellappa, Zongwei Zhou, Alan Yuille, Lei Zhu, Yu-Dong Zhang, Jieneng Chen

音频感知大语言模型作为口语风格的评判者
Audio-Aware Large Language Models as Judges for Speaking Styles

Jun 6

ByCheng-Han Chiang, Xiaofei Wang, Chung-Ching Lin, Kevin Lin, Linjie Li, Radu Kopetz, Yao Qian, Zhendong Wang, Zhengyuan Yang, Hung-yi Lee, Lijuan Wang

AssetOpsBench：工业资产运维任务自动化AI代理基准测试平台
AssetOpsBench: Benchmarking AI Agents for Task Automation in Industrial Asset Operations and Maintenance

Jun 4

ByDhaval Patel, Shuxin Lin, James Rayfield, Nianjun Zhou, Roman Vaculin, Natalia Martinez, Fearghal O'donncha, Jayant Kalagnanam

MIRIAD：通过数百万医疗问答对增强大型语言模型
MIRIAD: Augmenting LLMs with millions of medical query-response pairs

Jun 6

ByQinyue Zheng, Salman Abdullah, Sam Rawal, Cyril Zakka, Sophie Ostmeier, Maximilian Purk, Eduardo Reis, Eric J. Topol, Jure Leskovec, Michael Moor

同行评审精度：基于DataSeeds标注图像构建视觉模型微调的基础数据集
Peer-Ranked Precision: Creating a Foundational Dataset for Fine-Tuning Vision Models from DataSeeds' Annotated Imagery

Jun 6

BySajjad Abdoli, Freeman Lewin, Gediminas Vasiliauskas, Fabian Schonholz

CodeContests+：面向竞技编程的高质量测试用例生成
CodeContests+: High-Quality Test Case Generation for Competitive Programming

Jun 6

ByZihan Wang, Siyao Liu, Yang Sun, Hongyan Li, Kai Shen

视角融合：基于第一人称与第三人称视觉的跨视角协同智能研究综述
Bridging Perspectives: A Survey on Cross-view Collaborative Intelligence with Egocentric-Exocentric Vision

Jun 6

ByYuping He, Yifei Huang, Guo Chen, Lidong Lu, Baoqi Pei, Jilan Xu, Tong Lu, Yoichi Sato

当语义误导视觉：缓解大规模多模态模型在场景文本检测与理解中的幻觉问题
When Semantics Mislead Vision: Mitigating Large Multimodal Models Hallucinations in Scene Text Spotting and Understanding

Jun 5

ByYan Shu, Hangui Lin, Yexin Liu, Yan Zhang, Gangyan Zeng, Yan Li, Yu Zhou, Ser-Nam Lim, Harry Yang, Nicu Sebe

前缀分组器：通过共享前缀前向传播实现高效的GRPO训练
Prefix Grouper: Efficient GRPO Training through Shared-Prefix Forward

Jun 5

ByZikang Liu, Tongtian Yue, Yepeng Tang, Longteng Guo, Junxian Cai, Qingbin Liu, Xi Chen, Jing Liu

当模型所知超越其解释能力：量化人机协作中的知识迁移
When Models Know More Than They Can Explain: Quantifying Knowledge Transfer in Human-AI Collaboration

Jun 5

ByQuan Shi, Carlos E. Jimenez, Shunyu Yao, Nick Haber, Diyi Yang, Karthik Narasimhan

GuideX：面向零样本信息抽取的引导式合成数据生成
GuideX: Guided Synthetic Data Generation for Zero-Shot Information Extraction

May 31

ByNeil De La Fuente, Oscar Sainz, Iker García-Ferrero, Eneko Agirre

稀疏化状态空间模型是高效的高速网络架构。
Sparsified State-Space Models are Efficient Highway Networks

May 27

ByWoomin Song, Jihoon Tack, Sangwoo Mo, Seunghyuk Oh, Jinwoo Shin