AI研究论文每日精选

每日精选AI研究论文及翻译

在现实世界中实现多步推理：基于Transformer的数据增强方法探索
Grokking in the Wild: Data Augmentation for Real-World Multi-Hop Reasoning with Transformers

Apr 29

ByRoman Abramov, Felix Steinbauer, Gjergji Kasneci

Transformer模型在众多自然语言处理任务中取得了巨大成功，但在多步事实推理方面仍存在显著不足，尤其是在现实世界知识稀缺的情况下。近期关于“顿悟”（grokking）的研究表明，神经网络一旦识别出潜在的逻辑模式，就能从记忆过渡到完美泛化——然而这些研究主要使用小型合成任务。本文首次将“顿悟”扩展到现实世界的事实数据，并通过精心设计的合成数据增强现有知识图谱，以应对数据集稀疏的挑战，将推理事实与原子事实的比例phi_r提升至“顿悟”所需的阈值之上。令人惊讶的是，我们发现即使是事实错误的合成数据也能强化涌现的推理回路，而非降低准确性，因为它迫使模型依赖关系结构而非记忆。在多跳推理基准测试中，我们的方法在2WikiMultiHopQA上达到了95-100%的准确率，显著超越了强基线模型，并匹配或超越了当前的最先进结果。我们进一步深入分析了提高phi_r如何驱动Transformer内部泛化回路的形成。我们的研究结果表明，基于“顿悟”的数据增强能够释放隐式的多跳推理能力，为大规模语言模型实现更稳健且可解释的事实推理开辟了道路。

Voila：面向实时自主交互与语音角色扮演的语音-语言基础模型
Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play

May 5

ByYemin Shi, Yu Shu, Siwei Dong, Guangyi Liu, Jaward Sesay, Jingwen Li, Zhiting Hu

一款能无缝融入日常生活的语音AI助手，将以自主、实时且富有情感表达的方式与人类互动。它不仅仅是对指令作出反应，而是持续倾听、推理并主动回应，促成流畅、动态且情感共鸣的交互体验。我们推出了Voila，这是一系列大型语音语言基础模型，朝着这一愿景迈出了重要一步。Voila摒弃了传统的流水线系统，采用全新的端到端架构，实现了全双工、低延迟的对话，同时保留了丰富的语音细节，如语调、节奏和情感。其响应延迟仅为195毫秒，超越了人类的平均反应时间。通过层次化的多尺度Transformer架构，Voila将大型语言模型（LLMs）的推理能力与强大的声学建模相结合，实现了自然、角色感知的语音生成——用户只需通过文本指令即可定义说话者的身份、语调及其他特征。此外，Voila支持超过一百万种预制语音，并能从短至10秒的音频样本中高效定制新语音。除了口语对话，Voila还被设计为一个统一模型，适用于广泛的语音应用，包括自动语音识别（ASR）、文本到语音（TTS），以及经过少量适配的多语言语音翻译。Voila已完全开源，以支持开放研究，加速迈向下一代人机交互的进程。

RM-R1：奖励建模即推理
RM-R1: Reward Modeling as Reasoning

May 5

ByXiusi Chen, Gaotang Li, Ziqi Wang, Bowen Jin, Cheng Qian, Yu Wang, Hongru Wang, Yu Zhang, Denghui Zhang, Tong Zhang, Hanghang Tong, Heng Ji

奖励建模对于将大型语言模型（LLMs）与人类偏好对齐至关重要，尤其是在通过人类反馈强化学习（RLHF）的过程中。为了提供准确的奖励信号，奖励模型（RM）应在打分或做出判断前激发深度思考并进行可解释的推理。然而，现有的RM要么生成不透明的标量分数，要么直接预测优选答案，这使得它们难以整合自然语言批评，因而缺乏可解释性。受近期在推理密集型任务中长链思维（CoT）进展的启发，我们提出并验证了将推理能力融入奖励建模能显著提升RM的可解释性和性能。在本研究中，我们引入了一类新的生成式奖励模型——推理奖励模型（ReasRMs），它将奖励建模视为一项推理任务。我们提出了一个面向推理的训练流程，并训练了一系列ReasRMs，即RM-R1。训练包含两个关键阶段：(1)高质量推理链的蒸馏；(2)使用可验证奖励的强化学习。RM-R1通过自我生成推理轨迹或特定于聊天的评分标准，并据此评估候选响应，从而改进了LLM的生成效果。实证表明，我们的模型在多个综合奖励模型基准测试中达到了生成式RM的顶尖或接近顶尖水平，比更大的开放权重模型（如Llama3.1-405B）和专有模型（如GPT-4o）高出最多13.8%。除了最终性能外，我们还进行了深入的实证分析，以理解成功训练ReasRM的关键要素。为促进未来研究，我们在https://github.com/RM-R1-UIUC/RM-R1发布了六个ReasRM模型及其代码和数据。

μ子在预训练中的实际效率
Practical Efficiency of Muon for Pretraining

May 4

ByEssential AI, Ishaan Shah, Anthony M. Polloreno, Karl Stratos, Philip Monk, Adarsh Chaluvaraju, Andrew Hojel, Andrew Ma, Anil Thomas, Ashish Tanwer, Darsh J Shah, Khoi Nguyen, Kurt Smith, Michael Callahan, Michael Pust, Mohit Parmar, Peter Rushton, Platon Mazarakis, Ritvik Kapila, Saurabh Srivastava, Somanshu Singla, Tim Romanski, Yash Vanjani, Ashish Vaswani

我们证明，作为二阶优化器的最简实例，Muon在计算时间权衡上显著扩展了Pareto前沿，超越了AdamW。研究发现，Muon在大批量训练时，远超过所谓的临界批量大小，仍能有效保持数据效率，同时维持计算效率，从而实现更经济的训练。我们探讨了Muon与最大更新参数化（muP）的结合，以实现高效超参数迁移，并提出了一种简单的伸缩算法，该算法在考虑muP中所有误差源的同时，仅引入适度的资源开销。我们通过在模型规模高达四十亿参数上的广泛实验，以及对数据分布和架构的消融研究，验证了这些发现。

大型语言模型推理引擎综述：优化与效率视角
A Survey on Inference Engines for Large Language Models: Perspectives on Optimization and Efficiency

May 3

BySihyeong Park, Sungryeol Jeon, Chaelyn Lee, Seokhun Jeon, Byung-Soo Kim, Jemin Lee

大型语言模型（LLMs）广泛应用于聊天机器人、代码生成器和搜索引擎中。诸如思维链、复杂推理和代理服务等工作负载通过反复调用模型显著增加了推理成本。尽管采用了并行化、压缩和缓存等优化方法来降低成本，但多样化的服务需求使得选择合适的方法变得困难。最近，专门的LLM推理引擎已成为将优化方法集成到面向服务的基础设施中的关键组件。然而，关于推理引擎的系统性研究仍然缺乏。本文对25个开源和商业推理引擎进行了全面评估。我们从易用性、易部署性、通用支持性、可扩展性以及对吞吐量和延迟敏感计算的适用性等方面考察了每个推理引擎。此外，我们通过调查每个推理引擎所支持的优化技术，探讨了其设计目标。同时，我们评估了开源推理引擎的生态系统成熟度，并处理了商业解决方案的性能和成本策略。我们概述了未来的研究方向，包括对基于LLM的复杂服务的支持、对各种硬件的支持以及增强的安全性，为研究人员和开发者在选择和设计优化的LLM推理引擎时提供了实用指导。我们还提供了一个公共仓库，以持续跟踪这一快速发展领域的最新进展： https://github.com/sihyeong/Awesome-LLM-Inference-Engine

通过强化学习实现大语言模型的自主推理与工具集成
Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning

Apr 28

ByJoykirat Singh, Raghav Magazine, Yash Pandya, Akshay Nambi

大型语言模型（LLMs）在复杂推理任务中取得了显著进展，但其本质上仍受限于对静态内部知识和纯文本推理的依赖。现实世界的问题解决往往需要动态、多步骤的推理、适应性决策以及与外置工具和环境交互的能力。在本研究中，我们提出了ARTIST（自改进Transformer中的代理推理与工具集成），这是一个将代理推理、强化学习及工具集成紧密耦合的统一框架。ARTIST使模型能够在多轮推理链中自主决定何时、如何以及调用哪些工具，利用基于结果的强化学习来学习工具使用和环境交互的稳健策略，而无需步骤级监督。在数学推理和多轮函数调用基准测试上的广泛实验表明，ARTIST持续超越最先进的基线模型，相较于基础模型实现了高达22%的绝对提升，并在最具挑战性的任务上展现出强劲优势。详细研究和指标分析揭示，代理强化学习训练促进了更深层次的推理、更有效的工具使用以及更高质量的解决方案。我们的研究成果确立了结合工具集成的代理强化学习作为LLMs中实现稳健、可解释且可泛化问题解决的一个强大新前沿。

FormalMATH：大型语言模型形式化数学推理能力基准测试
FormalMATH: Benchmarking Formal Mathematical Reasoning of Large Language Models

May 5

ByZhouliang Yu, Ruotian Peng, Keyi Ding, Yizhe Li, Zhongyuan Peng, Minghao Liu, Yifan Zhang, Zheng Yuan, Huajian Xin, Wenhao Huang, Yandong Wen, Ge Zhang, Weiyang Liu

形式化数学推理仍是人工智能面临的一项关键挑战，现有基准测试在广度和规模上的局限阻碍了其发展。为此，我们推出了FormalMATH，这是一个基于Lean4的大规模基准测试集，包含5,560个经过形式化验证的问题，涵盖从高中奥赛难题到本科水平定理的多个领域（如代数、应用数学、微积分、数论和离散数学）。为缓解手动形式化的低效问题，我们引入了一种新颖的人机协作自动形式化流程，该流程整合了：(1) 专门用于命题自动形式化的大语言模型（LLMs），(2) 多LLM语义验证机制，以及(3) 利用现成LLM证明器的基于否定的反证过滤策略。这一方法在确保与原始自然语言问题一致性的同时，通过保留72.09%的命题在人工验证前，显著降低了专家标注成本。我们对当前最先进的基于LLM的定理证明器进行评估，揭示了其显著局限性：即便最强大的模型在实际采样预算下也仅达到16.46%的成功率，表现出明显的领域偏好（如在代数中表现优异而在微积分中失败）及对简化自动化策略的过度依赖。值得注意的是，我们发现，在链式思维推理场景中，自然语言解题指导与证明成功率之间存在反直觉的负相关关系，这表明人类书写的非正式推理在形式化推理环境中引入了噪音而非清晰度。我们相信，FormalMATH为形式化数学推理的基准测试提供了一个强有力的平台。

R1-奖励：通过稳定强化学习训练多模态奖励模型
R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning

May 5

ByYi-Fan Zhang, Xingyu Lu, Xiao Hu, Chaoyou Fu, Bin Wen, Tianke Zhang, Changyi Liu, Kaiyu Jiang, Kaibing Chen, Kaiyu Tang, Haojie Ding, Jiankang Chen, Fan Yang, Zhang Zhang, Tingting Gao, Liang Wang

多模态奖励模型（MRMs）在提升多模态大语言模型（MLLMs）性能方面发挥着关键作用。尽管近期研究主要集中于改进MRMs的模型架构和训练数据，但对于奖励建模中长期推理能力的有效性及其在MRMs中的激活方式，探索仍显不足。本文探讨了如何利用强化学习（RL）优化奖励建模。具体而言，我们将奖励建模问题重新表述为基于规则的RL任务。然而，我们观察到，直接将现有RL算法（如Reinforce++）应用于奖励建模，常因这些算法固有的局限性导致训练不稳定甚至崩溃。为解决此问题，我们提出了StableReinforce算法，该算法对现有RL方法的训练损失、优势估计策略及奖励设计进行了优化，从而实现了更稳定的训练动态和更优的性能。为支持MRM训练，我们从多样化的数据集中收集了20万条偏好数据。基于此数据集，采用StableReinforce算法训练的奖励模型R1-Reward，在多模态奖励建模基准测试中表现显著提升。与之前的最先进模型相比，R1-Reward在VL Reward-Bench上提升了8.4%，在Multimodal Reward Bench上提升了14.3%。此外，随着推理计算资源的增加，R1-Reward的性能进一步得到增强，凸显了RL算法在优化MRMs中的巨大潜力。

替换我：通过层剪枝与线性变换实现网络简化
ReplaceMe: Network Simplification via Layer Pruning and Linear Transformations

May 5

ByDmitriy Shopkhoev, Ammar Ali, Magauiya Zhussip, Valentin Malykh, Stamatios Lefkimmiatis, Nikos Komodakis, Sergey Zagoruyko

我们提出了ReplaceMe，这是一种通用的免训练深度剪枝方法，它能够有效地将Transformer模块替换为线性操作，同时在低压缩比下保持高性能。与需要额外训练或微调的传统剪枝方法不同，我们的方法仅需一个小型校准数据集，用于估计一个线性变换来近似被剪枝的模块。这一估计的线性映射可以无缝地融入剩余的Transformer模块中，无需引入任何额外的网络参数。实验表明，ReplaceMe在免训练方法中持续领先，并与涉及大量重训练/微调和架构调整的最先进剪枝方法保持高度竞争力。应用于多个大型语言模型（LLMs）时，ReplaceMe实现了高达25%的剪枝率，同时在开放基准测试中保留了约90%的原模型性能——无需任何训练或修复步骤，计算开销极低（见图1）。我们提供了一个开源库，实现了ReplaceMe及多种最先进的深度剪枝技术，可在该代码库获取。

通过梯度方差最小化优化链式思维推理器：拒绝采样与强化学习中的应用
Optimizing Chain-of-Thought Reasoners via Gradient Variance Minimization in Rejection Sampling and RL

May 5

ByJiarui Yao, Yifan Hao, Hanning Zhang, Hanze Dong, Wei Xiong, Nan Jiang, Tong Zhang

大语言模型（LLMs）中的思维链（CoT）推理可形式化为一个潜在变量问题，其中模型需生成中间推理步骤。尽管先前的方法如迭代奖励排序微调（RAFT）依赖此类形式化，但它们通常对提示采用统一的推理预算，未能考虑到难度与收敛行为的差异性。本工作指出CoT训练中的主要瓶颈在于静态采样策略导致的随机梯度估计效率低下。我们提出了GVM-RAFT，一种针对提示的动态样本分配策略，旨在计算预算约束下最小化随机梯度方差。该方法通过监控提示接受率与随机梯度范数，动态分配计算资源，确保所得梯度方差最小化。理论分析表明，在适当条件下，所提出的动态采样策略能加速收敛保证。数学推理实验显示，GVM-RAFT相比原始RAFT实现了2-4倍的加速及显著的准确率提升。该动态采样策略具有通用性，可融入其他强化学习算法，如GRPO，带来类似的收敛速度与测试准确率提升。我们的代码公开于https://github.com/RLHFlow/GVM。

LLaMA-Omni2：基于大语言模型的实时语音聊天机器人，具备自回归流式语音合成功能
LLaMA-Omni2: LLM-based Real-time Spoken Chatbot with Autoregressive Streaming Speech Synthesis

May 5

ByQingkai Fang, Yan Zhou, Shoutao Guo, Shaolei Zhang, Yang Feng

实时、智能且自然的语音交互是下一代人机交互的核心组成部分。近期研究进展展示了基于大语言模型（LLMs）构建智能语音聊天机器人的潜力。本文介绍了LLaMA-Omni 2，一系列参数规模从0.5B到14B不等的语音语言模型（SpeechLMs），能够实现高质量的实时语音交互。LLaMA-Omni 2基于Qwen2.5系列模型构建，集成了语音编码器和自回归流式语音解码器。尽管仅训练了20万轮多轮语音对话样本，LLaMA-Omni 2在多个语音问答和语音指令跟随基准测试中表现出色，超越了之前基于数百万小时语音数据训练的顶尖SpeechLMs，如GLM-4-Voice。

随机应变：基于强化学习的社会智能体自适应思维
Think on your Feet: Adaptive Thinking via Reinforcement Learning for Social Agents

May 4

ByMinzheng Wang, Yongbin Li, Haobo Wang, Xinghua Zhang, Nan Xu, Bingli Wu, Fei Huang, Haiyang Yu, Wenji Mao

有效的社交智能模拟要求语言代理能够动态调整推理深度，这一能力在当前方法中明显缺失。现有方法要么缺乏此类推理能力，要么在所有场景中强制采用统一的长链式思维推理，导致过多的令牌使用和不恰当的社交模拟。本文提出自适应模式学习（AML），它根据实时上下文从四种思维模式（直觉反应→深度思考）中策略性地选择。我们框架的核心创新——自适应模式策略优化（AMPO）算法，相比现有方法引入了三项关键改进：（1）多粒度思维模式设计，（2）跨社交互动的上下文感知模式切换，以及（3）通过深度自适应处理实现令牌高效推理。在社交智能任务上的大量实验证实，AML比最先进方法实现了15.6%的任务性能提升。值得注意的是，我们的方法在推理链缩短32.8%的情况下，性能优于GRPO 7.0%。这些结果表明，AMPO中实现的上下文敏感思维模式选择，相比GRPO的固定深度方法，能够实现更接近人类的适应性推理。

SkillMimic-V2：从稀疏且含噪声的演示中学习稳健且可泛化的交互技能
SkillMimic-V2: Learning Robust and Generalizable Interaction Skills from Sparse and Noisy Demonstrations

May 4

ByRunyi Yu, Yinhuai Wang, Qihan Zhao, Hok Wai Tsui, Jingbo Wang, Ping Tan, Qifeng Chen

我们解决了从交互演示中进行强化学习（RLID）的一个根本性挑战：演示噪声与覆盖范围限制。尽管现有的数据收集方法提供了有价值的交互演示，但它们往往产生稀疏、不连贯且含有噪声的轨迹，未能全面捕捉技能变化与过渡的全部可能性。我们的核心洞见在于，即便面对噪声多且稀疏的演示，仍存在无限多条物理上可行的轨迹，这些轨迹自然地桥接了已展示技能之间，或从其邻近状态中涌现，形成了一个连续的可能技能变化与过渡空间。基于这一洞见，我们提出了两种数据增强技术：一是缝合轨迹图（STG），它探索演示技能间潜在的过渡；二是状态转移场（STF），它为演示邻域内的任意状态建立独特连接。为了利用增强数据实现有效的RLID，我们开发了自适应轨迹采样（ATS）策略，用于动态课程生成，以及历史编码机制，以支持依赖记忆的技能学习。我们的方法促进了稳健的技能获取，显著超越了参考演示的泛化能力。在多种交互任务上的广泛实验表明，相较于现有最先进方法，在收敛稳定性、泛化能力和恢复鲁棒性方面均取得了显著提升。

明简统一：自然多模态交互统一架构的新进展
Ming-Lite-Uni: Advancements in Unified Architecture for Natural Multimodal Interaction

May 5

ByBiao Gong, Cheng Zou, Dandan Zheng, Hu Yu, Jingdong Chen, Jianxin Sun, Junbo Zhao, Jun Zhou, Kaixiang Ji, Lixiang Ru, Libin Wang, Qingpei Guo, Rui Liu, Weilong Chai, Xinyu Xiao, Ziyuan Huang

我们推出Ming-Lite-Uni，一个开源的多模态框架，其特色在于全新设计的统一视觉生成器及专为融合视觉与语言而生的原生多模态自回归模型。具体而言，该项目不仅开源实现了集成MetaQueries与M2-omni框架，还引入了创新的多尺度可学习令牌及多尺度表示对齐策略。通过结合固定的多模态大语言模型（MLLM）与可学习的扩散模型，Ming-Lite-Uni使原生多模态自回归模型能够执行文本到图像生成及基于指令的图像编辑任务，从而扩展了其能力，超越了单纯的视觉理解范畴。实验结果表明，Ming-Lite-Uni展现出卓越的性能，其交互过程的流畅性令人印象深刻。所有代码及模型权重均已开源，以促进社区内的进一步探索。值得注意的是，此工作与同期多模态AI里程碑——如2025年3月25日更新的具备原生图像生成能力的ChatGPT-4o——相呼应，凸显了如Ming-Lite-Uni这类统一模型在通往通用人工智能（AGI）道路上的广泛意义。Ming-Lite-Uni目前处于Alpha阶段，即将迎来进一步的优化与完善。

SuperEdit：优化与简化基于指令的图像编辑监督机制
SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing

May 5

ByMing Li, Xin Gu, Fan Chen, Xiaoying Xing, Longyin Wen, Chen Chen, Sijie Zhu

鉴于手动收集精确编辑数据存在挑战，现有数据集通常采用多种自动化方法构建，这导致了编辑指令与原图-编辑后图像对之间的不匹配，从而产生了噪声监督信号。近期研究尝试通过生成更高质量的编辑图像、在识别任务上进行预训练或引入视觉-语言模型（VLMs）来改进编辑模型，但未能从根本上解决这一问题。本文提出了一种新颖的解决方案，即为给定的图像对构建更有效的编辑指令。这包括修正编辑指令以更好地与原图-编辑后图像对对齐，以及使用对比编辑指令进一步增强其有效性。具体而言，我们发现编辑模型在不同推理步骤中展现出特定的生成属性，这些属性与文本无关。基于这些先验属性，我们为VLMs定义了一个统一的指导原则来修正编辑指令。然而，仅靠修正指令无法解决所有具有挑战性的编辑场景。为此，我们进一步构建了包含正负指令的对比监督信号，并通过三元组损失将其引入模型训练，从而进一步提升监督效果。我们的方法无需依赖先前工作中使用的VLM模块或预训练任务，提供了一种更直接且高效的方式来提供更好的监督信号，为基于指令的图像编辑提供了一个新颖、简单且有效的解决方案。在多个基准测试上的结果表明，我们的方法显著优于现有方法。与之前的最先进方法SmartEdit相比，我们在Real-Edit基准上实现了9.19%的提升，同时训练数据量减少了30倍，模型规模缩小了13倍。

大规模语言模型的低精度训练：方法、挑战与机遇
Low-Precision Training of Large Language Models: Methods, Challenges, and Opportunities

May 2

ByZhiwei Hao, Jianyuan Guo, Li Shen, Yong Luo, Han Hu, Guoxia Wang, Dianhai Yu, Yonggang Wen, Dacheng Tao

大型语言模型（LLMs）在多个领域展现出了卓越的性能。然而，其训练所需的大量硬件资源对效率和可扩展性构成了显著障碍。为应对这一挑战，低精度训练技术被广泛采用，显著提升了训练效率。尽管取得了这些进展，低精度训练涉及多个组件——如权重、激活值和梯度——每个组件都可以用不同的数值格式表示。这种多样性导致了低精度训练研究领域的碎片化，使得研究人员难以获得该领域的统一概览。本综述对现有的低精度训练方法进行了全面回顾。为系统性地组织这些方法，我们根据其基础数值格式将其分为三大类，这是影响硬件兼容性、计算效率以及读者参考便利性的关键因素。分类包括：（1）定点与整数方法，（2）浮点方法，以及（3）定制格式方法。此外，我们还讨论了量化感知训练方法，这些方法在前向传播过程中与低精度训练具有关键相似性。最后，我们指出了推动该领域发展的若干有前景的研究方向。本综述中讨论的论文合集可在https://github.com/Hao840/Awesome-Low-Precision-Training获取。

TEMPURA：面向行动推理的时间事件掩码预测与理解
TEMPURA: Temporal Event Masked Prediction and Understanding for Reasoning in Action

May 2

ByJen-Hao Cheng, Vivian Wang, Huayu Wang, Huapeng Zhou, Yi-Hao Peng, Hou-I Liu, Hsiang-Wei Huang, Kuang-Ming Chen, Cheng-Yen Yang, Wenhao Chai, Yi-Ling Chen, Vibhav Vineet, Qin Cai, Jenq-Neng Hwang

理解视频中的因果事件关系并实现细粒度的时间定位，对于视觉语言模型而言仍具挑战性。现有方法要么通过压缩视频标记来降低时间分辨率，要么将视频视为未分割的流，这模糊了细粒度的事件边界，并限制了对因果依赖关系的建模。我们提出了TEMPURA（时序事件掩码预测与行动推理理解），这是一个两阶段训练框架，旨在增强视频时序理解能力。TEMPURA首先借鉴有效的填充技术，应用掩码事件预测推理来重建缺失事件，并从密集事件标注中生成逐步的因果解释。随后，TEMPURA学习执行视频分割和密集描述任务，将视频分解为不重叠的事件，并配以详细且时间戳对齐的描述。我们在VER数据集上训练TEMPURA，这是一个由我们整理的大规模数据集，包含100万训练实例和50万视频，这些视频均带有时间对齐的事件描述和结构化推理步骤。在时间定位和高光检测基准测试中的实验表明，TEMPURA超越了强大的基线模型，证实了将因果推理与细粒度时间分割相结合能够提升视频理解能力。

MUSAR：通过注意力路由机制探索基于单主体数据集的多主体定制化
MUSAR: Exploring Multi-Subject Customization from Single-Subject Dataset via Attention Routing

May 5

ByZinan Guo, Pengze Zhang, Yanze Wu, Chong Mou, Songtao Zhao, Qian He

当前的多主体定制方法面临两大关键挑战：获取多样化的多主体训练数据的困难，以及不同主体间属性纠缠的问题。为填补这些空白，我们提出了MUSAR——一个简单却高效的框架，仅需单主体训练数据即可实现稳健的多主体定制。首先，为突破数据限制，我们引入了去偏双联学习法。该方法通过单主体图像构建双联训练对，促进多主体学习，同时借助静态注意力路由和双分支LoRA主动校正由双联构建引入的分布偏差。其次，为消除跨主体纠缠，我们引入了动态注意力路由机制，该机制自适应地建立生成图像与条件主体间的双射映射。这一设计不仅实现了多主体表征的解耦，还保持了随着参考主体增加而可扩展的泛化性能。综合实验表明，尽管仅使用单主体数据集，我们的MUSAR在图像质量、主体一致性和交互自然度上均优于现有方法，甚至包括那些在多主体数据集上训练的方法。

注意力机制视角：探索大语言模型对图结构数据的处理
Attention Mechanisms Perspective: Exploring LLM Processing of Graph-Structured Data

May 4

ByZhong Guan, Likang Wu, Hongke Zhao, Ming He, Jianpin Fan

注意力机制对于大型语言模型（LLMs）的成功至关重要，推动了多个领域的显著进步。然而，在处理需要强调拓扑连接的图结构数据时，与基于固定链接的消息传递机制（如图神经网络GNNs所采用的方法）相比，注意力机制显得力不从心。这引发了一个问题：“在自然语言环境中，注意力机制是否不适用于图数据？”基于这些观察，我们从注意力机制的角度出发，开展了一项实证研究，以探索LLMs如何处理图结构数据。目的是更深入地理解LLMs在图结构上的注意力行为。我们揭示了LLMs如何将注意力应用于图结构数据的独特现象，并分析了这些发现，以改进LLMs对此类数据的建模能力。我们的研究主要发现如下：1) 尽管LLMs能够识别图数据并捕捉文本与节点间的交互，但由于其固有的架构限制，它们在建模图结构内部节点间关系方面存在困难。2) LLMs在图节点间的注意力分布与理想的结构模式不符，表明其未能适应图拓扑的细微差别。3) 完全连接的注意力机制与固定连接均非最优选择，每种方法在特定应用场景下都有其局限性。相反，中间状态的注意力窗口提升了LLM的训练性能，并在推理时无缝过渡到完全连接窗口。源代码：https://github.com/millioniron/LLM_exploration{LLM4Exploration}

学习异构场景专家混合模型以实现大规模神经辐射场
Learning Heterogeneous Mixture of Scene Experts for Large-scale Neural Radiance Fields

May 4

ByZhenxing Mi, Ping Yin, Xue Xiao, Dan Xu

近期在大规模场景下的NeRF方法强调了场景分解对于可扩展NeRF的重要性。尽管已实现合理的可扩展性，但仍存在几个关键问题尚未探索，即可学习的分解、场景异质性建模以及建模效率。本文中，我们提出了Switch-NeRF++，一种异构哈希专家混合（HMoHE）网络，该网络在一个统一框架内解决了这些挑战。它是一个高度可扩展的NeRF，能够以端到端的方式高效学习大规模场景的异构分解和异构NeRF。在我们的框架中，一个门控网络学习分解场景并将3D点分配给专门的NeRF专家。通过我们提出的稀疏门控专家混合（MoE）NeRF框架，该门控网络与专家共同优化。我们引入了一个基于哈希的门控网络和不同的异构哈希专家。基于哈希的门控高效学习大规模场景的分解。不同的异构哈希专家由不同分辨率范围的哈希网格组成，能够有效学习不同场景部分的异构表示。这些设计选择使我们的框架成为面向现实世界大规模场景建模的端到端且高度可扩展的NeRF解决方案，实现了质量与效率的双重提升。我们在现有的大规模NeRF数据集和来自UrbanBIS的超大规模场景（>6.5平方公里）新数据集上评估了我们的准确性和可扩展性。大量实验表明，我们的方法能够轻松扩展到各种大规模场景，并达到最先进的场景渲染精度。此外，与Switch-NeRF相比，我们的方法在训练速度上提升了8倍，渲染速度提升了16倍，显著提高了效率。代码将在https://github.com/MiZhenxing/Switch-NeRF 发布。

多模态大语言模型中的敏感信息遗忘：基准测试与攻防评估
Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation

May 1

ByVaidehi Patil, Yi-Lin Sung, Peter Hase, Jie Peng, Tianlong Chen, Mohit Bansal

基于海量数据集训练的大型语言模型（LLMs）可能无意中获取敏感信息，如个人详情及潜在有害内容。这一风险在多模态LLMs中进一步加剧，因为它们整合了来自多种模态（图像与文本）的信息。攻击者可通过多模态提示利用这些知识提取敏感细节。评估多模态LLMs如何有效遗忘此类信息（定向遗忘），需要构建高质量、标注完善的图文对。尽管先前关于遗忘的研究集中于文本领域，多模态遗忘仍待深入探索。为填补这一空白，我们首先引入了一个多模态遗忘基准——UnLOK-VQA（遗忘外部知识视觉问答），以及一个攻击与防御框架，用于评估从多模态LLMs中删除特定多模态知识的方法。我们利用自动化流程扩展了一个视觉问答数据集，生成不同接近度的样本以测试泛化性与特异性，随后通过人工筛选确保高质量。接着，我们针对七种攻击（四种白盒，三种黑盒）评估了六种防御目标，包括一种利用隐藏状态可解释性的新颖白盒方法。结果显示，多模态攻击优于仅文本或仅图像的攻击，而最有效的防御措施是从模型内部状态移除答案信息。此外，更大模型展现出更强的编辑后鲁棒性，表明规模提升安全性。UnLOK-VQA为推进多模态LLMs的遗忘研究提供了一个严谨的基准。

WorldGenBench：面向推理驱动型文本到图像生成的世界知识融合基准测试平台
WorldGenBench: A World-Knowledge-Integrated Benchmark for Reasoning-Driven Text-to-Image Generation

May 2

ByDaoan Zhang, Che Jiang, Ruoshi Xu, Biaoxiang Chen, Zijian Jin, Yutian Lu, Jianguo Zhang, Liang Yong, Jiebo Luo, Shengda Luo

近期，文本到图像（T2I）生成技术取得了显著进展，然而现有模型在处理需要丰富世界知识和隐含推理的提示时仍显不足，这两者对于在现实场景中生成语义准确、连贯且上下文恰当的图像至关重要。为填补这一空白，我们推出了WorldGenBench，一个旨在系统评估T2I模型世界知识基础和隐含推理能力的基准，涵盖人文与自然两大领域。我们提出了知识清单评分（Knowledge Checklist Score），这一结构化指标用于衡量生成图像在多大程度上满足关键语义预期。通过对21个顶尖模型的实验分析，我们发现，尽管扩散模型在开源方法中表现领先，但如GPT-4o等专有自回归模型在推理和知识整合方面展现出显著优势。我们的研究结果强调了下一代T2I系统需具备更深层次的理解与推理能力。项目页面：https://dwanzhang-ai.github.io/WorldGenBench/

重新思考RGB-事件语义分割：一种新颖的双向运动增强事件表示方法
Rethinking RGB-Event Semantic Segmentation with a Novel Bidirectional Motion-enhanced Event Representation

May 2

ByZhen Yao, Xiaowen Ying, Mooi Choo Chuah

事件相机捕捉运动动态，为多种计算机视觉任务提供了一种独特且极具潜力的模态。然而，RGB与事件数据的融合面临三个本质上的不对齐问题：(i) 时间、(ii) 空间以及 (iii) 模态不对齐。现有的体素网格表示方法忽视了连续事件窗口间的时间关联性，且其基于异步稀疏事件简单累积的构建方式与RGB模态的同步密集特性不相兼容。为应对这些挑战，我们提出了一种新颖的事件表示方法——运动增强事件张量（MET），它通过利用密集光流和事件时间特征，将稀疏事件体素转化为密集且时间连贯的形式。此外，我们引入了频率感知双向流聚合模块（BFAM）和时间融合模块（TFM）。BFAM结合频域信息和MET来缓解模态不对齐，而双向流聚合与时间融合机制则解决了时空不对齐问题。在两个大规模数据集上的实验结果表明，我们的框架在RGB-事件语义分割任务上显著超越了现有最先进的方法。代码已公开于：https://github.com/zyaocoder/BRENet。

AI研究论文每日精选

每日精选AI研究论文及翻译

在现实世界中实现多步推理：基于Transformer的数据增强方法探索
Grokking in the Wild: Data Augmentation for Real-World Multi-Hop Reasoning with Transformers

Apr 29

ByRoman Abramov, Felix Steinbauer, Gjergji Kasneci

Voila：面向实时自主交互与语音角色扮演的语音-语言基础模型
Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play

May 5

ByYemin Shi, Yu Shu, Siwei Dong, Guangyi Liu, Jaward Sesay, Jingwen Li, Zhiting Hu

RM-R1：奖励建模即推理
RM-R1: Reward Modeling as Reasoning

May 5

ByXiusi Chen, Gaotang Li, Ziqi Wang, Bowen Jin, Cheng Qian, Yu Wang, Hongru Wang, Yu Zhang, Denghui Zhang, Tong Zhang, Hanghang Tong, Heng Ji

μ子在预训练中的实际效率
Practical Efficiency of Muon for Pretraining

May 4

大型语言模型推理引擎综述：优化与效率视角
A Survey on Inference Engines for Large Language Models: Perspectives on Optimization and Efficiency

May 3

BySihyeong Park, Sungryeol Jeon, Chaelyn Lee, Seokhun Jeon, Byung-Soo Kim, Jemin Lee

通过强化学习实现大语言模型的自主推理与工具集成
Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning

Apr 28

ByJoykirat Singh, Raghav Magazine, Yash Pandya, Akshay Nambi

FormalMATH：大型语言模型形式化数学推理能力基准测试
FormalMATH: Benchmarking Formal Mathematical Reasoning of Large Language Models

May 5

ByZhouliang Yu, Ruotian Peng, Keyi Ding, Yizhe Li, Zhongyuan Peng, Minghao Liu, Yifan Zhang, Zheng Yuan, Huajian Xin, Wenhao Huang, Yandong Wen, Ge Zhang, Weiyang Liu

R1-奖励：通过稳定强化学习训练多模态奖励模型
R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning

May 5

ByYi-Fan Zhang, Xingyu Lu, Xiao Hu, Chaoyou Fu, Bin Wen, Tianke Zhang, Changyi Liu, Kaiyu Jiang, Kaibing Chen, Kaiyu Tang, Haojie Ding, Jiankang Chen, Fan Yang, Zhang Zhang, Tingting Gao, Liang Wang

替换我：通过层剪枝与线性变换实现网络简化
ReplaceMe: Network Simplification via Layer Pruning and Linear Transformations

May 5

ByDmitriy Shopkhoev, Ammar Ali, Magauiya Zhussip, Valentin Malykh, Stamatios Lefkimmiatis, Nikos Komodakis, Sergey Zagoruyko

通过梯度方差最小化优化链式思维推理器：拒绝采样与强化学习中的应用
Optimizing Chain-of-Thought Reasoners via Gradient Variance Minimization in Rejection Sampling and RL

May 5

ByJiarui Yao, Yifan Hao, Hanning Zhang, Hanze Dong, Wei Xiong, Nan Jiang, Tong Zhang

LLaMA-Omni2：基于大语言模型的实时语音聊天机器人，具备自回归流式语音合成功能
LLaMA-Omni2: LLM-based Real-time Spoken Chatbot with Autoregressive Streaming Speech Synthesis

May 5

ByQingkai Fang, Yan Zhou, Shoutao Guo, Shaolei Zhang, Yang Feng

随机应变：基于强化学习的社会智能体自适应思维
Think on your Feet: Adaptive Thinking via Reinforcement Learning for Social Agents

May 4

ByMinzheng Wang, Yongbin Li, Haobo Wang, Xinghua Zhang, Nan Xu, Bingli Wu, Fei Huang, Haiyang Yu, Wenji Mao

SkillMimic-V2：从稀疏且含噪声的演示中学习稳健且可泛化的交互技能
SkillMimic-V2: Learning Robust and Generalizable Interaction Skills from Sparse and Noisy Demonstrations

May 4

ByRunyi Yu, Yinhuai Wang, Qihan Zhao, Hok Wai Tsui, Jingbo Wang, Ping Tan, Qifeng Chen

MUSAR：通过注意力路由机制探索基于单主体数据集的多主体定制化
MUSAR: Exploring Multi-Subject Customization from Single-Subject Dataset via Attention Routing

May 5

ByZinan Guo, Pengze Zhang, Yanze Wu, Chong Mou, Songtao Zhao, Qian He

WorldGenBench：面向推理驱动型文本到图像生成的世界知识融合基准测试平台
WorldGenBench: A World-Knowledge-Integrated Benchmark for Reasoning-Driven Text-to-Image Generation

May 2

ByDaoan Zhang, Che Jiang, Ruoshi Xu, Biaoxiang Chen, Zijian Jin, Yutian Lu, Jianguo Zhang, Liang Yong, Jiebo Luo, Shengda Luo

重新思考RGB-事件语义分割：一种新颖的双向运动增强事件表示方法
Rethinking RGB-Event Semantic Segmentation with a Novel Bidirectional Motion-enhanced Event Representation

May 2

ByZhen Yao, Xiaowen Ying, Mooi Choo Chuah