AI研究论文每日精选

每日精选AI研究论文及翻译

在非策略指导下的推理学习
Learning to Reason under Off-Policy Guidance

Apr 21

ByJianhao Yan, Yafu Li, Zican Hu, Zhi Wang, Ganqu Cui, Xiaoye Qu, Yu Cheng, Yue Zhang

近期在大规模推理模型（LRMs）上的进展表明，通过基于简单规则的奖励进行强化学习（RL），可以涌现出多步推理和自我反思等复杂行为。然而，现有的零RL方法本质上是“同策略”的，将学习限制在模型自身的输出范围内，无法获得超越其初始能力的推理技能。我们提出了LUFFY（在异策略指导下学习推理），这是一个通过引入异策略推理轨迹来增强零RL的框架。LUFFY在训练过程中动态平衡模仿与探索，将异策略示范与同策略展开相结合。值得注意的是，我们提出了通过正则化重要性采样进行策略塑形，以避免在混合策略训练中出现肤浅和僵化的模仿。显著的是，LUFFY在六个数学基准测试中平均提升了超过7.0分，在分布外任务中取得了超过6.2分的优势。它还大幅超越了基于模仿的监督微调（SFT），特别是在泛化能力方面。分析表明，LUFFY不仅有效模仿，还能超越示范进行探索，为利用异策略指导训练可泛化的推理模型提供了一条可扩展的路径。

Eagle 2.5：推动前沿视觉-语言模型的长上下文后训练优化
Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models

Apr 21

ByGuo Chen, Zhiqi Li, Shihao Wang, Jindong Jiang, Yicheng Liu, Lidong Lu, De-An Huang, Wonmin Byeon, Matthieu Le, Tuomas Rintamaki, Tyler Poon, Max Ehrlich, Tuomas Rintamaki, Tyler Poon, Tong Lu, Limin Wang, Bryan Catanzaro, Jan Kautz, Andrew Tao, Zhiding Yu, Guilin Liu

我们推出Eagle 2.5，这是一系列面向长上下文多模态学习的前沿视觉-语言模型（VLMs）。我们的研究致力于解决长视频理解和高分辨率图像识别的挑战，提出了一个适用于这两项任务的通用框架。该训练框架融合了自动降质采样与图像区域保留两项技术，有效维护了上下文完整性与视觉细节。此外，框架在长上下文数据训练流程中引入了多项效率优化措施。最后，我们提出了Eagle-Video-110K，一个集成了故事级与片段级标注的新颖数据集，以促进长视频理解。Eagle 2.5在长上下文多模态基准测试中展现出显著提升，为现有VLMs的局限性提供了强有力的解决方案。特别值得一提的是，我们的最佳模型Eagle 2.5-8B在输入512帧的情况下，在Video-MME上取得了72.4%的成绩，与GPT-4o等顶级商业模型及Qwen2.5-VL-72B、InternVL2.5-78B等大规模开源模型的表现相当。

ToolRL：奖励机制即工具学习之所需
ToolRL: Reward is All Tool Learning Needs

Apr 16

ByCheng Qian, Emre Can Acikgoz, Qi He, Hongru Wang, Xiusi Chen, Dilek Hakkani-Tür, Gokhan Tur, Heng Ji

当前的大型语言模型（LLMs）常通过监督微调（SFT）来掌握工具使用能力。然而，SFT在面对陌生或复杂的工具使用场景时，其泛化能力显得不足。近期，强化学习（RL）领域的进展，尤其是类似R1模型的引入，展现了卓越的推理与泛化潜力。但针对工具使用的奖励设计面临独特挑战：多种工具可能需搭配多样参数调用，而诸如答案匹配等粗粒度奖励信号，难以提供有效学习所需的细致反馈。本研究首次在RL框架下，对工具选择与应用任务的奖励设计进行了全面探讨。我们系统性地考察了多种奖励策略，分析其类型、尺度、粒度及时序动态。基于这些洞见，我们提出了一套针对工具使用任务的原则性奖励设计方案，并采用群体相对策略优化（GRPO）训练LLMs。跨多个基准的实证评估表明，该方法实现了稳健、可扩展且稳定的训练效果，相较于基础模型提升了17%，较SFT模型也有15%的增益。这些成果凸显了精心设计的奖励机制在提升LLMs工具使用能力及泛化性能中的关键作用。所有代码均已公开，以促进未来研究。

FlowReasoner：强化查询级元代理
FlowReasoner: Reinforcing Query-Level Meta-Agents

Apr 21

ByHongcheng Gao, Yue Liu, Yufei He, Longxu Dou, Chao Du, Zhijie Deng, Bryan Hooi, Min Lin, Tianyu Pang

本文提出了一种名为FlowReasoner的查询级元代理，旨在自动化设计查询级多代理系统，即每个用户查询对应一个系统。我们的核心思想是通过外部执行反馈激励基于推理的元代理。具体而言，通过提炼DeepSeek R1，我们首先赋予FlowReasoner生成多代理系统的基本推理能力。随后，我们借助外部执行反馈，通过强化学习（RL）进一步强化其能力。设计了一种多用途奖励机制，从性能、复杂性和效率三个维度指导RL训练。通过这种方式，FlowReasoner能够通过深思熟虑的推理，为每个用户查询生成个性化的多代理系统。在工程和竞赛代码基准测试上的实验验证了FlowReasoner的优越性。值得注意的是，在三个基准测试中，其准确率较o1-mini高出10.52%。代码已发布于https://github.com/sail-sg/FlowReasoner。

OTC：通过强化学习实现最优工具调用
OTC: Optimal Tool Calls via Reinforcement Learning

Apr 21

ByHongru Wang, Cheng Qian, Wanjun Zhong, Xiusi Chen, Jiahao Qiu, Shijue Huang, Bowen Jin, Mengdi Wang, Kam-Fai Wong, Heng Ji

工具集成推理（TIR）增强了大型语言模型（LLMs）调用外部工具的能力，如搜索引擎和代码解释器，以解决仅凭语言推理无法完成的任务。尽管强化学习（RL）在通过优化最终答案正确性来改进TIR方面显示出潜力，但现有方法往往忽视了工具使用的效率和成本。这可能导致次优行为，包括过多的工具调用增加计算和财务开销，或工具使用不足影响答案质量。在本研究中，我们提出了最优工具调用控制策略优化（OTC-PO），这是一个简单而有效的基于RL的框架，鼓励模型以最少的工具调用生成准确答案。我们的方法引入了一种工具集成奖励，同时考虑正确性和工具效率，促进工具的高效使用。我们将这一框架实例化于近端策略优化（PPO）和群体相对偏好优化（GRPO）中，分别形成了OTC-PPO和OTC-GRPO。在多个QA基准测试中，使用Qwen-2.5和Qwen-Math进行的实验表明，我们的方法最多减少了73.1%的工具调用，并将工具效率提高了最多229.4%，同时保持了相当的答案准确性。据我们所知，这是首个在TIR中明确优化工具使用效率的基于RL的框架。

X-团队协作：基于自适应多智能体的多轮越狱攻击与防御
X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents

Apr 15

BySalman Rahman, Liwei Jiang, James Shiffer, Genglin Liu, Sheriff Issaka, Md Rizwan Parvez, Hamid Palangi, Kai-Wei Chang, Yejin Choi, Saadia Gabriel

与语言模型（LMs）的多轮交互带来了关键的安全风险，因为有害意图可能策略性地分散在对话中。然而，绝大多数先前的研究集中于单轮安全性，而适应性和多样性仍是多轮红队测试面临的主要挑战。为应对这些挑战，我们提出了X-Teaming，一个可扩展的框架，系统性地探索看似无害的交互如何升级为有害结果，并生成相应的攻击场景。X-Teaming采用协作代理进行规划、攻击优化和验证，在多轮越狱的有效性和多样性上达到了业界领先水平，在代表性的领先开源和闭源模型上成功率高达98.1%。特别是，X-Teaming对最新的Claude 3.7 Sonnet模型实现了96.2%的攻击成功率，该模型曾被认为几乎免疫于单轮攻击。基于X-Teaming，我们推出了XGuard-Train，一个开源的多轮安全训练数据集，其规模是之前最佳资源的20倍，包含3万次交互式越狱，旨在为LMs实现稳健的多轮安全对齐。我们的工作为缓解复杂的对话攻击提供了必要的工具和洞见，推动了LMs在多轮安全性上的进步。

UFO2：桌面代理操作系统
UFO2: The Desktop AgentOS

Apr 20

ByChaoyun Zhang, He Huang, Chiming Ni, Jian Mu, Si Qin, Shilin He, Lu Wang, Fangkai Yang, Pu Zhao, Chao Du, Liqun Li, Yu Kang, Zhao Jiang, Suzhen Zheng, Rujia Wang, Jiaxu Qian, Minghua Ma, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang

近期，依托于多模态大语言模型（LLMs）的计算机使用代理（CUAs）为通过自然语言自动化复杂桌面工作流开辟了前景广阔的方向。然而，现有的大多数CUAs仍停留在概念原型阶段，受限于浅层次的操作系统集成、基于截图的脆弱交互方式以及执行过程中的干扰问题。我们推出了UFO2，一款面向Windows桌面的多代理操作系统，它将CUAs提升至实用、系统级的自动化水平。UFO2的核心在于一个集中式的HostAgent，负责任务分解与协调，同时配备了一系列专为应用程序设计的AppAgent，这些AppAgent集成了原生API、领域特定知识以及统一的GUI-API操作层。这一架构在确保任务执行稳健性的同时，保持了模块化与可扩展性。通过融合Windows UI自动化（UIA）与基于视觉的解析技术，UFO2构建了一个混合控制检测管道，以支持多样化的界面风格。此外，通过推测性多动作规划，进一步提升了运行时效率，减少了每一步骤中LLM的开销。最后，画中画（PiP）界面使得自动化操作能在隔离的虚拟桌面内进行，实现了代理与用户的无干扰并行操作。我们在超过20款实际Windows应用中对UFO2进行了评估，结果显示其在鲁棒性和执行准确性上相较于先前的CUAs有显著提升。研究结果表明，深度的操作系统集成为实现可靠、用户导向的桌面自动化提供了一条可扩展的路径。

SphereDiff：基于球面潜在表示的无调优全向全景图像与视频生成
SphereDiff: Tuning-free Omnidirectional Panoramic Image and Video Generation via Spherical Latent Representation

Apr 19

ByMinho Park, Taewoong Kang, Jooyeol Yun, Sungwon Hwang, Jaegul Choo

随着AR/VR应用需求的日益增长，对高质量360度全景内容的需求也愈发凸显。然而，由于等距柱状投影（ERP）引入的严重失真，生成高质量的360度全景图像和视频仍是一项具有挑战性的任务。现有方法要么在有限的ERP数据集上微调预训练的扩散模型，要么尝试无需调优的方法，但这些方法仍依赖于ERP潜在表示，导致在极点附近出现不连续现象。本文提出了一种名为SphereDiff的新方法，它利用最先进的扩散模型，无需额外调优即可实现无缝的360度全景图像和视频生成。我们定义了一种球面潜在表示，确保所有视角上的均匀分布，从而缓解ERP固有的失真问题。我们将多扩散方法扩展至球面潜在空间，并提出了一种球面潜在采样方法，使得预训练扩散模型能够直接使用。此外，我们还引入了失真感知加权平均技术，以进一步提升投影过程中的生成质量。我们的方法在生成360度全景内容方面优于现有方法，同时保持了高保真度，为沉浸式AR/VR应用提供了一个稳健的解决方案。代码已公开，详见：https://github.com/pmh9960/SphereDiff。

THOUGHTTERMINATOR：推理模型中的过度思考问题——基准测试、校准与缓解策略
THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models

Apr 17

ByXiao Pu, Michael Saxon, Wenyue Hua, William Yang Wang

推理模型在传统语言模型难以应对的复杂任务上展现了卓越性能。然而，许多模型饱受“过度思考”之困——生成大量不必要的标记，却未能提升问题解答的准确性。我们引入了问题难度近似度量方法，揭示了问题难度与最优标记消耗量之间存在明确关联，并评估了多种推理模型在高效分配最优标记数量方面的校准程度。研究发现，总体而言，推理模型校准不佳，尤其在简单问题上表现尤为明显。为评估模型在简单问题上的校准情况，我们提出了DUMB500数据集，包含极其基础的数学、推理、代码及任务问题，并同步评估推理模型在这些简单示例与现有前沿基准中同一任务领域内极难示例上的表现。最后，我们介绍了THOUGHTTERMINATOR，一种无需训练的黑箱解码技术，显著提升了推理模型的校准效果。

EasyEdit2：一个易于使用的大型语言模型编辑导向框架
EasyEdit2: An Easy-to-use Steering Framework for Editing Large Language Models

Apr 21

ByZiwen Xu, Shuxun Wang, Kewei Xu, Haoming Xu, Mengru Wang, Xinle Deng, Yunzhi Yao, Guozhou Zheng, Huajun Chen, Ningyu Zhang

本文介绍了EasyEdit2框架，旨在实现大语言模型（LLM）行为的即插即用式调控。EasyEdit2支持多种实时干预功能，涵盖安全性、情感倾向、个性特征、推理模式、事实准确性及语言特性等方面。与前一版本不同，EasyEdit2采用了全新架构，专为无缝模型引导而设计，其核心模块包括引导向量生成器与应用器，能够在不改变模型参数的前提下，自动生成并应用引导向量以影响模型行为。EasyEdit2的一大优势在于其易用性——用户无需深厚技术背景，仅凭单一示例即可有效引导和调整模型响应，使得精准控制既便捷又高效。我们通过实验报告了不同LLM上的模型引导性能，验证了这些技术的有效性。相关源代码已发布于GitHub（https://github.com/zjunlp/EasyEdit），并附有演示笔记本。此外，我们还提供了快速入门视频（https://zjunlp.github.io/project/EasyEdit2/video）以供参考。

从另一视角审视：评估多模态大语言模型中的多视图理解能力
Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs

Apr 21

ByChun-Hsiao Yeh, Chenyu Wang, Shengbang Tong, Ta-Ying Cheng, Rouyu Wang, Tianzhe Chu, Yuexiang Zhai, Yubei Chen, Shenghua Gao, Yi Ma

多视角理解，即通过整合不同视角下的视觉信息以实现有效导航、操作及三维场景理解的能力，是作为具身代理的多模态大语言模型（MLLMs）面临的一项基础性挑战。尽管近期的MLLMs在高层推理与规划方面展现了显著进步，但在处理多视角几何一致性与跨视角对应关系时仍显不足。为全面评估MLLMs在多视角场景推理中的挑战，我们提出了“全方位基准”（All-Angles Bench），该基准包含90个多样化真实场景中超过2,100条人工精心标注的多视角问答对。我们的六项任务（计数、属性识别、相对距离、相对方向、物体操作及相机姿态估计）专门测试模型的几何对应能力及跨视角信息一致对齐的能力。通过对包括Gemini-2.0-Flash、Claude-3.7-Sonnet和GPT-4o在内的27个代表性MLLMs与人类评估者进行广泛实验，我们发现存在显著的性能差距，表明当前MLLMs远未达到人类水平。深入分析显示，MLLMs在以下两方面表现尤为欠佳：（1）部分遮挡视图下的跨视角对应关系；（2）粗略相机姿态的建立。这些发现强调了嵌入更强多视角意识的领域特定优化或模块的必要性。我们相信，“全方位基准”为缩小MLLMs与人类多视角理解之间的差距提供了宝贵见解，并作出了贡献。项目与基准已公开于https://danielchyeh.github.io/All-Angles-Bench/。

StyleMe3D：基于多编码器与解耦先验的三维高斯风格化
StyleMe3D: Stylization with Disentangled Priors by Multiple Encoders on 3D Gaussians

Apr 21

ByCailin Zhuang, Yaoqi Hu, Xuanyang Zhang, Wei Cheng, Jiacheng Bao, Shengqi Liu, Yiying Yang, Xianfang Zeng, Gang Yu, Ming Li

3D高斯泼溅（3DGS）在逼真场景重建方面表现出色，但在处理风格化场景（如卡通、游戏）时却面临纹理碎片化、语义错位及对抽象美学适应力有限等挑战。为此，我们提出了StyleMe3D，一个全面的3D高斯泼溅风格迁移框架，它融合了多模态风格条件、多层次语义对齐及感知质量增强。我们的核心洞见包括：（1）仅优化RGB属性可在风格化过程中保持几何完整性；（2）分离低、中、高层次的语义对于连贯的风格迁移至关重要；（3）在孤立物体与复杂场景间的可扩展性是实际部署的关键。StyleMe3D引入了四项创新组件：动态风格分数蒸馏（DSSD），利用稳定扩散的潜在空间实现语义对齐；对比风格描述符（CSD），用于局部化、内容感知的纹理迁移；同步优化尺度（SOS），以解耦风格细节与结构一致性；以及3D高斯质量评估（3DG-QA），一种基于人类评分数据训练的可微分美学先验，用于抑制伪影并增强视觉和谐。在NeRF合成数据集（物体）和tandt db（场景）数据集上的评估表明，StyleMe3D在保留几何细节（如雕塑上的雕刻）和确保场景间风格一致性（如风景中的连贯光照）方面超越了现有最先进方法，同时保持了实时渲染能力。此工作架起了逼真3D高斯泼溅与艺术风格化之间的桥梁，为游戏、虚拟世界及数字艺术等领域开辟了新的应用前景。

Uni3C：统一精确的3D增强相机与人体运动控制以实现视频生成
Uni3C: Unifying Precisely 3D-Enhanced Camera and Human Motion Controls for Video Generation

Apr 21

ByChenjie Cao, Jingkai Zhou, Shikai Li, Jingyun Liang, Chaohui Yu, Fan Wang, Xiangyang Xue, Yanwei Fu

相机与人体运动控制在视频生成领域已得到广泛研究，但现有方法通常分别处理这两者，面临高质量标注数据有限的挑战。为此，我们提出了Uni3C，一个统一的三维增强框架，旨在视频生成中精确控制相机与人体运动。Uni3C包含两大核心贡献。首先，我们设计了一个即插即用的控制模块PCDController，它基于冻结的视频生成主干网络进行训练，利用单目深度反投影得到的点云实现精准的相机控制。通过结合点云的强大三维先验知识与视频基础模型的卓越能力，PCDController展现了出色的泛化性能，无论推理主干网络是冻结还是微调，均能表现优异。这种灵活性使得Uni3C的不同模块能够在特定领域（即相机控制或人体运动控制）独立训练，降低了对联合标注数据的依赖。其次，我们提出了一种联合对齐的三维世界引导机制，在推理阶段无缝整合场景点云与SMPL-X角色模型，分别统一相机与人体运动的控制信号。大量实验证实，PCDController在驱动视频生成微调主干网络的相机运动方面表现出极强的鲁棒性。Uni3C在相机可控性与人体运动质量上均显著超越竞争对手。此外，我们还收集了包含挑战性相机移动与人体动作的定制验证集，以验证我们方法的有效性。

LeetCodeDataset：一个用于代码大语言模型稳健评估与高效训练的时序数据集
LeetCodeDataset: A Temporal Dataset for Robust Evaluation and Efficient Training of Code LLMs

Apr 20

ByYunhui Xia, Wei Shen, Yan Wang, Jason Klein Liu, Huifeng Sun, Siyue Wu, Jian Hu, Xiaolong Xu

我们推出LeetCodeDataset，这是一个用于评估和训练代码生成模型的高质量基准，解决了LLM研究中的两大关键挑战：缺乏以推理为核心的编码基准和自包含的训练测试平台。通过精心整理LeetCode的Python题目，配备丰富的元数据、广泛的覆盖范围、每道题目超过100个测试用例以及时间分割（2024年7月前后），我们的数据集实现了无污染评估和高效的监督微调（SFT）。实验表明，推理模型显著优于非推理模型，而仅使用2.6K个模型生成解决方案进行SFT，即可达到与11万样本相当的性能。该数据集及评估框架已在Hugging Face和Github上公开。

InfiGUI-R1：推动多模态GUI代理从反应型执行者向深思型推理者演进
InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners

Apr 19

ByYuhang Liu, Pengxiang Li, Congkai Xie, Xavier Hu, Xiaotian Han, Shengyu Zhang, Hongxia Yang, Fei Wu

多模态大语言模型（MLLMs）已赋能图形用户界面（GUI）代理，在自动化计算设备任务方面展现出潜力。近期研究开始探索GUI任务中的推理，并取得了鼓舞人心的成果。然而，当前许多方法依赖于手动设计的推理模板，这可能导致推理在复杂GUI环境中不够稳健和自适应。同时，一些现有代理仍作为反应型执行者运作，主要依赖隐含推理，可能缺乏对需要规划与错误恢复的GUI任务所需的深度推理。我们主张，推动这些代理进步需要从反应型执行转向基于深思熟虑的推理执行。为促成这一转变，我们推出了InfiGUI-R1，一款基于MLLM的GUI代理，通过我们的Actor2Reasoner框架开发，这是一个以推理为核心、分两阶段训练的方法，旨在逐步将代理从反应型执行者进化为深思熟虑的推理者。第一阶段，推理注入，专注于建立基础推理器。我们采用空间推理蒸馏，通过包含明确推理步骤的轨迹，将跨模态空间推理能力从教师模型迁移至MLLMs，使模型在生成行动前能整合GUI视觉空间信息与逻辑推理。第二阶段，深思熟虑增强，利用强化学习将基础推理器精炼为深思熟虑型。此阶段引入两种方法：子目标引导，奖励模型生成准确的中间子目标；以及错误恢复场景构建，从易出错步骤中创建失败与恢复的训练场景。实验结果显示，InfiGUI-R1在GUI定位与轨迹任务中表现出色。资源详见https://github.com/Reallm-Labs/InfiGUI-R1。

LearnAct：基于统一演示基准的少样本移动GUI智能体
LearnAct: Few-Shot Mobile GUI Agent with a Unified Demonstration Benchmark

Apr 18

ByGuangyi Liu, Pengxiang Zhao, Liang Liu, Zhiming Chen, Yuxiang Chai, Shuai Ren, Hao Wang, Shibo He, Wenchao Meng

移动GUI代理在自动化任务方面展现出潜力，但在多样化的现实场景中面临泛化挑战。传统方法依赖大规模数据集进行预训练或微调，难以应对移动应用程序和用户特定任务的多样性。我们提出通过人类演示来增强移动GUI代理的能力，重点提升其在未见场景中的表现，而非追求通过更大数据集实现普遍泛化。为实现这一范式，我们引入了LearnGUI，这是首个专门为研究基于演示学习的移动GUI代理而设计的综合数据集，包含2,252个离线任务和101个在线任务，均配有高质量的人类演示。我们进一步开发了LearnAct，一个复杂的多代理框架，能够自动从演示中提取知识以提升任务完成度。该框架集成了三个专门代理：DemoParser用于知识提取，KnowSeeker用于相关知识检索，ActExecutor用于基于演示的任务执行。实验结果表明，在离线和在线评估中均取得了显著的性能提升。在离线评估中，单次演示使模型性能提升，将Gemini-1.5-Pro的准确率从19.3%提高至51.7%。在线评估中，我们的框架将UI-TARS-7B-SFT的任务成功率从18.1%提升至32.8%。LearnAct框架和LearnGUI基准确立了基于演示的学习作为实现更适应性强、个性化且可部署的移动GUI代理的有前景方向。

DRAGON：分布奖励优化扩散生成模型
DRAGON: Distributional Rewards Optimize Diffusion Generative Models

Apr 21

ByYatong Bai, Jonah Casebeer, Somayeh Sojoudi, Nicholas J. Bryan

我们提出了分布奖励生成优化框架（DRAGON），这是一个用于微调媒体生成模型以实现预期目标的通用框架。与传统的基于人类反馈的强化学习（RLHF）或直接偏好优化（DPO）等成对偏好方法相比，DRAGON更具灵活性。它能够优化评估单个样本或样本分布的函数，使其兼容广泛的实例级、实例到分布及分布到分布的奖励机制。利用这一多功能性，我们通过选择编码器和一组参考样本来构建新颖的奖励函数，从而创建示例分布。当使用如CLAP这样的跨模态编码器时，参考样本可以来自不同模态（例如，文本与音频）。随后，DRAGON收集在线和策略生成的结果，对其进行评分以构建正例示范集和负例集，并利用两者间的对比来最大化奖励。为评估效果，我们使用20种不同的奖励函数微调了一个音频领域的文本到音乐扩散模型，其中包括定制的音乐美学模型、CLAP评分、Vendi多样性及Frechet音频距离（FAD）。我们进一步比较了实例级（每首歌曲）和全数据集FAD设置，同时消融了多种FAD编码器和参考集。在所有20个目标奖励上，DRAGON实现了81.45%的平均胜率。此外，基于示例集的奖励函数确实提升了生成质量，与基于模型的奖励相当。在合适的示例集下，DRAGON在没有人类偏好标注训练的情况下，获得了60.95%的人类投票音乐质量胜率。因此，DRAGON展示了一种设计和优化奖励函数以提升人类感知质量的新方法。声音示例请访问https://ml-dragon.github.io/web。

NEMOTRON-CROSSTHINK：将自我学习能力扩展至数学推理之外
NEMOTRON-CROSSTHINK: Scaling Self-Learning beyond Math Reasoning

Apr 15

BySyeda Nahida Akter, Shrimai Prabhumoye, Matvei Novikov, Seungju Han, Ying Lin, Evelina Bakhturi, Eric Nyberg, Yejin Choi, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro

大型语言模型（LLMs）已展现出强大的推理能力，尤其是在通过强化学习（RL）增强之后。尽管先前的研究已成功将RL应用于数学推理——其中规则与正确性定义明确——但将这些方法推广至更广泛的推理领域仍面临挑战，原因包括数据有限、缺乏可验证的奖励结构以及多样化的任务需求。在本研究中，我们提出了NEMOTRON-CROSSTHINK框架，该框架系统地将多领域语料库，包括合成与现实世界中的问答对，融入RL训练中，以提升跨多样推理任务的泛化能力。NEMOTRON-CROSSTHINK通过以下方式应对关键挑战：(1)整合来自STEM、人文、社会科学等不同领域的数据；(2)应用结构化模板（如多项选择与开放式问题）以控制答案空间的复杂性；(3)筛选可验证的答案；(4)优化数据混合策略，有效利用多源数据。我们的方法实现了超越数学的可扩展且可验证的奖励建模，并在数学（MATH-500：+30.1%，AMC23：+27.5%）与非数学推理基准测试（MMLU-PRO：+12.8%，GPQA-DIAMOND：+11.3%，AGIEVAL：+15.1%，SUPERGPQA：+3.8%）上均展示了准确率的提升。此外，NEMOTRON-CROSSTHINK显著提高了响应效率——正确回答所用令牌数减少28%——体现了更为集中且高效的推理。通过NEMOTRON-CROSSTHINK，我们证明了在RL中整合多领域、多格式数据能够打造出更准确、高效且泛化能力更强的LLMs。

一种通过视频立方体强化压缩实现高效视频理解的语言多模态模型
An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes

Apr 21

ByJi Qi, Yuan Yao, Yushi Bai, Bin Xu, Juanzi Li, Zhiyuan Liu, Tat-Seng Chua

大型多模态模型（LMMs）在处理视频帧时采用统一感知方式，导致对具有内在变化时间信息密度的视频产生计算效率低下的问题。本文提出Quicksviewer，一种采用新感知范式的LMM，它利用Gumbel Softmax将非均匀密度的视频分割成不同立方体，随后对每个立方体进行统一重采样，以实现高效的视频理解。这一简单直观的方法根据视频的时间密度动态在线压缩，显著减少了时空冗余（整体压缩率达到45倍），同时支持大感受野的高效训练。我们通过三个阶段从语言主干逐步训练模型，得益于感知效率，每个阶段平均处理长达420秒/1fps的视频。仅使用总计0.8M的视频-文本样本进行训练，我们的模型在准确性上比采用固定分割策略的直接基线最高提升了8.72，证明了其性能的有效性。在Video-MME基准测试中，Quicksviewer在适度序列长度下仅需基线每帧所需token的5%即达到SOTA。采用此范式，增加输入帧数揭示了模型能力的明确幂律关系。经验证，立方体网络生成的片段有助于分析视频中的连续事件。

RF-DETR目标检测与YOLOv12对比研究：基于Transformer与CNN架构在复杂果园环境下针对单类及多类青果检测的标签模糊性分析
RF-DETR Object Detection vs YOLOv12 : A Study of Transformer-based and CNN-based Architectures for Single-Class and Multi-Class Greenfruit Detection in Complex Orchard Environments Under Label Ambiguity

Apr 17

ByRanjan Sapkota, Rahul Harsha Cheppally, Ajay Sharda, Manoj Karkee

本研究对RF-DETR目标检测基础模型与YOLOv12目标检测模型在复杂果园环境下的绿果检测性能进行了详细对比，该环境以标签模糊、遮挡及背景融合为特征。为此，开发了一个包含单类别（绿果）和多类别（遮挡与非遮挡绿果）标注的自定义数据集，以评估模型在动态现实条件下的表现。RF-DETR模型采用DINOv2骨干网络及可变形注意力机制，在全局上下文建模方面表现卓越，能有效识别部分遮挡或模糊的绿果。相比之下，YOLOv12利用基于CNN的注意力机制强化局部特征提取，优化了计算效率，更适合边缘部署。在单类别检测中，RF-DETR以0.9464的平均精度（mAP50）位居榜首，证明了其在杂乱场景中定位绿果的卓越能力。尽管YOLOv12N在mAP@50:95上以0.7620领先，RF-DETR在复杂空间场景中持续表现更优。多类别检测方面，RF-DETR以mAP@50为0.8298领先，展现了其区分遮挡与非遮挡果实的能力，而YOLOv12L在mAP@50:95上以0.6622最高，表明其在详细遮挡情境下的分类优势。训练动态分析显示，RF-DETR收敛迅速，特别是在单类别设置下，仅需10个epoch即达到稳定，展示了基于Transformer架构在适应动态视觉数据上的高效性。这些发现验证了RF-DETR在精准农业应用中的有效性，而YOLOv12则适用于快速响应场景。关键词：RF-DETR目标检测，YOLOv12，YOLOv13，YOLOv14，YOLOv15，YOLOE，YOLO World，YOLO，You Only Look Once，Roboflow，检测Transformer，卷积神经网络（CNNs）

TAPIP3D：持久三维几何中的任意点追踪
TAPIP3D: Tracking Any Point in Persistent 3D Geometry

Apr 20

ByBowei Zhang, Lei Ke, Adam W. Harley, Katerina Fragkiadaki

我们提出了一种名为TAPIP3D的创新方法，用于单目RGB和RGB-D视频中的长期3D点跟踪。TAPIP3D将视频表示为相机稳定的时空特征云，利用深度和相机运动信息将2D视频特征提升到3D世界空间中，从而有效消除相机运动的影响。在这一稳定表示中，TAPIP3D迭代优化多帧3D运动估计，实现了长时间内的鲁棒跟踪。为了应对3D点分布固有的不规则性，我们提出了一种局部对注意力机制。这一3D上下文策略有效利用了3D空间关系，构建了信息丰富的特征邻域，以实现精确的3D轨迹估计。我们的以3D为中心的方法显著超越了现有的3D点跟踪技术，甚至在精确深度信息可用时，相比传统的2D像素跟踪器，还提升了2D跟踪的准确性。该方法支持在相机坐标系（即未稳定）和世界坐标系中进行推理，我们的结果表明，补偿相机运动能提升跟踪性能。我们的方法取代了先前2D和3D跟踪器中使用的传统2D方形相关邻域，从而在各种3D点跟踪基准测试中取得了更为鲁棒和准确的结果。项目页面：https://tapip3d.github.io

LookingGlass：基于拉普拉斯金字塔形变生成的错视艺术
LookingGlass: Generative Anamorphoses via Laplacian Pyramid Warping

Apr 11

ByPascal Chang, Sergio Sancho, Jingwei Tang, Markus Gross, Vinicius C. Azevedo

变形图像（Anamorphosis）是指一类经过刻意扭曲处理的图像，直接观看时难以辨认其真实形态。只有当通过特定视角，如借助反射镜或透镜等折反射装置观察时，其原本面貌才得以显现。尽管这类数学装置的构建可追溯至17世纪，但它们仅在特定观察点下可被解读，常规视角下则往往失去意义。本文以生成式视角重新审视这些著名的视觉错觉现象。借助潜在校正流模型，我们提出了一种方法，能够创建即便直接观看仍保持有效解读的变形图像。为此，我们引入了拉普拉斯金字塔变形技术，这是一种频率感知的图像变形方法，对生成高质量视觉效果至关重要。我们的工作将视觉字谜（Visual Anagrams，arXiv:2311.17919）扩展至潜在空间模型及更广泛的空间变换，从而开创了新型生成式感知错觉的创作可能。

LoftUp：面向视觉基础模型的坐标特征上采样器学习
LoftUp: Learning a Coordinate-Based Feature Upsampler for Vision Foundation Models

Apr 18

ByHaiwen Huang, Anpei Chen, Volodymyr Havrylov, Andreas Geiger, Dan Zhang

诸如DINOv2和CLIP等视觉基础模型（VFMs）在多种下游任务中取得了显著成果，但其有限的特征分辨率限制了在需要像素级理解的应用中的表现。特征上采样为解决这一挑战提供了一个有前景的方向。在本研究中，我们识别出增强特征上采样的两个关键因素：上采样器架构与训练目标。针对上采样器架构，我们引入了一种基于坐标的交叉注意力Transformer，它将高分辨率图像与坐标及低分辨率VFM特征相结合，以生成清晰、高质量的特征。在训练目标方面，我们提出通过利用类别无关掩码和自蒸馏技术构建高分辨率伪真值特征。我们的方法有效捕捉了细粒度细节，并能灵活适应多种输入和特征分辨率。通过实验，我们证明了该方法在各类下游任务中显著优于现有的特征上采样技术。我们的代码已发布于https://github.com/andrehuang/loftup。

RainbowPlus：通过进化式质量多样性搜索增强对抗性提示生成
RainbowPlus: Enhancing Adversarial Prompt Generation via Evolutionary Quality-Diversity Search

Apr 21

ByQuy-Anh Dang, Chris Ngo, Truong-Son Hy

大型语言模型（LLMs）展现出卓越的能力，但也容易受到对抗性提示的攻击，这些提示利用模型漏洞产生不安全或带有偏见的输出。现有的红队方法常面临可扩展性挑战、资源需求高或攻击策略多样性有限的问题。我们提出了RainbowPlus，一种基于进化计算的新型红队框架，通过自适应质量多样性（QD）搜索增强对抗性提示生成，该搜索扩展了如MAP-Elites等经典进化算法，并针对语言模型进行了创新。通过采用多元素档案存储多样化的高质量提示，以及一个全面的适应度函数同时评估多个提示，RainbowPlus克服了先前QD方法（如Rainbow Teaming）中单一提示档案和成对比较的限制。在六个基准数据集和四个开源LLM上，RainbowPlus与QD方法的对比实验显示出更高的攻击成功率（ASR）和多样性（Diverse-Score约0.84），生成的独特提示数量最多可达100倍（例如，Ministral-8B-Instruct-2410模型下，10,418个对比100个）。在HarmBench数据集上，针对十二个LLM（十个开源，两个闭源）与九种最先进方法的较量中，RainbowPlus实现了81.1%的平均ASR，超越AutoDAN-Turbo 3.9%，且速度快了9倍（1.45小时对比13.50小时）。我们的开源实现促进了LLM安全性的进一步进步，提供了一个可扩展的漏洞评估工具。代码和资源公开于https://github.com/knoveleng/rainbowplus，支持LLM红队研究的可重复性和未来探索。

掷骰子前先看清：突破下一词预测的创作局限
Roll the dice & look before you leap: Going beyond the creative limits of next-token prediction

Apr 21

ByVaishnavh Nagarajan, Chen Henry Wu, Charles Ding, Aditi Raghunathan

我们设计了一套最小化的算法任务，这些任务是对开放式现实世界任务的松散抽象。这使得我们能够清晰且可控地量化当前语言模型的创造性极限。与需要创造性、远见性思维跃迁的现实世界任务类似，我们的任务要求一个隐含的、开放式的随机规划步骤，该步骤要么（a）在抽象知识图谱中发现新的联系（如文字游戏、类比推理或研究），要么（b）构建新的模式（如设计数学问题或新蛋白质）。在这些任务中，我们从实证和概念上论证了为何仅学习下一个词是短视的，并过度依赖记忆；相比之下，多词方法，即无教师训练和扩散模型，在生成多样且原创的输出方面表现更优。其次，在我们的任务中，我们发现，要在不损害连贯性的前提下从Transformer中引出随机性，更好的方法是在输入层直接注入噪声（通过我们称之为哈希条件化的方法），而非依赖于输出层的温度采样。因此，我们的工作为分析开放式创造性技能提供了一个原则性的最小测试平台，并为超越下一个词学习和基于softmax的采样提供了新的论据。我们已将部分代码公开于https://github.com/chenwu98/algorithmic-creativity。

CoMotion：多人同步三维运动捕捉
CoMotion: Concurrent Multi-person 3D Motion

Apr 16

ByAlejandro Newell, Peiyun Hu, Lahav Lipson, Stephan R. Richter, Vladlen Koltun

我们提出了一种从单目摄像头流中检测并追踪多人精细三维姿态的方法。该系统能够在充满复杂姿态和遮挡的拥挤场景中保持时间上连贯的预测。我们的模型不仅实现了强大的逐帧检测，还通过学习的姿态更新来逐帧追踪人物。不同于跨时间匹配检测结果，姿态直接从新的输入图像中更新，从而实现了在遮挡情况下的在线追踪。我们利用大量图像和视频数据集进行训练，借助伪标注注释，打造出一个在三维姿态估计精度上媲美最先进系统的模型，同时在多人长时间追踪方面更为快速和准确。代码及权重已发布于https://github.com/apple/ml-comotion。

PROMPTEVALS：面向定制化生产大语言模型管道的断言与防护机制数据集
PROMPTEVALS: A Dataset of Assertions and Guardrails for Custom Production Large Language Model Pipelines

Apr 20

ByReya Vir, Shreya Shankar, Harrison Chase, Will Fu-Hinthorn, Aditya Parameswaran

大型语言模型（LLMs）正日益被部署于跨多个领域的专业生产数据处理流程中，如金融、营销和电子商务。然而，当在众多输入的生产环境中运行时，它们往往难以遵循指令或满足开发者的期望。为了提高这些应用中的可靠性，为LLM输出创建断言或防护栏以与流程并行运行至关重要。然而，确定能准确捕捉开发者任务需求的断言集合颇具挑战。本文中，我们介绍了PROMPTEVALS，这是一个包含2087个LLM流程提示及12623条相应断言标准的数据集，数据来源于使用我们开源LLM流程工具的开发者。该数据集规模是先前集合的5倍。利用PROMPTEVALS的保留测试集作为基准，我们评估了闭源与开源模型在生成相关断言方面的表现。值得注意的是，我们微调后的Mistral和Llama 3模型平均比GPT-4o高出20.93%，不仅降低了延迟，还提升了性能。我们相信，该数据集将推动LLM可靠性、对齐及提示工程领域的进一步研究。

SilVar-Med：一种基于语音的可视化语言模型，用于医学影像中的可解释性异常检测
SilVar-Med: A Speech-Driven Visual Language Model for Explainable Abnormality Detection in Medical Imaging

Apr 14

ByTan-Hanh Pham, Chris Ngo, Trong-Duong Bui, Minh Luu Quang, Tan-Huong Pham, Truong-Son Hy

医疗视觉语言模型在多种医疗应用中展现出巨大潜力，包括医学图像描述和诊断辅助。然而，现有模型大多依赖文本指令，这限制了其在真实临床环境中的实用性，特别是在手术等场景下，基于文本的交互对医生而言往往不切实际。此外，当前的医学图像分析模型通常缺乏对其预测背后全面推理的解释，这降低了其在临床决策中的可靠性。鉴于医疗诊断错误可能带来改变人生的后果，开发可解释且理性的医疗辅助工具显得尤为迫切。为应对这些挑战，我们推出了一种端到端的语音驱动医疗视觉语言模型——SilVar-Med，这是一种多模态医学图像助手，它将语音交互与视觉语言模型相结合，开创了基于语音的医学图像分析任务。同时，我们通过提出的推理数据集，着重于对每次医学异常预测背后的推理进行解释。通过大量实验，我们展示了结合端到端语音交互的推理驱动医学图像解释的概念验证研究。我们相信，这项工作将通过促进更加透明、互动且临床可行的诊断支持系统，推动医疗人工智能领域的发展。我们的代码和数据集已在SiVar-Med平台公开。

AI研究论文每日精选

每日精选AI研究论文及翻译

在非策略指导下的推理学习
Learning to Reason under Off-Policy Guidance

Apr 21

ByJianhao Yan, Yafu Li, Zican Hu, Zhi Wang, Ganqu Cui, Xiaoye Qu, Yu Cheng, Yue Zhang

Eagle 2.5：推动前沿视觉-语言模型的长上下文后训练优化
Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models

Apr 21

ToolRL：奖励机制即工具学习之所需
ToolRL: Reward is All Tool Learning Needs

Apr 16

ByCheng Qian, Emre Can Acikgoz, Qi He, Hongru Wang, Xiusi Chen, Dilek Hakkani-Tür, Gokhan Tur, Heng Ji

FlowReasoner：强化查询级元代理
FlowReasoner: Reinforcing Query-Level Meta-Agents

Apr 21

ByHongcheng Gao, Yue Liu, Yufei He, Longxu Dou, Chao Du, Zhijie Deng, Bryan Hooi, Min Lin, Tianyu Pang

OTC：通过强化学习实现最优工具调用
OTC: Optimal Tool Calls via Reinforcement Learning

Apr 21

ByHongru Wang, Cheng Qian, Wanjun Zhong, Xiusi Chen, Jiahao Qiu, Shijue Huang, Bowen Jin, Mengdi Wang, Kam-Fai Wong, Heng Ji

X-团队协作：基于自适应多智能体的多轮越狱攻击与防御
X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents

Apr 15

BySalman Rahman, Liwei Jiang, James Shiffer, Genglin Liu, Sheriff Issaka, Md Rizwan Parvez, Hamid Palangi, Kai-Wei Chang, Yejin Choi, Saadia Gabriel

UFO2：桌面代理操作系统
UFO2: The Desktop AgentOS

Apr 20

SphereDiff：基于球面潜在表示的无调优全向全景图像与视频生成
SphereDiff: Tuning-free Omnidirectional Panoramic Image and Video Generation via Spherical Latent Representation

Apr 19

ByMinho Park, Taewoong Kang, Jooyeol Yun, Sungwon Hwang, Jaegul Choo

THOUGHTTERMINATOR：推理模型中的过度思考问题——基准测试、校准与缓解策略
THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models

Apr 17

ByXiao Pu, Michael Saxon, Wenyue Hua, William Yang Wang

EasyEdit2：一个易于使用的大型语言模型编辑导向框架
EasyEdit2: An Easy-to-use Steering Framework for Editing Large Language Models

Apr 21

ByZiwen Xu, Shuxun Wang, Kewei Xu, Haoming Xu, Mengru Wang, Xinle Deng, Yunzhi Yao, Guozhou Zheng, Huajun Chen, Ningyu Zhang

从另一视角审视：评估多模态大语言模型中的多视图理解能力
Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs

Apr 21

ByChun-Hsiao Yeh, Chenyu Wang, Shengbang Tong, Ta-Ying Cheng, Rouyu Wang, Tianzhe Chu, Yuexiang Zhai, Yubei Chen, Shenghua Gao, Yi Ma

StyleMe3D：基于多编码器与解耦先验的三维高斯风格化
StyleMe3D: Stylization with Disentangled Priors by Multiple Encoders on 3D Gaussians

Apr 21

ByCailin Zhuang, Yaoqi Hu, Xuanyang Zhang, Wei Cheng, Jiacheng Bao, Shengqi Liu, Yiying Yang, Xianfang Zeng, Gang Yu, Ming Li

Uni3C：统一精确的3D增强相机与人体运动控制以实现视频生成
Uni3C: Unifying Precisely 3D-Enhanced Camera and Human Motion Controls for Video Generation

Apr 21

ByChenjie Cao, Jingkai Zhou, Shikai Li, Jingyun Liang, Chaohui Yu, Fan Wang, Xiangyang Xue, Yanwei Fu

LeetCodeDataset：一个用于代码大语言模型稳健评估与高效训练的时序数据集
LeetCodeDataset: A Temporal Dataset for Robust Evaluation and Efficient Training of Code LLMs

Apr 20

ByYunhui Xia, Wei Shen, Yan Wang, Jason Klein Liu, Huifeng Sun, Siyue Wu, Jian Hu, Xiaolong Xu

InfiGUI-R1：推动多模态GUI代理从反应型执行者向深思型推理者演进
InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners

Apr 19

ByYuhang Liu, Pengxiang Li, Congkai Xie, Xavier Hu, Xiaotian Han, Shengyu Zhang, Hongxia Yang, Fei Wu

RF-DETR目标检测与YOLOv12对比研究：基于Transformer与CNN架构在复杂果园环境下针对单类及多类青果检测的标签模糊性分析
RF-DETR Object Detection vs YOLOv12 : A Study of Transformer-based and CNN-based Architectures for Single-Class and Multi-Class Greenfruit Detection in Complex Orchard Environments Under Label Ambiguity

Apr 17

ByRanjan Sapkota, Rahul Harsha Cheppally, Ajay Sharda, Manoj Karkee

RainbowPlus：通过进化式质量多样性搜索增强对抗性提示生成
RainbowPlus: Enhancing Adversarial Prompt Generation via Evolutionary Quality-Diversity Search

Apr 21

ByQuy-Anh Dang, Chris Ngo, Truong-Son Hy

掷骰子前先看清：突破下一词预测的创作局限
Roll the dice & look before you leap: Going beyond the creative limits of next-token prediction

Apr 21

ByVaishnavh Nagarajan, Chen Henry Wu, Charles Ding, Aditi Raghunathan

CoMotion：多人同步三维运动捕捉
CoMotion: Concurrent Multi-person 3D Motion

Apr 16

ByAlejandro Newell, Peiyun Hu, Lahav Lipson, Stephan R. Richter, Vladlen Koltun

PROMPTEVALS：面向定制化生产大语言模型管道的断言与防护机制数据集
PROMPTEVALS: A Dataset of Assertions and Guardrails for Custom Production Large Language Model Pipelines

Apr 20

ByReya Vir, Shreya Shankar, Harrison Chase, Will Fu-Hinthorn, Aditya Parameswaran

SilVar-Med：一种基于语音的可视化语言模型，用于医学影像中的可解释性异常检测
SilVar-Med: A Speech-Driven Visual Language Model for Explainable Abnormality Detection in Medical Imaging

Apr 14

ByTan-Hanh Pham, Chris Ngo, Trong-Duong Bui, Minh Luu Quang, Tan-Huong Pham, Truong-Son Hy