每日精选AI研究论文及翻译
我们提出异构智能体协同强化学习(HACRL),这一新学习范式旨在解决孤立同策略优化的低效问题。HACRL实现了"训练协同优化,推理独立执行"的机制:异构智能体在训练阶段共享经过验证的轨迹数据以相互提升,而在推理时保持独立运行。与基于大语言模型的多智能体强化学习(MARL)不同,HACRL无需协同部署;与同策略/异策略蒸馏技术相比,它实现了异构智能体间的双向相互学习,而非单向的师生式知识迁移。基于此范式,我们提出HACPO算法,通过理论指导的轨迹共享机制最大化样本利用率和跨智能体知识迁移。为缓解能力差异与策略分布偏移,HACPO引入四项定制化机制,并在无偏优势估计与优化正确性方面提供理论保证。在多样化异构模型组合与推理基准测试中,HACPO持续提升所有参与智能体的性能,平均以仅一半的轨迹成本超越GSPO算法3.3%的表现。
我们推出Helios——首个140亿参数视频生成模型,在单张NVIDIA H100 GPU上可实现19.5 FPS的实时生成,支持分钟级长视频生成,同时保持与强基线模型相当的生成质量。我们在三个关键维度实现突破:(1) 无需自强制、误差累积库或关键帧采样等常用防漂移策略,即可实现长视频生成的稳定性;(2) 无需KV缓存、稀疏/线性注意力或量化等标准加速技术,即可达成实时生成;(3) 无需并行或分片训练框架,在80GB GPU内存内可同时容纳四个140亿参数模型,并实现图像扩散模型级别的批处理规模。具体而言,Helios采用具有统一输入表示的140亿参数自回归扩散架构,原生支持文生视频、图生视频和视频生视频任务。针对长视频生成中的漂移问题,我们系统分析了典型失效模式,提出通过显式模拟训练过程中的漂移现象来设计简单高效的训练策略,从根源上消除重复性运动。在效率方面,我们大幅压缩历史信息与噪声上下文,减少采样步数,使计算成本与13亿参数视频生成模型相当甚至更低。此外,我们引入基础设施层优化,在降低内存占用的同时加速推理与训练过程。大量实验表明,Helios在短视频生成长视频生成任务上均持续超越现有方法。我们将开源代码、基础模型与蒸馏模型,以支持社区后续发展。
思考人类如何处理复杂阅读任务:标记关键点、推断其关联性、构建信息结构以引导理解与回应。同样地,大型语言模型能否通过利用文本结构来提升文本处理性能?为探索这一问题,本研究首先提出思维结构(SoT)提示技术,显式引导模型构建中间文本结构,在八项任务和三类模型家族中实现性能的持续提升。基于这一发现,我们推出首个专为评估和提升模型文本到结构转换能力而设计的基准测试T2S-Bench。该基准涵盖6个科学领域和32种结构类型,包含1800个经严格构建以确保准确性、公平性与质量的样本。对45个主流模型的评估揭示出巨大改进空间:多跳推理任务平均准确率仅为52.1%,即使最先进模型在端到端提取中的节点准确率也仅达58.1%。此外,在Qwen2.5-7B-Instruct模型上,仅使用SoT即可在八项多样化文本处理任务中实现平均5.7%的性能提升,而结合T2S-Bench微调后提升幅度进一步增至8.6%。这些结果凸显了显式文本结构化的价值,以及SoT与T2S-Bench的互补性贡献。数据集与评估代码已发布于https://t2s-bench.github.io/T2S-Bench-Page/。
主动式实时交互体验是拟人化AI伴侣的关键,但面临三大挑战:(1)在持续流式输入下实现低延迟推理;(2)自主决策响应时机;(3)在实时约束下同时控制生成内容的质量与数量。本研究通过解说员与向导两种游戏场景实例化AI伴侣,这两种场景因其适合自动评估而被选用。我们提出Live Gaming Benchmark——一个包含单人解说、双人解说和用户引导三大典型场景的大规模数据集,并推出Proact-VL通用框架,将多模态大语言模型塑造为具备类人环境感知与交互能力的主动式实时交互智能体。大量实验表明,Proact-VL在保持强大视频理解能力的同时,实现了卓越的响应延迟与质量,证明了其在实时交互应用中的实用性。
随着大型语言模型(LLM)日益广泛地应用于长周期任务,维持有效的长期记忆已成为关键挑战。现有方法往往面临成本与准确性之间的权衡:简易存储方案常难以检索相关信息,而复杂索引方法(如记忆图谱)需大量计算且易导致信息丢失。此外,依赖工作LLM处理全部记忆会带来高昂计算开销和延迟。为突破这些局限,我们提出MemSifter框架,将记忆检索过程卸载至轻量化代理模型。该框架不再增加主工作LLM的负担,而是通过小型模型先对任务进行推理再检索必要信息。该方法在索引阶段无需繁重计算,推理时仅增加极小开销。为优化代理模型,我们引入面向记忆的强化学习训练范式:基于工作LLM实际完成任务的表现设计任务结果导向的奖励机制,通过多次交互量化被检索记忆的实际贡献度,并依据贡献度阶梯式递减区分检索排名。同时采用课程学习与模型融合等训练技术提升性能。我们在八个LLM记忆基准(含深度研究任务)上评估MemSifter,结果表明该方法在检索准确率和最终任务完成度上均达到或超越现有最优方案。MemSifter为长期LLM记忆提供了高效可扩展的解决方案。我们已开源模型权重、代码及训练数据以支持后续研究。
在没有3D/4D监督的情况下合成物理合理的铰接式人物-物体交互(HOI)仍是一个基础性挑战。虽然现有零样本方法利用视频扩散模型合成人物-物体交互,但这些方法大多局限于刚性物体操作,且缺乏显式的4D几何推理。为弥补这一差距,我们将铰接式HOI合成构建为基于单目视频先验的4D重建问题:仅给定扩散模型生成的视频,无需任何3D监督即可重建完整的4D铰接场景。这种基于重建的方法将生成的2D视频视为逆向渲染问题的监督信号,恢复出几何一致、物理合理的4D场景,自然满足接触关系、铰接结构和时间连贯性。我们提出ArtHOI——首个通过视频先验进行4D重建的零样本铰接式人物-物体交互合成框架。其核心设计包括:1)基于光流的部件分割:利用光流作为几何线索,在单目视频中分离动态与静态区域;2)解耦重建流程:在单目视觉歧义下,人物运动与物体铰接的联合优化不稳定,因此我们首先重建物体铰接状态,再基于重建的物体状态合成人物运动。ArtHOI连接了基于视频的生成与几何感知重建,生成的交互既满足语义对齐又具备物理基础。在多样化铰接场景(如开关冰箱、橱柜、微波炉)中,ArtHOI在接触精度、穿透减少和铰接保真度方面显著优于现有方法,通过重建引导的合成将零样本交互合成拓展至刚性操作之外。
我们推出Phi-4-reasoning-vision-15B——一款紧凑型开放权重的多模态推理模型,并分享其研发过程中的设计动机、架构选择、实验数据与实践心得。本研究旨在为学术界提供构建更小型、高效多模态推理模型的实用洞见,同时将研究成果以开放权重形式发布。该模型在通用视觉语言任务中表现优异,并特别擅长科学数学推理与用户界面理解。我们的核心贡献在于证明:通过精心的架构设计与严格的数据筛选,小型开放权重多模态模型能以显著更少的训练/推理计算量和令牌数实现竞争力性能。最显著的性能提升源于系统化的数据过滤、错误修正与合成增强——这再次印证数据质量仍是模型性能的首要决定因素。系统性消融实验表明,高分辨率动态编码器能带来持续改进,因为精准感知是高质量推理的前提。最后,通过混合使用推理与非推理数据并辅以显式模式标记,单一模型可同时实现简单任务的快速直接应答与复杂问题的思维链推理。
针对复杂推理任务的测试时扩展研究表明,通过独立采样并聚合多个解决方案等方法利用推理阶段计算资源,能显著提升任务表现。然而验证环节成为关键瓶颈:只有当正确解能在候选方案中被可靠识别时,采样策略才有效。现有方法通常通过标量评分独立评估候选方案,但我们证明模型在成对自验证方面表现更优。基于这一发现,我们提出V_1框架——通过高效成对排序统一生成与验证过程。该框架包含两个组件:V_1-Infer采用基于锦标赛排序的不确定性引导算法,动态分配自验证计算资源至相对正确性最不确定的候选对;V_1-PairRL则构建联合训练框架,使单一模型同时担任生成器和成对自验证器,确保验证器适配生成器的动态分布。在代码生成(LiveCodeBench、CodeContests、SWE-Bench)和数学推理(AIME、HMMT)基准测试中,V_1-Infer将Pass@1指标较点式验证提升最高达10%,在显著提升效率的同时优于近期测试时扩展方法。此外,V_1-PairRL在测试时扩展方面较标准强化学习和点式联合训练提升7-9%,在代码生成场景下将基础Pass@1较标准强化学习最高提升8.7%。
从平面视角输入生成高质量360°全景视频是虚拟现实(VR)的关键应用之一,其中高分辨率视频对沉浸式体验尤为重要。现有方法受限于基础扩散模型的计算能力,仅支持≤1K分辨率的原生生成,并需依赖次优的后处理超分技术提升分辨率。我们提出CubeComposer——一种新颖的时空自回归扩散模型,能够原生生成4K分辨率的360°视频。通过将视频分解为六面立方体贴图表示,CubeComposer按照精心规划的时空顺序自回归合成内容,在降低内存需求的同时实现高分辨率输出。针对多维自回归的挑战,我们提出:(1)跨立方体面与时窗协同的时空自回归策略,确保合成连贯性;(2)配备稀疏上下文注意力设计的立方体面上下文管理机制以提升效率;(3)连续性感知技术,包括立方体感知位置编码、填充与融合算法以消除边界接缝。在基准数据集上的大量实验表明,CubeComposer在原生成分辨率和视觉质量上均优于现有最优方法,可支撑实际VR应用场景。项目页面:https://lg-li.github.io/project/cubecomposer
大型语言模型(LLM)智能体在执行长周期任务时,根本上受限于有限的上下文窗口。随着任务轨迹增长,在上下文中保留工具输出和中间推理过程很快变得不可行:工作上下文会变得过长,最终超出上下文预算,即使早期证据仍然存在,其使用难度也会增加。现有解决方案通常通过截断或运行摘要来缩短上下文,但这些方法本质上是信息有损的,因为它们会压缩或丢弃原始证据。我们提出Memex——一种索引化经验记忆机制,它能在不丢弃证据的前提下压缩上下文。Memex通过简洁的结构化摘要和稳定索引维持紧凑的工作上下文,同时将完整保真的底层交互存储于外部经验数据库中的对应索引下。智能体可随时根据当前子目标解引用索引,精确恢复所需的过往证据。我们通过强化学习框架MemexRL优化读写行为,在上下文预算约束下采用针对索引记忆的奖励塑形策略,使智能体自主学习摘要生成、归档内容、索引方式及检索时机。相较于仅依赖摘要的方法,这种记忆机制能显著降低长周期任务中的信息损耗。我们进一步通过理论分析表明,Memex循环在保持解引用操作有界的前提下,能够维持决策质量,同时确保有效上下文计算量随历史增长保持有界。实证研究表明,在复杂长周期任务中,经MemexRL训练的Memex智能体能以显著更小的工作上下文实现更高的任务成功率。
在开放世界场景下对细粒度视觉概念进行分类(即无需预定义标签集)要求模型兼具准确性与特异性。近期出现的推理型大型多模态模型展现出强大的视觉理解能力,但在执行细粒度图像分类时往往产生过于笼统的预测。我们的初步分析表明,模型本身确实具备内在的细粒度领域知识,然而如何在保持正确预测的同时提升预测特异性,仍是一个重要但研究不足的挑战。本研究探索如何引导推理型多模态模型生成既正确又具体的预测,提出了一种新颖的感知特异性强化学习框架SpeciaRL,用于在开放世界设定下对细粒度图像分类任务中的推理模型进行微调。该框架通过基于在线推演中最优预测的动态验证器奖励信号,在提升特异性的同时尊重模型能力以避免错误预测。跨领域实验表明,在大量细粒度基准测试中,SpeciaRL实现了正确性与特异性的最佳平衡,超越了现有方法,推动了开放世界细粒度图像分类的发展。代码与模型已开源:https://github.com/s-angheben/SpeciaRL。
大型视觉语言模型(LVLMs)采用视觉令牌剪枝策略以缓解大量视觉令牌序列带来的显著计算开销。尽管现有研究主要关注基于注意力或基于多样性的剪枝方法,但对其特性与局限性的深入分析仍属空白。本研究通过有效秩(erank)衡量特征多样性,结合注意力得分熵进行系统实证分析,探究视觉令牌处理机制并剖析各类方法的优缺点。我们的分析揭示了两点发现:(1)基于erank的定量分析表明,许多以多样性为导向的剪枝方法保留的特征多样性远低于预期;此外,利用CHAIR数据集的分析显示,相较于注意力剪枝,这些方法保留的多样性反而与更高的幻觉频率密切相关。(2)我们进一步观察到,基于注意力的方法在处理视觉证据集中的简单图像时更有效,而基于多样性的方法更擅长处理具有分散特征的复杂图像。基于这些实证发现,我们通过在现有混合剪枝策略中引入图像感知调整,持续提升了其性能。我们还通过一个简易的自适应剪枝机制对实证发现进行最小化实例化,该机制在标准基准测试及幻觉专项评估中均展现出稳健可靠的性能。项目页面详见https://cvsp-lab.github.io/AgilePruner。
生成具有连贯视觉叙事的长篇故事视频仍是视频合成领域的重大挑战。本文提出了一种创新框架、数据集及模型,针对三个关键局限性问题展开攻关:跨镜头背景一致性、多主体镜头间无缝过渡,以及小时级叙事内容的可扩展性。我们引入的背景一致性生成管线能在保持角色身份与空间关系的同时,确保场景间的视觉连贯性。进一步提出过渡感知视频合成模块,可针对多主体进出画面的复杂场景生成流畅镜头转场,突破了现有技术仅支持单主体的限制。为此,我们贡献了包含1万个多主体过渡序列的合成数据集,涵盖动态场景构图中未被充分研究的类型。在VBench基准测试中,InfinityStory在背景一致性(88.94)、主体一致性(82.11)两项指标上均获最高分,并以最佳综合平均排名(2.80)展现出更优的稳定性、更平滑的过渡效果和更出色的时序连贯性。
随着多模态大语言模型的快速发展,其卓越能力已得到充分展现,但现有模型几乎均采用离线处理模式,这限制了实时交互的可能性。为弥补这一空白,我们推出了实时视频交互基准测试平台RIVER Bench,专门用于评估在线视频理解能力。该平台创新性地构建了包含回溯记忆、实时感知与前瞻预测任务的评估框架,通过模拟渐进式交互对话而非一次性整段视频应答,更贴近真实交互场景。我们采用多源异构时长视频进行精细标注,并明确定义了实时交互格式。对不同类别模型的评估表明:离线模型在单轮问答任务中表现优异,但实时处理能力明显不足。针对现有模型在在线视频交互中的局限性(尤其是长时记忆与未来感知缺陷),我们提出了一种通用改进方法,使模型能够更灵活地实现实时人机交互。我们相信这项工作将有力推动实时交互式视频理解模型的发展,并为这一新兴领域的后续研究提供重要启示。数据集与代码已开源:https://github.com/OpenGVLab/RIVER。
基于大语言模型的智能体在自动化软件工程任务(如静态缺陷修复)方面已展现出强大能力,SWE-bench等基准测试便是明证。然而在现实场景中,成熟软件的开发通常以复杂的需求变更和长期功能迭代为基础——这一动态过程是静态、一次性修复范式所无法捕捉的。为弥补这一差距,我们提出SWE-CI:首个基于持续集成循环的仓库级基准测试,旨在将代码生成的评估范式从静态短期功能正确性转向动态长期可维护性。该基准包含100项任务,每项任务平均对应真实代码库中跨度233天、连续71次提交的演进历史。SWE-CI要求智能体通过数十轮分析与编码迭代系统化解决这些任务,为评估智能体在长期演进过程中维持代码质量的能力提供了重要视角。
具身对话代理(ECA)旨在通过语音、手势和面部表情模拟人类面对面交互。当前基于大语言模型(LLM)的对话代理缺乏具身性和自然交互所必需的表现性姿态。现有ECA解决方案常产生僵硬、低多样性的动作,难以实现类人交互。另一方面,语音协同手势的生成方法虽能产生自然肢体动作,但依赖未来语音上下文且计算耗时。为弥补这一差距,我们提出MIBURI——首个在线因果推理框架,可同步实时对话生成富有表现力的全身手势与面部表情。我们采用身体部位感知的手势编解码器,将分层运动细节编码为多级离散标记。这些标记随后通过二维因果框架自回归生成,该框架以基于LLM的语音-文本嵌入为条件,实时建模时序动态与部位级运动层次。此外,我们引入辅助目标函数以激发表现力丰富的手势,同时避免收敛至静态姿势。对比评估表明,我们的因果实时方法相较现有基线能产生更自然且上下文契合的手势。敬请访问https://vcai.mpi-inf.mpg.de/projects/MIBURI/ 观看演示视频。
当前大语言模型的安全评估与红队测试仍以文本为中心,现有框架缺乏系统化检验对齐能力能否泛化至音频、图像及视频输入的基础设施。我们提出MUSE(多模态统一安全评估平台),这一开源、以运行为核心的平台将自动跨模态载荷生成、三种多轮攻击算法(Crescendo、PAIR、Violent Durian)、供应商无关的模型路由,以及采用五级安全分类法的LLM评判器整合至基于浏览器的统一系统中。双指标框架区分了硬性攻击成功率(仅含完全服从)与软性ASR(包含部分服从),可捕捉二元指标所遗漏的部分信息泄露。为探究对齐能力是否跨越模态边界泛化,我们引入轮次间模态切换技术,通过每轮次模态轮换增强多轮攻击效果。在四个供应商的六款多模态大语言模型上的实验表明:针对单轮拒绝率接近完美的模型,多轮攻击策略可实现90-100%的ASR;ITMS虽未在已饱和的基线上统一提升最终ASR,但通过瓦解早期轮次防御加速了攻击收敛;消融实验揭示模态影响方向具有模型家族特异性而非普适性,这凸显了需开展供应商感知的跨模态安全测试。
在具身智能任务中,智能体需以在线近实时方式构建并理解三维场景,因此即时探索与理解三维场景至关重要。本研究提出EmbodiedSplat——一种面向开放词汇场景理解的在线前馈式3D高斯泼溅(3DGS)方法,能够从图像流中同步实现在线三维重建与三维语义理解。与现有通常局限于离线或逐场景优化的开放词汇3DGS方法不同,我们的目标具有双重性:1)以在线方式从超过300帧图像流中重建完整场景的语义嵌入3DGS;2)通过前馈式设计实现对新场景的高度泛化性,结合实时二维模型可支持近实时的三维语义重建。为实现这些目标,我们提出了带有CLIP全局码本的在线稀疏系数场,在将二维CLIP嵌入绑定至每个三维高斯的同时,最小化内存消耗并保持CLIP的完整语义泛化能力。此外,通过基于3D U-Net聚合3DGS的部分点云,我们生成具有三维几何感知的CLIP特征,以弥补面向二维的语言嵌入所缺乏的三维几何先验。在ScanNet、ScanNet++和Replica等多个室内数据集上的大量实验表明,我们的方法兼具高效性与有效性。项目页面详见:https://0nandon.github.io/EmbodiedSplat/。
能否通过带有严格可验证奖励的强化学习,教会紧凑语言模型进行物理推理?抑或它主要学会的是对正确答案的模式匹配?我们通过训练一个15亿参数推理模型研究该问题,该模型基于梁静力学这一经典工程问题,采用参数高效的RLVR方法,仅使用符号求解器提供的二元正确性奖励,而无需教师生成的推理轨迹。最佳BeamPERL检查点在Pass@1指标上较基础模型提升66.7%。然而习得的能力呈现各向异性:模型能实现组合泛化(更多载荷),却在需要相同平衡方程的结构拓扑变化(支座位移)场景中失效。中间检查点展现出最强推理能力,而持续优化会降低鲁棒性却维持奖励值。这些发现揭示了结果层面对齐的核心局限:基于精确物理奖励的强化学习诱导的是程序化解题模板,而非对控制方程的内化理解。即使奖励信号具有解析精确性,其本身并不能保证可迁移的物理推理能力。我们的结果表明,可验证奖励可能需要与结构化推理支架相结合,才能突破模板匹配的局限,实现稳健的科学推理。
Detection Transformer(DETR)及其变体在自主系统关键任务——目标检测中表现出优异性能。然而这些模型存在一个关键局限:其置信度分数仅反映语义不确定性,无法捕捉同等重要的空间不确定性,导致检测可靠性评估不完整。另一方面,深度集成方法能通过提供高质量空间不确定性估计来解决此问题,但其巨大的内存消耗使得实际应用难以实现。而更经济的替代方案蒙特卡洛(MC)丢弃法虽能估计不确定性,却因需在推理时进行多次前向传播而产生高延迟。 为突破这些限制,我们提出GroupEnsemble——一种面向类DETR模型的高效不确定性估计方法。该方法通过在推理阶段向变换器解码器输入多个多样化目标查询组,同步预测多个独立检测集。每个查询组经共享解码器独立变换后,对同一输入预测完整检测结果。通过应用注意力掩码阻止组间查询交互,确保各组独立完成检测以实现可靠的集成不确定性估计。借助解码器固有的并行处理能力,GroupEnsemble可在单次前向传播中高效完成不确定性估计,无需顺序重复计算。我们在自动驾驶场景(Cityscapes数据集)和日常场景(COCO数据集)下的验证表明:结合MC丢弃法与GroupEnsemble的混合策略,在多项指标上以极低成本超越了深度集成方法的性能。代码已开源于https://github.com/yutongy98/GroupEnsemble。 (注:译文在保持学术严谨性的基础上,采用以下处理方式: 1. 专业术语统一:"Deep Ensembles"译为"深度集成方法","Monte Carlo Dropout"采用通用译名"蒙特卡洛丢弃法" 2. 技术表述优化:将"forward passes"意译为"前向传播"而非字面直译 3. 逻辑衔接强化:使用"另一方面""而"等连接词保持行文流畅 4. 被动语态转化:将英文被动句"An attention mask is applied"主动化为"通过应用注意力掩码" 5. 长句拆分:对复合长句进行合理切分,符合中文表达习惯)
尽管近年来开放词汇目标检测领域关注度日益提升,但现有方法大多严重依赖人工标注的细粒度训练数据集以及资源密集型的逐层跨模态特征提取。本文提出HDINO——一种简洁高效的开放词汇检测器,无需依赖上述组件。具体而言,我们在基于Transformer的DINO模型基础上设计了两阶段训练策略:第一阶段将噪声样本作为附加正样本实例,构建视觉与文本模态间的一对多语义对齐机制(O2M),从而促进语义对齐;同时基于初始检测难度设计难度加权分类损失函数(DWCL),通过挖掘困难样本进一步提升模型性能。第二阶段对已对齐的表征施加轻量级特征融合模块,以增强对语言语义的敏感性。在Swin Transformer-T架构下,HDINO-T仅使用两个公开检测数据集中的220万训练图像(无需人工数据筛选和定位数据),在COCO数据集上达到49.2 mAP,较基于540万和650万图像训练的Grounding DINO-T和T-Rex2分别高出0.8 mAP和2.8 mAP。经COCO微调后,HDINO-T与HDINO-L进一步达到56.4 mAP和59.2 mAP,彰显了方法的有效性与可扩展性。代码与模型已开源:https://github.com/HaoZ416/HDINO。