每日精选AI研究论文及翻译
检索增强生成(RAG)通过引入外部知识提升了大型语言模型(LLMs)的事实准确性,但在需要多步推理的问题上仍显不足;而纯推理导向的方法则常出现事实幻觉或误植。本综述从统一的推理-检索视角综合了这两条研究脉络。首先,我们描绘了高级推理如何优化RAG的各个阶段(推理增强型RAG)。接着,展示了不同类型检索知识如何填补缺失前提并扩展复杂推理的上下文(RAG增强型推理)。最后,聚焦于新兴的协同RAG-推理框架,其中(代理型)LLMs迭代地交替进行搜索与推理,在知识密集型基准测试中达到顶尖性能。我们对方法、数据集及开放挑战进行了分类,并规划了研究路径,旨在开发更高效、多模态适应、可信且以人为本的深层RAG-推理系统。相关资料集可访问https://github.com/DavidZWZ/Awesome-RAG-Reasoning获取。
在实际软件工程中,代码性能优化至关重要,对于生产级系统尤为关键。尽管大型语言模型(LLMs)在代码生成和错误修复方面展现了卓越能力,但它们在仓库级别提升代码性能的熟练度仍待深入探索。为填补这一空白,我们推出了SWE-Perf,这是首个专门设计用于在真实仓库环境下系统评估LLMs代码性能优化任务的基准。SWE-Perf包含140个精心挑选的实例,每个实例均源自GitHub热门仓库中的性能提升拉取请求。每个基准实例均包含相关代码库、目标函数、性能相关测试、专家编写的补丁以及可执行环境。通过对涵盖文件级和仓库级方法(如Agentless和OpenHands)的代表性方法进行全面评估,我们揭示了现有LLMs与专家级优化性能之间的显著能力差距,凸显了这一新兴领域中的关键研究机遇。
三维建模正从虚拟走向实体。现有的三维生成技术主要关注几何形状与纹理,却忽视了基于物理的建模。因此,尽管三维生成模型发展迅速,合成的三维资产往往忽略了丰富且关键的物理属性,这阻碍了它们在仿真、具身AI等物理领域的实际应用。作为应对这一挑战的初步尝试,我们提出了PhysX,一种端到端的基于物理的三维资产生成范式。1) 为了填补物理标注三维数据集的关键空白,我们推出了PhysXNet——首个系统性地在五个基础维度(绝对尺度、材质、功能属性、运动学及功能描述)上进行物理标注的三维数据集。特别地,我们设计了一个基于视觉-语言模型的可扩展人机协作标注流程,能够高效地将原始三维资产转化为物理优先的资产。2) 此外,我们提出了PhysXGen,一个前馈式的基于物理的图像到三维资产生成框架,它将物理知识注入预训练的三维结构空间中。具体而言,PhysXGen采用双分支架构,显式地建模三维结构与物理属性之间的潜在关联,从而在保持原有几何质量的同时,生成具有合理物理预测的三维资产。大量实验验证了我们框架的卓越性能和广阔泛化能力。所有代码、数据及模型将公开发布,以促进生成式物理AI的未来研究。
人类是交通生态系统中不可或缺的组成部分,理解其行为对于推动安全驾驶系统的发展至关重要。尽管近期研究已从多个维度探讨了人类行为——如动作、轨迹及意图——但在自动驾驶领域,评估人类行为理解的综合基准仍显缺失。本研究中,我们提出了MMHU,一个大规模的人类行为分析基准,它包含了丰富的标注信息,如人体运动与轨迹、运动文本描述、人类意图,以及与驾驶安全相关的关键行为标签。我们的数据集汇集了来自多元渠道的57,000段人体运动片段和173万帧图像,包括Waymo等知名驾驶数据集、YouTube上的实景视频以及自主采集的数据。我们开发了一套人机协作的标注流程,以生成详尽的行为描述。通过对数据集进行深入分析,并对从运动预测到运动生成及人类行为问答等多任务进行基准测试,我们提供了一个广泛的评估体系。项目页面:https://MMHU-Benchmark.github.io。
让虚拟人物能够动态且真实地响应多样化的听觉刺激,仍然是角色动画领域的一个关键挑战,这需要将感知建模与运动合成相结合。尽管这一任务具有重要意义,但相关研究仍处于初步探索阶段。以往的研究主要集中在将语音、音频和音乐等模态映射以生成人体运动。然而,这些模型通常忽视了空间音频信号中编码的空间特征对人体运动的影响。为了填补这一空白,并实现对空间音频驱动下人体运动的高质量建模,我们首次引入了全面的空间音频驱动人体运动(SAM)数据集,该数据集包含了多样化的高质量空间音频与运动数据。为了进行基准测试,我们开发了一个简单而有效的基于扩散的生成框架,名为MOSPA(空间音频驱动的人体运动生成),它通过高效的融合机制,准确捕捉了身体运动与空间音频之间的关系。训练完成后,MOSPA能够根据不同的空间音频输入生成多样且逼真的人体运动。我们对所提出的数据集进行了深入研究,并进行了广泛的实验以进行基准测试,结果表明我们的方法在该任务上达到了最先进的性能。我们的模型和数据集将在论文被接受后开源。更多详情请参阅我们的补充视频。
大型语言模型(LLM)代理在解决现实世界问题方面展现出巨大潜力,并有望成为工业任务自动化的解决方案。然而,从工业视角(如土木工程领域)系统评估自动化代理仍需更多基准测试。为此,我们提出了DrafterBench,用于在技术图纸修订这一土木工程代表性任务背景下全面评估LLM代理。DrafterBench包含从实际图纸文件中总结出的十二类任务,配备46项定制功能/工具,共计1920项任务。作为一个开源基准,DrafterBench严格测试AI代理在解读复杂且长上下文指令、利用先验知识以及通过隐式策略意识适应动态指令质量方面的熟练程度。该工具包全面评估了结构化数据理解、功能执行、指令遵循及批判性推理等多项能力。DrafterBench提供任务准确率与错误统计的详细分析,旨在深入洞察代理能力,并为LLM在工程应用中的集成指明改进方向。我们的基准测试平台可在https://github.com/Eason-Li-AIS/DrafterBench获取,测试集托管于https://huggingface.co/datasets/Eason666/DrafterBench。
大型语言模型(LLM)社区几乎完全专注于仅解码器架构的语言模型,因为它们更易于用于文本生成。然而,仍有相当一部分社区在分类或检索等任务中使用仅编码器模型。先前的研究尝试比较这些架构,但不得不面对模型参数数量、训练技术和数据集不同的情况。我们引入了SOTA开放数据Ettin模型套件:包含从1700万到10亿参数的成对仅编码器和仅解码器模型,训练数据量高达2万亿个token。对仅编码器和仅解码器模型采用相同的训练方案,在各自规模类别中均产生了SOTA的训练方案,作为编码器超越了ModernBERT,作为解码器则优于Llama 3.2和SmolLM2。与先前研究一致,我们发现仅编码器模型在分类和检索任务上表现优异,而解码器在生成任务上更胜一筹。然而,我们证明通过持续训练将解码器模型适应于编码器任务(反之亦然)的效果,不如直接使用相反目标模型(例如,在MNLI任务上,400M的编码器优于10B的解码器,而在生成任务上则相反)。我们开源了本研究的全部成果,包括训练数据、按检查点分段的训练顺序以及200多个检查点,以便未来工作能够分析或扩展训练的各个方面。
我们提出Lizard,一种线性化框架,将预训练的基于Transformer的大型语言模型(LLMs)转化为适用于无限上下文生成的灵活、次二次方复杂度架构。随着上下文长度增加,基于Transformer的LLMs因softmax注意力的二次方复杂度及不断增长的键值(KV)缓存而面临显著的内存与计算瓶颈。Lizard通过引入一种近似softmax注意力且保持输出质量的次二次方注意力机制,有效应对了这些限制。不同于以往受限于固定模型结构而常排除门控机制的线性化方法,Lizard借鉴了最新线性模型中的门控模块,实现了自适应内存控制,支持恒定内存推理,具备强大的长度泛化能力,并允许更灵活的模型设计。Lizard结合了用于全局上下文压缩的门控线性注意力与通过元记忆增强的滑动窗口注意力,形成了一种既能捕捉长程依赖又能处理细粒度局部交互的混合机制。此外,我们引入了一种硬件感知算法,以加速模型的训练速度。大量实验表明,Lizard在标准语言建模任务上几乎无损地恢复了教师模型的性能,同时显著超越了先前的线性化方法。在5-shot MMLU基准测试中,Lizard较之前模型提升了18分,并在关联回忆任务上展现出显著改进。
近期,视频生成领域,尤其是扩散模型方面的进展,显著推动了文本到视频(T2V)和图像到视频(I2V)合成技术的发展。然而,在有效整合动态运动信号与灵活空间约束方面仍存在挑战。现有的T2V方法通常依赖文本提示,这本质上难以精确控制生成内容的空间布局。相比之下,I2V方法受限于对真实图像的依赖,限制了合成内容的可编辑性。尽管部分方法通过引入ControlNet实现了基于图像的条件控制,但它们往往缺乏明确的运动控制,且训练过程计算成本高昂。为克服这些局限,我们提出了AnyI2V,一个无需训练即可根据用户定义的运动轨迹为任意条件图像赋予动画效果的框架。AnyI2V支持更广泛的条件图像模态,包括ControlNet不支持的网格和点云等数据类型,从而实现了更灵活多样的视频生成。此外,它还支持混合条件输入,并通过LoRA和文本提示实现风格迁移与编辑。大量实验证明,所提出的AnyI2V在空间与运动控制的视频生成中表现卓越,为这一领域提供了新的视角。代码可在https://henghuiding.com/AnyI2V/获取。
我们推出SpatialTrackerV2,一种面向单目视频的前馈式三维点追踪方法。不同于依赖现成组件构建的模块化三维追踪流程,我们的方法将点追踪、单目深度估计与相机姿态估计之间的内在联系统一于一个高性能的前馈式三维点追踪器中。该方法将世界空间中的三维运动分解为场景几何、相机自运动及像素级物体运动,采用全可微分且端到端的架构,支持跨多种数据集的大规模训练,包括合成序列、带姿态的RGB-D视频以及未标注的真实场景片段。通过从这类异构数据中联合学习几何与运动信息,SpatialTrackerV2在三维追踪任务上超越了现有方法30%的性能,同时与领先的动态三维重建方法精度相当,而运行速度提升了50倍。
近期研究确立了一种新的机器学习范式,该范式基于在推理时和训练时同步扩展计算资源。在这一研究方向上,结合了基于合成演示的监督微调(SFT)与可验证奖励的强化学习(RLVR),用于训练大型语言模型,使其在推理过程中以自然语言表达的“思考”形式额外消耗计算资源。本文提出,将这些标记格式化为与有状态工具的多轮交互轨迹。在每一轮交互中,工具的新状态会被附加到模型的上下文中,模型的任务是通过自定义领域特定语言(DSL)生成控制工具所需的标记。我们以修复故障Python代码的问题为基准测试了这一方法,结果表明,这种受限设置能够加速经验采样并提供更密集的奖励信号,使得即便是参数规模高达30亿的模型也能学会如何在该任务上熟练地分配额外计算资源。
本文介绍了AI Wizards团队参与CLEF 2025 CheckThat!实验室任务1:新闻文章中的主观性检测,在单语、多语及零样本场景下对句子进行主观/客观分类的情况。训练/开发数据集涵盖了阿拉伯语、德语、英语、意大利语和保加利亚语;最终评估则引入了未见过的语言(如希腊语、罗马尼亚语、波兰语、乌克兰语)以检验模型的泛化能力。我们的核心策略是通过将辅助模型生成的情感评分与句子表征相结合,来增强基于Transformer的分类器,旨在超越标准的微调方法。我们利用mDeBERTaV3-base、ModernBERT-base(英语)及Llama3.2-1B探索了这一情感增强架构。针对跨语言普遍存在的类别不平衡问题,我们采用了基于开发集优化的决策阈值校准方法。实验结果表明,情感特征的整合显著提升了模型性能,尤其是主观类别的F1分数。这一框架使我们在多个语言上取得了高排名,特别是在希腊语上获得了第一名(宏F1 = 0.51)。
针对大规模语言模型的强化学习(RL)是一项能耗巨大的任务:训练过程可能不稳定,且策略可能逐渐偏离其预训练权重。我们提出了RLEP——基于经验回放的强化学习框架,该框架分为两个阶段:首先收集已验证的轨迹,随后在后续训练中回放这些轨迹。在每次更新步骤中,策略会在混合了新生成轨迹与这些回放成功案例的小批量数据上进行优化。通过回放高质量示例,RLEP引导模型远离无效探索,聚焦于有潜力的推理路径,从而实现更快的收敛和更强的最终性能。在Qwen2.5-Math-7B基础模型上,RLEP以显著更少的更新次数达到基线峰值准确率,并最终超越之,将AIME-2024的准确率从38.2%提升至39.9%,AIME-2025从19.8%提升至22.3%,AMC-2023从77.0%提升至82.2%。我们的代码、数据集及检查点已公开于https://github.com/Kwai-Klear/RLEP,以促进可重复性及进一步研究。
软件库的快速演进为代码生成带来了显著挑战,要求持续适应频繁的版本更新,同时保持向后兼容性。尽管现有的代码演化基准提供了宝贵的洞见,但它们通常缺乏基于执行的评估,以生成符合特定库版本的代码。为此,我们推出了GitChameleon,这是一个新颖且精心策划的数据集,包含328个Python代码补全问题,每个问题都针对特定库版本,并附有可执行的单元测试。GitChameleon严格评估了当代大型语言模型(LLMs)、LLM驱动的代理、代码助手以及RAG系统在执行功能准确的版本条件代码生成方面的能力。我们的广泛评估表明,最先进的系统在此任务上面临重大挑战;企业模型的基线成功率在48-51%之间,凸显了问题的复杂性。通过提供一个强调代码库动态特性的基于执行的基准,GitChameleon使人们能更清晰地理解这一挑战,并有助于指导开发更具适应性和可靠性的AI代码生成方法。我们已将数据集和评估代码公开发布于https://github.com/mrcabbage972/GitChameleonBenchmark。
基础多模态模型通常通过拼接多个现有的预训练单模态模型来设计:例如,将图像分类器与文本模型结合。这一拼接过程通过训练一个连接模块来实现,该模块旨在将这些单模态模型的表示空间对齐,以达成多模态目标。然而,考虑到在大规模网络数据集上训练此类连接器的复杂性,以及可用预训练单模态模型数量的不断增长,单模态模型的选择及后续连接模块的训练任务变得计算密集。针对这一尚未充分研究的关键问题,我们提出了超网络模型对齐(Hyma),一种利用超网络实现最优单模态模型选择与连接器训练的一体化解决方案。具体而言,我们的框架利用超网络的参数预测能力,为N乘以M种单模态模型组合获取联合训练的连接模块。在实验中,Hyma将寻找最佳单模态模型对的成本降低了10倍,同时在一系列多样化的多模态基准测试中,匹配了通过网格搜索获得的排名及训练后的连接器性能。
作为一种高效的知识迁移技术,知识蒸馏在单模态场景中已取得显著成功。然而,在跨模态环境下,传统蒸馏方法因数据和统计异质性面临重大挑战,难以充分利用跨模态教师模型中蕴含的互补先验知识。本文通过实证揭示了现有方法中的两个关键问题:蒸馏路径选择与知识漂移。为克服这些局限,我们提出了MST-Distill,一种新颖的跨模态知识蒸馏框架,其特色在于采用混合专家教师模型。该方法集成了跨模态与多模态配置下的多样化教师模型集合,并结合实例级路由网络,实现自适应、动态的蒸馏过程,有效突破了依赖单一静态教师模型的传统方法限制。此外,我们引入了一个可插拔的掩码模块,该模块独立训练以抑制模态特异性差异并重构教师表征,从而缓解知识漂移,提升迁移效果。在涵盖视觉、音频和文本的五个多样化多模态数据集上的广泛实验表明,我们的方法在跨模态蒸馏任务中显著优于现有最先进的知识蒸馏技术。源代码已发布于https://github.com/Gray-OREO/MST-Distill。