每日精选AI研究论文及翻译
我们提出了FlashWorld,一种生成模型,能够从单张图像或文本提示中在数秒内生成3D场景,速度比以往工作快10至100倍,同时拥有卓越的渲染质量。我们的方法从传统的多视图导向(MV导向)范式转向3D导向方法,后者在生成多视图图像的同时直接产生3D高斯表示,用于后续的3D重建。尽管3D导向方法确保了3D一致性,但通常视觉质量较差。FlashWorld包含一个双模式预训练阶段,随后是跨模式后训练阶段,有效整合了两种范式的优势。具体而言,我们首先利用视频扩散模型的先验知识,预训练一个双模式多视图扩散模型,该模型同时支持MV导向和3D导向的生成模式。为了弥合3D导向生成中的质量差距,我们进一步提出了一种跨模式后训练蒸馏方法,通过将一致3D导向模式的分布与高质量MV导向模式相匹配。这不仅在保持3D一致性的同时提升了视觉质量,还减少了推理所需的去噪步骤。此外,我们提出了一种策略,在此过程中利用大量单视图图像和文本提示,以增强模型对分布外输入的泛化能力。大量实验证明了我们方法的优越性和效率。
近期,统一多模态模型的进展揭示了一个明确的趋势,即向全面内容生成迈进。然而,听觉领域仍面临重大挑战,音乐与语音往往孤立发展,阻碍了通用音频合成的进程。这种分离源于内在的任务冲突与严重的数据失衡,制约了真正统一音频生成模型的发展。为应对这一挑战,我们提出了UniMoE-Audio,一个基于新型动态容量专家混合(MoE)框架的统一语音与音乐生成模型。在架构上,UniMoE-Audio引入了Top-P路由策略以实现专家数量的动态分配,以及混合专家设计,包括用于领域特定知识的路由专家、适用于跨领域特征的共享专家,以及用于自适应计算跳过的空置专家。针对数据失衡问题,我们设计了三阶段训练课程:1)独立专家训练,利用原始数据集无干扰地向每个“原型专家”灌输领域特定知识;2)MoE集成与预热,将这些专家纳入UniMoE-Audio架构,使用平衡数据集子集预热门控模块与共享专家;3)协同联合训练,在完全平衡的数据集上端到端训练整个模型,促进跨领域协同效应的增强。大量实验表明,UniMoE-Audio不仅在主要语音与音乐生成基准测试中达到了最先进的性能,还展现了卓越的协同学习能力,有效缓解了简单联合训练中常见的性能下降问题。我们的研究结果凸显了专业化MoE架构与精心设计的训练策略在推动通用音频生成领域发展中的巨大潜力。主页:https://mukioxun.github.io/Uni-MoE-site/home.html
大型语言模型(LLMs)的推理模式仍不透明,而强化学习(RL)通常在整个生成过程中均匀分配信用,模糊了关键步骤与常规步骤之间的界限。本研究将注意力机制定位为一种特权基础,它不仅作为计算的副产品,更作为推理本身的机制蓝图,使LLMs的内部逻辑变得可解读。我们首先区分了局部聚焦与全局聚焦的信息处理注意力头,揭示出局部聚焦头在接近对角线处产生锯齿状模式,指示短语块;而全局聚焦头则暴露了对未来标记具有广泛下游影响的标记。我们通过两个指标形式化这些发现:1)窗口平均注意力距离,衡量在裁剪窗口内的向后注意力程度;2)未来注意力影响,量化一个标记的全局重要性,即其从后续标记接收到的平均注意力。综合这些信号,我们发现了一种反复出现的预规划与锚定机制,模型首先进行长距离上下文参考以生成引导标记,随后立即或同时出现一个语义锚定标记,组织后续推理。基于这些洞见,我们引入了三种新颖的RL策略,动态地对关键节点(预规划标记、锚定标记及其时间耦合)进行针对性信用分配,并在多种推理任务中展示了持续的性能提升。通过将优化与模型内在的推理节奏对齐,我们旨在将不透明的优化转变为一种可操作的结构感知过程,希望能为LLM推理的更加透明和有效优化迈出潜在的一步。
当前,完全开源的多模态大语言模型(MLLMs)在性能上仍落后于专有模型,主要原因在于监督微调(SFT)所需的数据质量存在显著差距。现有的开源数据集普遍存在噪声广泛且复杂推理数据(如思维链,CoT)严重不足的问题,这阻碍了模型高级能力的发展。针对这些挑战,我们的研究做出了三项主要贡献。首先,我们推出了Honey-Data-15M,这是一个包含约1500万问答对的新SFT数据集,通过多重清洗技术处理,并采用了一种新颖的双层次(短与长)CoT增强策略进行优化。其次,我们介绍了数据整理流程HoneyPipe及其基础框架DataStudio,为社区提供了一种透明且可调整的数据整理方法,超越了静态数据集发布的局限。最后,为验证我们的数据集和流程,我们在Honey-Data-15M上训练了Bee-8B,一个80亿参数的模型。实验表明,Bee-8B为完全开源的MLLMs设立了新的技术标杆,其性能不仅与近期半开源模型如InternVL3.5-8B相媲美,在某些方面甚至超越。我们的工作为社区提供了一套基础资源,包括:Honey-Data-15M语料库;包含HoneyPipe和DataStudio的全栈工具包;训练配方;评估框架;以及模型权重。这一系列努力证明,专注于数据质量的系统性方法是开发与半开源模型高度竞争的完全开源MLLMs的关键途径。
视觉-语言-动作(VLA)模型在机器人操作基准测试中展现了令人瞩目的成功率,然而这些成果可能掩盖了其在鲁棒性方面的根本缺陷。我们通过引入七个维度的受控扰动——物体布局、摄像机视角、机器人初始状态、语言指令、光照条件、背景纹理及传感器噪声,进行了系统性脆弱性分析。全面考察了多个前沿模型后,我们揭示了其表面能力之下的一致性脆弱。分析结果暴露了关键弱点:模型对扰动因素表现出极端敏感性,包括摄像机视角和机器人初始状态,在适度扰动下,性能从95%骤降至30%以下。令人意外的是,模型对语言变化大多不敏感,进一步实验表明,模型往往完全忽视语言指令。我们的发现挑战了高基准分数等同于真正能力的假设,并强调了评估实践中需考量在现实变化下可靠性的必要性。
现今的视频生成模型虽能生成视觉上逼真的视频,却常难以遵循物理定律,这限制了其生成物理上合理视频的能力,并阻碍了其作为“世界模型”的潜力。为解决此问题,我们提出了PhysMaster,它通过捕捉物理知识作为指导视频生成模型的表征,以增强其物理感知能力。具体而言,PhysMaster基于图像到视频的任务,模型需从输入图像中预测出物理上合理的动态变化。鉴于输入图像提供了场景中物体的相对位置及潜在交互等物理先验信息,我们设计了PhysEncoder,用于从中编码物理信息作为额外条件,将物理知识注入视频生成过程。由于模型在物理表现上缺乏超越外观的适当监督,PhysEncoder采用强化学习结合人类反馈来进行物理表征学习,利用生成模型的反馈,通过直接偏好优化(DPO)以端到端方式优化物理表征。PhysMaster为提升PhysEncoder乃至视频生成的物理感知能力提供了可行方案,其在一个简单代理任务上的表现证明了其能力,并展现了在广泛物理场景中的通用性。这表明,我们的PhysMaster通过强化学习范式下的表征学习统一了多种物理过程的解决方案,可作为物理感知视频生成及更广泛应用领域中的通用且即插即用的解决方案。
有效的时空表示是建模、理解和预测视频动态的基础。视频的基本单元——像素,随时间描绘出一条连续的三维轨迹,作为动态的原始元素。基于这一原理,我们提出将任何视频表示为轨迹场:一种密集映射,为每一帧中的每个像素分配一个关于时间的连续三维轨迹函数。借助这一表示,我们引入了Trace Anything神经网络,它能在单次前向传播中预测整个轨迹场。具体而言,对于每一帧中的每个像素,我们的模型预测一组控制点,这些控制点参数化了一条轨迹(即B样条),从而在任意查询时刻给出其三维位置。我们在大规模四维数据上训练了Trace Anything模型,包括来自我们新平台的数据,实验结果表明:(i) Trace Anything在我们新提出的轨迹场估计基准上达到了最先进的性能,并在已有的点跟踪基准上表现出色;(ii) 得益于其一次性预测范式,无需迭代优化或辅助估计器,显著提升了效率;(iii) 它展现出涌现能力,包括目标条件操控、运动预测和时空融合。项目页面:https://trace-anything.github.io/。
我们推出InteractiveOmni,这是一款统一且开源的、面向音视频多轮交互的全模态大语言模型,其参数量从4B至8B不等,旨在通过提供全面的全模态理解与语音生成能力,引领轻量级模型领域的发展。为此,我们将视觉编码器、音频编码器、大语言模型及语音解码器整合为一个统一模型,以执行理解与生成任务。我们设计了一种多阶段训练策略,确保模型具备强大的跨模态能力,包括全模态理解的预训练,以及后续的语音对话与音视频交互的后训练。为了实现类人的长期对话能力,我们精心策划了一个多轮训练数据集,以增强模型处理复杂多轮交互的能力。为了有效评估多轮记忆与语音交互能力,我们构建了多模态多轮记忆基准和多轮语音交互基准。实验表明,InteractiveOmni显著超越了领先的开源模型,提供了更为智能的多轮音视频体验,尤其是在其长期记忆能力方面表现突出。值得注意的是,InteractiveOmni-4B在通用基准测试中可与Qwen2.5-Omni-7B等更大模型相媲美,且仅需50%的模型规模即可保留InteractiveOmni-8B 97%的性能。在图像、音频、视频理解及语音生成任务中,InteractiveOmni均取得了与同类规模模型相比的顶尖成绩,为下一代智能交互系统提供了一个易于获取、开源的基础平台。
强化学习(RL)已成为训练大型语言模型(LLMs)的核心技术,然而该领域尚缺乏与预训练相媲美的预测性扩展方法论。尽管计算预算迅速增长,但如何评估算法改进以扩展RL计算仍缺乏系统性的理解。我们首次进行了大规模系统性研究,累计超过40万GPU小时,定义了一个分析并预测LLMs中RL扩展的原则性框架。我们拟合了RL训练的S型计算-性能曲线,并通过消融实验分析了多种常见设计选择对渐近性能和计算效率的影响。研究发现:(1)并非所有方案都能达到相似的渐近性能;(2)损失聚合、归一化、课程学习及离策略算法等细节主要调节计算效率,而不会显著改变渐近点;(3)稳定、可扩展的方案遵循可预测的扩展轨迹,使得从小规模运行中推断成为可能。综合这些洞见,我们提出了最佳实践方案ScaleRL,并通过单次RL运行扩展至10万GPU小时,成功验证了其性能预测的有效性。我们的工作不仅为分析RL扩展提供了科学框架,还提出了一种实用方案,使RL训练更接近预训练长期以来的可预测性。
尽管大多数自回归大语言模型(LLMs)受限于逐字解码,扩散大语言模型(dLLMs)因其通过并行解码显著加速推理的潜力而日益受到关注。然而,尽管前景广阔,dLLMs中的条件独立性假设使得并行解码忽视了词元间的依赖关系,当这些依赖关系较强时,不可避免地会降低生成质量。现有研究大多忽视了这些固有挑战,且在标准基准(如数学和编码)上的评估不足以捕捉并行解码导致的质量下降。为填补这一空白,我们首先从信息论角度对并行解码进行了分析。随后,我们从数据分布和解码策略两个视角,对可解析的合成列表操作进行了案例研究,提供了量化见解,揭示了并行解码的根本局限性。基于这些见解,我们提出了ParallelBench,这是首个专为dLLMs设计的基准测试,包含对人类和自回归LLMs而言简单但对并行解码下的dLLMs极具挑战性的现实任务。利用ParallelBench,我们系统分析了dLLMs和自回归LLMs,发现:(i)并行解码下的dLLMs在现实场景中可能遭受显著的质量下降;(ii)当前的并行解码策略难以根据任务难度调整其并行度,因而在保证质量的前提下难以实现有意义的加速。我们的发现强调了迫切需要创新的解码方法,以克服当前速度与质量之间的权衡。我们公开了我们的基准测试,以助力真正高效dLLMs的发展。
多智能体系统(MAS)与强化学习(RL)被广泛应用于提升大型语言模型(LLMs)的代理能力。MAS通过基于角色的编排优化任务执行,而RL则利用环境奖励学习更优策略,如GRPO风格的优化方法。然而,将在线策略RL应用于MAS仍属探索不足的领域,并面临独特挑战。算法层面,由于提示信息随角色和轮次变化,标准的GRPO分组假设不再适用。系统层面,训练框架需支持MAS工作流的展开及对单策略与多策略模型的在线策略更新。 我们提出了AT-GRPO,它包括:(i) 一种专为MAS设计的、按智能体和轮次分组的RL算法;(ii) 一个支持单策略与多策略模式的训练系统。在游戏、规划、编程及数学任务中,AT-GRPO均带来显著提升。在长期规划任务上,它将单智能体RL基准的准确率从14.0%至47.0%提升至96.0%至99.5%。同时,它增强了推理性能,在编程任务上平均提升3.87%至7.62%,在数学任务上提升9.0%至17.93%。代码及环境已发布于:https://github.com/pettingllms-ai/PettingLLMs。
我们提出了生成式通用验证器这一创新概念与插件,专为下一代视觉-语言模型及统一多模态模型中的多模态推理设计,提供了在推理与生成过程中对视觉结果进行反思与优化的基础能力。本研究主要贡献有三:(1) 构建了ViVerBench,一个涵盖16类关键任务的综合基准,用于评估多模态推理中的视觉输出。结果显示,现有视觉-语言模型在这些任务上普遍表现不佳,凸显了与人类可靠视觉验证能力间的显著差距。(2) 设计了两条自动化流水线,用于构建大规模视觉验证数据并训练OmniVerifier-7B,这是首个具备全方位能力的生成式验证器,专为通用视觉验证而训练,在ViVerBench上取得了显著提升(+8.3)。通过训练,我们识别出视觉验证中的三项基本能力,并展示了它们如何协同泛化与交互。(3) 提出了OmniVerifier-TTS,一种序列化测试时扩展范式,利用通用验证器在统一模型内桥接图像生成与编辑,通过迭代细粒度优化提升生成能力的上限。除生成外,我们将通用验证器扩展至更广泛的世界模型交织推理场景。实证表明,OmniVerifier-TTS在T2I-ReasonBench(+3.7)和GenEval++(+4.3)上取得改进,超越了如Best-of-N等现有并行测试时扩展方法。通过赋予多模态推理可靠的视觉验证能力,OmniVerifier推动了生成过程中的可靠反思与可扩展的测试时优化,标志着向更可信、可控的下一代推理系统迈进了一步。
生成模型已广泛应用于环境模拟和未来状态预测的世界建模中。随着自动驾驶技术的进步,不仅对在各种控制下生成高保真视频的需求日益增长,而且对生成如深度估计等多样且有意义的信息也提出了更高要求。为此,我们提出了CVD-STORM,一种跨视角视频扩散模型,它利用时空重建变分自编码器(VAE),能够在多种控制输入下生成具有4D重建能力的长期多视角视频。我们的方法首先通过辅助的4D重建任务对VAE进行微调,增强其编码3D结构和时间动态的能力。随后,我们将该VAE集成到视频扩散过程中,显著提升了生成质量。实验结果表明,我们的模型在FID和FVD指标上均取得了显著提升。此外,联合训练的高斯泼溅解码器有效地重建了动态场景,为全面场景理解提供了宝贵的几何信息。
我们推出了InternVLA-M1,这是一个用于空间定位与机器人控制的统一框架,旨在推动指令跟随型机器人向可扩展的通用智能迈进。其核心理念在于空间引导的视觉-语言-动作训练,其中空间定位作为指令与机器人行动之间的关键桥梁。InternVLA-M1采用两阶段流程:(i) 在超过230万条空间推理数据上进行空间定位预训练,通过将指令与视觉、与具体形态无关的位置对齐,确定“何处行动”;(ii) 进行空间引导的动作后训练,通过即插即用的空间提示生成与具体形态适配的动作,决定“如何行动”。这一空间引导的训练方案带来了持续的提升:InternVLA-M1在SimplerEnv Google Robot上比无空间引导的版本高出14.6%,在WidowX上高出17%,在LIBERO Franka上高出4.3%,同时在盒子、点和轨迹预测中展现出更强的空间推理能力。为了进一步扩展指令跟随能力,我们构建了一个模拟引擎,收集了24.4万条可泛化的抓取放置片段,实现了在200项任务和3000多个对象上平均6.2%的改进。在实际世界的密集抓取放置任务中,InternVLA-M1提升了7.3%,结合合成数据协同训练,在未见过的物体和新配置上达到了20.6%的提升。此外,在长时程、推理密集的场景中,它超越了现有工作超过10%。这些成果凸显了空间引导训练作为构建可扩展且鲁棒的通用机器人统一原则的重要性。代码与模型可在https://github.com/InternRobotics/InternVLA-M1获取。
人工智能(AI)的前沿研究需要大量资源,包括图形处理单元(GPU)、数据以及人力资源。本文评估了这些资源与基础模型(FM)科学进展之间的关系。我们回顾了2022年至2024年间发表的6517篇FM论文,并对229位第一作者进行了调查,以了解计算资源对科研成果的影响。我们发现,计算能力的提升与国家资金分配和引用次数相关,但并未观察到其与研究环境(学术或工业)、领域或研究方法之间存在显著关联。我们建议个人和机构应致力于创建共享且可负担的计算机会,以降低资源匮乏研究者的入门门槛。这些措施有助于扩大FM研究的参与度,促进思想和贡献者的多样性,并持续推动AI领域的创新与进步。相关数据将发布于:https://mit-calc.csail.mit.edu/。
本文主张,三维视觉定位是空间推理的基石,并引入Grounded-Spatial Reasoner(GS-Reasoner)以探索有效连接二者的空间表征方法。现有三维大语言模型(3D LLMs)因缺乏能同时捕捉语义与几何信息的统一三维表征而受限,这一缺陷表现为定位性能不佳或过度依赖外部模块,最终阻碍了定位与空间推理的无缝整合。为此,我们提出了一种简单而有效的双路径池化机制,该机制紧密对齐几何特征与语义及位置线索,构建了一个基于图像块的统一三维表征,该表征囊括了所有关键信息且未增加输入令牌数量。依托这一全面表征,GS-Reasoner成为首个无需外部模块即可实现自回归定位的三维大语言模型,其性能媲美顶尖模型,为三维空间推理建立了一个统一且自洽的框架。为进一步弥合定位与空间推理,我们引入了Grounded Chain-of-Thought(GCoT)数据集。该数据集精心设计,包含推理问题中提及物体的三维边界框标注,以及将定位作为问题解决核心环节的逐步推理路径。大量实验表明,GS-Reasoner在三维视觉定位上取得了令人瞩目的成果,进而显著提升了其空间推理能力,达到了业界领先水平。
成功的通用视觉-语言-动作(VLA)模型依赖于在多样化机器人平台上进行有效训练,并利用大规模、跨具身、异构的数据集。为了促进并充分利用丰富多样的机器人数据源中的异质性,我们提出了一种新颖的软提示方法,该方法仅需添加少量参数,通过将提示学习概念融入跨具身机器人学习,并为每个独特数据源引入独立可学习的嵌入向量。这些嵌入向量作为具身特定的提示,共同赋予VLA模型有效利用不同跨具身特征的能力。我们新提出的X-VLA,一种基于流匹配的简洁VLA架构,完全依赖于软提示的标准Transformer编码器,兼具可扩展性与简洁性。在6个仿真环境和3个真实世界机器人上的评估中,我们的0.9B实例——X-VLA-0.9B,在一系列基准测试中同时达到了当前最优(SOTA)性能,展示了从灵活操作到跨具身、环境及任务快速适应等多维度能力的卓越表现。网站:https://thu-air-dream.github.io/X-VLA/
通用多模态嵌入模型是各类任务的基础。现有方法通常通过测量查询-候选对的相似性来进行批内负样本挖掘。然而,这些方法往往难以捕捉候选者间细微的语义差异,且负样本缺乏多样性。此外,嵌入在区分假负样本和难负样本时表现出有限的判别能力。本文利用多模态大模型(MLLMs)的高级理解能力来增强表示学习,并提出了一种新颖的通用多模态嵌入模型(UniME-V2)。我们的方法首先通过全局检索构建潜在难负样本集。随后,引入MLLM-as-a-Judge机制,利用MLLMs评估查询-候选对的语义对齐度,并生成软语义匹配分数。这些分数作为难负样本挖掘的基础,减轻了假负样本的影响,并能够识别出多样且高质量的难负样本。此外,语义匹配分数被用作软标签,以缓解严格的一对一映射约束。通过将相似度矩阵与软语义匹配分数矩阵对齐,模型能够学习候选者间的语义区分,显著提升其判别能力。为进一步提升性能,我们提出了UniME-V2-Reranker,这是一个通过联合成对和列表优化方法在我们挖掘的难负样本上训练的重新排序模型。我们在MMEB基准和多个检索任务上进行了全面实验,结果表明我们的方法在所有任务上平均达到了最先进的性能。
本研究提出了一种掩码退化分类预训练方法(MaskDCPT),旨在促进输入图像中退化类型的分类,从而实现全面的图像复原预训练。与传统的预训练方法不同,MaskDCPT将图像的退化类型作为极弱监督信号,同时利用图像重建来提升性能和鲁棒性。MaskDCPT包含一个编码器和两个解码器:编码器从掩码的低质量输入图像中提取特征;分类解码器利用这些特征识别退化类型,而重建解码器则致力于重建对应的高质量图像。这一设计使得预训练能够同时受益于掩码图像建模和对比学习,生成适用于复原任务的通用表示。得益于简洁而强大的MaskDCPT,预训练后的编码器可用于解决通用图像复原问题,并取得卓越性能。实施MaskDCPT显著提升了卷积神经网络(CNNs)和Transformer的性能,在5D一体化复原任务中PSNR至少提高了3.77 dB,在真实世界退化场景下PIQE相比基线降低了34.8%。此外,该方法对先前未见过的退化类型和级别展现出强大的泛化能力。我们还整理并发布了UIR-2.5M数据集,包含250万对复原样本,涵盖19种退化类型和超过200个退化级别,融合了合成与真实世界数据。数据集、源代码及模型可在https://github.com/MILab-PKU/MaskDCPT获取。
通过运用大型语言模型(LLMs)检索文档并生成自然语言响应,生成引擎如Google AI概览和ChatGPT,极大地提升了用户体验,并迅速成为搜索的新形态。它们的快速普及也催生了生成引擎优化(GEO)的需求,内容提供商渴望从中获得更多关注。本文介绍了AutoGEO,一个框架,旨在自动学习生成引擎在使用检索内容生成响应时的偏好,并重写网页内容以增加此类关注。AutoGEO首先引导前沿LLMs解释生成引擎偏好,并从这些解释中提取有意义的偏好规则。随后,它将这些偏好规则作为AutoGEO_API(一个基于提示的GEO系统)的上下文工程,以及作为基于规则的奖励来训练AutoGEO_Mini,一个成本效益高的GEO模型。在标准GEO-Bench及两个新构建的、使用真实用户查询的基准测试上的实验,证明了AutoGEO在增强内容关注度的同时保持搜索效用的有效性。分析确认了所学规则的鲁棒性及其捕捉不同领域独特偏好的能力,以及AutoGEO系统在内容优化中嵌入这些规则的能力。代码已发布于https://github.com/cxcscmu/AutoGEO。
统一多模态模型旨在同时实现视觉理解与生成,然而当前基准测试鲜少考察这两者的真正融合。现有评估要么将这两种能力孤立对待,要么忽视了那些本质上将它们耦合的任务。为填补这一空白,我们提出了Uni-MMMU,一个全面且学科意识强的基准测试,它系统性地展现了生成与理解在八个以推理为核心的领域(包括科学、编程、数学和谜题)之间的双向协同作用。每项任务均双向耦合,要求模型:(i)利用概念理解指导精确的视觉合成,或(ii)将生成作为分析推理的认知支架。Uni-MMMU整合了可验证的中间推理步骤、独特的真实答案,以及针对文本和视觉输出的可复现评分协议。通过对当前最先进的统一模型、仅生成模型和仅理解模型进行广泛评估,我们揭示了显著的性能差异和跨模态依赖性,为这些能力何时及如何相互强化提供了新见解,并为推进统一模型的发展奠定了可靠基础。
细粒度的视觉-语言理解要求视觉内容与语言描述之间实现精准对齐,这一能力在当前模型中仍显不足,尤其是在非英语环境下。尽管像CLIP这样的模型在全局对齐上表现优异,但在捕捉物体属性、空间关系及语言表达等细粒度细节方面往往力不从心,且对双语理解的支持有限。为应对这些挑战,我们推出了FG-CLIP 2,这是一款旨在提升英语和汉语细粒度对齐能力的双语视觉-语言模型。我们的方法融合了丰富的细粒度监督信息,包括区域-文本匹配和长文本描述建模,并辅以多种判别性目标。此外,我们引入了文本模态内对比(TIC)损失,以更好地区分语义相近的描述。通过在精心挑选的大规模英汉数据混合集上进行训练,FG-CLIP 2展现了强大的双语性能。为了支持严谨的评估,我们提出了一个针对中文多模态理解的新基准,包含长文本检索和边界框分类任务。在涵盖8个任务的29个数据集上的广泛实验表明,FG-CLIP 2超越了现有方法,在两种语言上均取得了最先进的成果。我们公开了模型、代码及基准,以促进未来在双语细粒度对齐领域的研究。
模型融合,特别是在指令型和思维型模型上的应用,已展现出卓越的推理效率。本文中,我们系统性地重新审视了最直接的权重插值这一简单融合方法。特别地,我们观察到模型插值遵循一个三阶段的演化范式,在推理轨迹上表现出独特的行为模式。这些动态特性为权衡性能与成本提供了原则性指导。实证结果表明,策略性插值后的模型在效率和效果上意外地超越了复杂的模型融合基线。我们进一步通过模型层级、模块及解码策略的广泛消融研究验证了这些发现。最终,本研究揭示了模型插值的内在机制,并为精确定制具备目标推理能力的模型提供了实用框架。代码已发布于https://github.com/wutaiqiang/MI{Github}。
近期,大型语言模型(LLMs)的研究进展主要集中在通过增加推理计算来提升测试时的推理能力,但往往以牺牲效率为代价。我们重新审视了测试时的行为,揭示了一个简单却未被充分探索的现象:推理的不确定性高度局部化——仅有一小部分高熵的token对输出的正确性起主导作用。基于这一发现,我们提出了最小化测试时干预(MTI),这是一个无需额外训练即可提升推理准确性和稳定性的框架,且开销极小。MTI包含两个关键策略:(i)选择性CFG干预,仅在不确定的位置应用无分类器指导;(ii)轻量级负提示指导,通过重用主模型的KV缓存来高效近似无条件解码。MTI在通用任务、编程任务及STEM任务上均取得了稳定的性能提升——例如,在Qwen3-8B-Base模型上,八个基准测试平均提升了1.35%;在AIME2024测试中,使用Qwen3-32B-Reasoning模型提升了5%,同时保持了极高的效率。
仅解码器(Decoder-only)的Transformer架构因其卓越性能已成为大型语言模型(LLMs)的标准配置。近期研究表明,在预训练的LLMs中,早期、中期和晚期层可能承担着不同的功能:早期层专注于理解输入上下文,中期层处理特定任务,而晚期层则将抽象表示转化为输出词元。我们提出假设,一旦表示经过早期和中期层的处理,所得隐藏状态可能已蕴含足够信息,仅通过晚期层即可支持生成多个词元,从而无需反复遍历早期和中期层。我们将这一推理范式称为直接多词元解码(Direct Multi-Token Decoding, DMTD)。与推测性解码不同,我们的方法无需引入额外参数、辅助程序或生成后验证。尽管在有限数据集上训练,经过微调的DMTD Qwen3-4B模型已展现出令人鼓舞的成果,实现了最高2倍的加速,且性能损失微乎其微。此外,我们的规模分析显示,随着训练数据集的扩大,其性能有望进一步提升。
可训练的稀疏注意力已成为解决大语言模型(LLMs)在长上下文处理中解码效率瓶颈的有力方案,它显著减少了内存访问,同时对任务性能影响甚微。然而,现有稀疏注意力方法仍存在一个关键限制:键值(KV)缓存的大小并未缩减,这限制了GPU上的批量大小,尤其是在大规模批量推理中,降低了解码吞吐量。本文中,我们发现可训练的稀疏注意力在相邻解码步骤间自然展现出强烈的令牌选择局部性,从而使得在不改变底层注意力计算的情况下实现KV缓存卸载成为可能。然而,这种固有的局部性尚不足以实现高效卸载,因为选定的KV对在CPU与GPU之间的传输仍主导着整体解码成本。基于这一洞察,我们提出了NOSA,一个专为原生支持KV缓存卸载而设计的可训练稀疏注意力框架。NOSA通过将令牌选择分解为查询感知与查询无关的组件,引入了显式的局部性约束,从而在保持与训练期间相同注意力计算的同时,减少了KV传输。我们使用NOSA预训练了一个10亿参数的模型,并进行了广泛的基准测试,结果表明,它在保持近乎无损性能的同时,相比基础的可训练稀疏注意力基线(InfLLM-V2),解码吞吐量最高提升了2.3倍。
机器人操作策略往往难以泛化到新物体上,这限制了其在实际应用中的效用。相比之下,认知科学研究表明,儿童通过掌握少量简单玩具,进而将这种技能应用于更复杂的物品,从而发展出可泛化的灵巧操作能力。受此启发,我们探讨机器人是否也能实现类似的泛化能力。我们的研究结果表明,机器人能够通过仅由四种基本形状(球体、长方体、圆柱体和圆环)随机组合而成的物体,学习到可泛化的抓取技能。我们证明,在这些“玩具”上进行训练,能够使机器人稳健地泛化到现实世界的物体上,展现出强大的零样本性能。关键在于,我们发现这种泛化能力源于我们提出的检测池化机制所诱导的以物体为中心的视觉表征。无论是在仿真环境还是实体机器人上评估,我们的模型在YCB数据集上实现了67%的现实世界抓取成功率,超越了依赖更多领域内数据的现有最先进方法。我们还进一步研究了通过改变训练玩具的数量与多样性以及每个玩具的示范次数,零样本泛化性能如何随之变化。我们相信,这项工作为机器人操作中的可扩展与可泛化学习提供了一条充满前景的路径。演示视频、代码、检查点及我们的数据集均可在项目页面获取:https://lego-grasp.github.io/。
仅通过模仿学习(IL)训练的端到端自动驾驶模型往往泛化能力较差。相比之下,强化学习(RL)通过奖励最大化促进探索,但面临样本效率低下和收敛不稳定等挑战。一个自然的解决方案是将IL与RL相结合。我们超越了传统的两阶段范式(先进行IL预训练,再进行RL微调),提出了CoIRL-AD,这是一个竞争性的双策略框架,使IL和RL代理在训练过程中能够互动。CoIRL-AD引入了一种基于竞争的机制,既促进了知识交换,又避免了梯度冲突。在nuScenes数据集上的实验表明,与基线相比,碰撞率降低了18%,同时在长尾场景中展现出更强的泛化能力和性能提升。代码已发布于:https://github.com/SEU-zxj/CoIRL-AD。
近期,基于大语言模型的多智能体系统通过高效通信展现了显著的集体智能。然而,现有方法面临两大主要挑战:(i) 群体协作建模效果不佳,因其依赖图结构中的成对边表示,限制了捕捉多智能体间关系的能力;(ii) 通信拓扑设计缺乏任务适应性,导致简单任务下通信成本过高,而复杂场景下协调不足。这些问题制约了自适应协作框架的可扩展性和实际部署。为解决这些挑战,我们提出了HyperAgent,一种基于超图的框架,通过直接超边表示优化通信拓扑并有效捕捉群体协作模式。与基于边的方法不同,HyperAgent使用超边将同一子任务中的多个智能体连接起来,并利用超图卷积层实现协作群体中的一步信息聚合。此外,它结合了带有稀疏正则化的变分自编码器框架,根据任务复杂度动态调整超图拓扑。实验结果表明,HyperAgent在性能和效率上均表现出色。例如,在GSM8K数据集上,HyperAgent达到了95.07%的准确率,同时减少了25.33%的令牌消耗,展示了基于超图优化的多智能体通信潜力。
基于大语言模型(LLM)的推理系统近期在国际数学奥林匹克(IMO)2025竞赛中斩获金牌级表现,其撰写的数学证明要求每一步不仅正确,还需充分论证以获得满分。要在如此具挑战性且开放式的场景下训练基于LLM的推理器,具备捕捉步骤级错误能力的强大验证器是必不可少的先决条件。我们推出了Hard2Verify,这是一个经过人工标注、耗时超过500小时构建的步骤级验证基准。Hard2Verify旨在严格评估处于前沿的步骤级验证器:验证器需为前沿LLM针对最新、极具挑战性的开放式数学问题生成的回答提供步骤级标注,或识别出首个错误。我们评估了29个生成式批评器与过程奖励模型,结果表明,除少数佼佼者外,开源验证器普遍落后于闭源模型。随后,我们深入分析了导致步骤级验证表现不佳的原因、验证器计算规模扩展的影响,以及自我验证与验证-生成动态等基础性问题。
多轮文本转SQL旨在将用户的对话式表达转化为可执行的SQL查询,同时保持对话的连贯性并与目标数据库模式相契合。然而,现有系统大多仅将此任务视为简单的文本翻译,遵循短视范式,逐轮生成查询而不进行执行、显式验证和优化,导致输出不可执行或不连贯。我们提出了MTSQL-R1,一个面向长视域多轮文本转SQL的代理训练框架。我们将该任务建模为马尔可夫决策过程(MDP),其中代理与(i)数据库交互以获取执行反馈,(ii)持久对话记忆以进行连贯性验证,执行“提议执行->验证->优化”的迭代循环,直至所有检查通过。在COSQL和SPARC上的实验表明,MTSQL-R1持续超越强基线,凸显了环境驱动验证和记忆引导优化在对话式语义解析中的重要性。完整方案(包括代码、训练模型、日志、推理轨迹等)将在内部评审后发布,以助力社区研究。
多智能体大语言模型(LLM)系统正日益被应用于需要智能体间沟通与协调的复杂语言处理任务中。然而,这些系统常因智能体间重叠上下文的重复处理而承受巨大开销。在典型流程中,一旦智能体接收到前序节点的消息,包括先前轮次在内的完整上下文必须从头重新处理,导致处理效率低下。尽管键值(KV)缓存是避免单智能体场景中前缀不变时冗余计算的有效方案,但由于智能体特定上下文扩展引入的前缀差异,它无法直接应用于多智能体场景。我们识别出核心挑战在于跨智能体的KV缓存偏移量差异。为此,我们提出了KVCOMM,一个无需训练的高效预填充框架,通过复用KV缓存并在多样化前缀上下文中对齐重叠上下文的缓存偏移量,实现多智能体推理的高效性。KVCOMM通过参考一组缓存示例——称为锚点——来估计并调整共享内容的KV缓存,这些锚点存储了在不同前缀下观察到的缓存偏差。锚点池在线维护和更新,能够动态适应不同的用户请求和上下文结构。KVCOMM在包括检索增强生成、数学推理和协作编码任务在内的多种多智能体工作负载中实现了超过70%的复用率,且无质量下降。特别是在五智能体设置下,每个全连接智能体接收1K输入令牌,其中512为前缀令牌,512为输出令牌时,KVCOMM相比标准预填充流程实现了高达7.8倍的加速,将首次令牌生成时间(TTFT)从约430毫秒降至约55毫秒。
追踪器与视频生成器解决的是紧密相关的问题:前者分析运动,后者则合成运动。我们揭示了这一联系使得预训练的视频扩散模型能够通过简单地提示其随时间推移视觉标记点,实现零样本点追踪。我们在查询点放置一个颜色独特的标记,然后从中等噪声水平重新生成视频的其余部分。这一过程将标记跨帧传播,描绘出点的运动轨迹。为了确保在这种反事实生成中标记始终可见,尽管自然视频中此类标记并不常见,我们采用未编辑的初始帧作为负向提示。通过对多种图像条件视频扩散模型的实验,我们发现这些“涌现”的追踪轨迹超越了先前的零样本方法,并在遮挡情况下持续有效,其表现往往可与专门的自监督模型相媲美。
对齐训练存在权衡:它帮助语言模型(LMs)提升推理和指令遵循能力,但可能在创造力和校准等技能上有所欠缺,而这些正是未对齐的基础模型更擅长的。我们旨在通过模型协作实现两全其美,让训练管道中的不同模型相互协作、优势互补。鉴于LM响应中交织着适合不同模型的技能,我们提出了切换生成(Switch Generation),让预训练和对齐的模型版本在响应序列中轮流“发言”。具体而言,我们通过从多样查询和上下文中选择不同模型生成下一段的结果中学习,训练一个切换器LM。在推理时,切换器LM引导不同模型检查点动态生成最需要其优势的下一段。在8个模型协作基线和18个数据集上的广泛实验表明:1)模型协作在18个任务中的16个上持续超越单个模型;2)切换生成平均进一步超越基线12.9%。深入分析揭示,切换生成发现了组合技能,解决了单个模型难以应对的问题,并能泛化到未见过的模型和任务,重新利用和转化昂贵模型训练管道中通常被废弃的副产品。
基于大型语言模型的多智能体系统在复杂任务中通过协同合作表现出色,但在多轮深度搜索场景中却面临较高的失败率。现有的时序归因方法难以准确诊断根本原因,尤其是在错误跨多个智能体传播时。通过分析动作序列来自动化故障归因的尝试仍然效果不佳,因为它们无法考虑跨智能体的信息依赖关系。本文识别出两个核心挑战:(i) 在多智能体错误传播中区分症状与根本原因,以及 (ii) 追踪超越时序顺序的信息依赖关系。为解决这些问题,我们引入了GraphTracer框架,该框架通过信息流分析重新定义了故障归因。GraphTracer构建信息依赖图(IDGs),明确捕捉智能体如何引用并基于先前的输出进行构建。它通过追踪这些依赖结构而非依赖时序序列来定位根本原因。GraphTracer还利用图感知的合成数据生成技术,针对关键节点创建真实的故障场景。在Who&When基准测试中的评估及在生产系统中的集成表明,GraphTracer-8B相比最先进模型实现了高达18.18%的归因准确率提升,并在部署的多智能体框架中带来了4.8%至14.2%的性能改进,为多智能体系统调试提供了一个稳健的解决方案。
随着推理语言模型和测试时扩展方法作为提升模型性能的新范式兴起,通常需要大量计算资源从同一提示生成多个候选序列。这使得探索通往正确答案的不同推理路径成为可能,但同时也为每个提示分配了相同的计算预算。基于不同提示具有不同复杂度因而需要不同计算量的假设,我们提出了EAGer,一种无需训练的生成方法,它通过基于词元级熵分布来利用模型不确定性,从而减少冗余计算并同步提升整体性能。EAGer仅在遇到高熵词元时允许多条推理路径的分支,并将节省的计算预算重新分配给最需要探索替代路径的实例。我们发现,在AIME 2025等复杂推理基准测试中,EAGer无需访问目标标签即可重新分配计算预算,在推理长度和Pass@k指标上实现了最佳效率与性能的平衡。当目标标签可获取时,与全并行采样相比,EAGer生成的词元数量最多减少65%(从而节省计算资源),并在Pass@k上实现了高达37%的提升。
现代长上下文大语言模型(LLMs)在合成“大海捞针”(NIAH)基准测试中表现优异,但此类测试忽视了由偏置检索和代理工作流产生的噪声上下文。我们认为,构建能够真实反映现实世界关键因素的噪声长上下文——即来自异构偏置检索器的干扰和代理工作流中的级联错误——以测试模型的长上下文鲁棒性,必须进行“草堆工程”。我们通过HaystackCraft实例化了这一理念,这是一个基于完整英文维基百科超链接网络构建的新型NIAH基准测试,包含多跳问题。HaystackCraft评估了异构检索策略(如稀疏、密集、混合及基于图的检索)如何影响干扰项构成、草堆排序及下游LLM性能。此外,HaystackCraft将NIAH扩展至动态、依赖LLM的模拟代理操作场景,其中模型需优化查询、反思其先前推理并决定何时停止。对15个长上下文模型的实验表明:(1)尽管更强的密集检索器可能引入更具挑战性的干扰项,基于图的重排序同时提升了检索效率并减少了更有害的干扰项;(2)在代理测试中,即便是Gemini 2.5 Pro和GPT-5等先进模型,也会因自生干扰项遭遇级联失败或难以实现早期停止。这些结果凸显了代理长上下文推理中持续存在的挑战,并确立了HaystackCraft作为未来进展的重要测试平台。
大型语言模型(LLMs)展现出与人类相当甚至更优的语言能力,能够有效建模句法结构,然而其背后的具体计算模块仍不明确。一个核心问题是,LLM的行为能力是否源于与人类大脑相似的机制。为解答这些问题,我们引入了层次频率标记探针(HFTP),这一工具利用频域分析来识别LLM中编码句法结构的神经元级组件(如单个多层感知机(MLP)神经元)以及通过颅内记录获取的皮层区域。我们的研究结果表明,诸如GPT-2、Gemma、Gemma 2、Llama 2、Llama 3.1和GLM-4等模型在相似的层次处理句法,而人脑则依赖不同的皮层区域处理不同层次的句法。表征相似性分析显示,LLM的表征与大脑左半球(主导语言处理)有更强的对应关系。值得注意的是,升级版模型呈现出不同的趋势:Gemma 2比Gemma更接近大脑,而Llama 3.1与大脑的对应性则低于Llama 2。这些发现为LLM行为改进的可解释性提供了新视角,引发了关于这些进步是由类人还是非类人机制驱动的疑问,并确立了HFTP作为连接计算语言学和认知神经科学的重要工具。本项目可在https://github.com/LilTiger/HFTP获取。
随着DeepSeek-R1的问世,强化学习(RL)方法迎来了一波新浪潮,似乎解锁了更强大的数学推理能力。然而,深入审视开源生态系统后,我们发现了一个关键局限:在足够多的采样次数下(例如,pass@1024),许多现有基础模型已能解决广泛使用的数学基准测试(如MATH-500和AIME 2024)中的几乎所有问题。这表明,在大型语言模型(LLM)推理文献中盛行的RL微调方法,主要是对现有解题模式的精炼,而非发现全新的方法。这种精炼与RL的广泛承诺形成对比:即促进探索并获取新技能。为了突破这一瓶颈,我们引入了MATH-Beyond(MATH-B),这是一个特意构建的基准测试,旨在挑战参数规模高达8B的常见开源模型,即使在大规模采样预算下也难以应对。通过RL提升我们基准测试上的表现,需要开发能够超越基础模型在重复采样中能力的新推理方法。由于问题选自DAPO-Math-17K和DeepScaleR数据集的子集,它们仍与标准高中数学主题保持一致。验证我们的假设,如Nemotron-Research-Reasoning-Qwen-1.5B和DeepScaleR-1.5B-Preview等经过RL微调的模型在pass@1024下在MATH-B上表现不佳,揭示了现有方法在处理更难题例上的不足。我们希望MATH-B能激发探索驱动的RL方法,从而引发更深层次的推理能力。我们已在https://huggingface.co/datasets/brendel-group/MATH-Beyond发布MATH-B。
远程推理使得轻量级设备能够利用强大的云端模型。然而,通信网络延迟导致预测结果滞后,不适用于实时任务。为解决这一问题,我们提出了Dedelayed,一种延迟校正方法,能够缓解任意远程推理延迟,使本地设备能够实时生成低延迟输出。我们的方法采用了一个轻量级本地模型来处理当前帧,并融合由重量级远程模型从过去帧计算出的特征。在BDD100K驾驶数据集的视频上,Dedelayed在所有超过33毫秒的现实通信网络延迟下,均优于仅本地或仅远程的基线模型,提升了语义分割的准确性。在不引入额外延迟的情况下,与完全本地推理相比,其准确性提高了6.4 mIoU,与远程推理相比提高了9.8 mIoU,在100毫秒的往返延迟下。在更长延迟和更高运动场景下,这一优势更为显著,因为延迟缓解的分割推理更有效地保持了准确性,为必须与当前世界状态保持一致的实时任务提供了明显优势。
推理模型通过推理时的扩展提升其问题解决能力,即通过更长的token预算分配更多计算资源。识别哪些推理轨迹可能成功仍是一个关键机遇:可靠预测有效路径能大幅减少计算浪费并提升整体效率。我们引入了潜在轨迹信号,这些信号刻画了模型在生成中间推理token时内部表征的时间演变。通过测量推理开始与结束之间潜在表征的总体变化、中间步骤累积的变化,以及这些变化向最终状态推进的程度,我们发现这些信号比跨层度量和基于输出的置信度指标更能可靠地预测解答准确性。当用于指导多个采样生成间的答案选择时,潜在轨迹信号使得测试时的扩展比多数投票更为有效和高效,在保持甚至平均提升2.6%准确率的同时,将token使用量减少高达70%。此外,这些预测信号常在推理轨迹早期显现,使得能够早期选择并分配计算资源给最有希望的候选。我们的发现不仅为推理时效率提供了实用策略,还从更深层次的可解释性视角揭示了推理过程在潜在空间中的表示与区分方式。
大型语言模型(LLMs)的兴起为游戏环境中创建动态非玩家角色(NPCs)开辟了新机遇,不仅实现了功能性任务执行,还确保了角色一致性对话的生成。本文中,我们(Tu_Character_lab)报告了参与2025年第二回合常识性角色基础对话挑战赛(CPDC)的情况,该赛事评估了代理在三个赛道上的表现:任务导向对话、上下文感知对话及其整合。我们的方法结合了两种互补策略:(i) 在API赛道采用轻量级提示技术,包括一种去角色化提示方法,以抑制过度角色扮演并提升任务忠实度;(ii) 在GPU赛道微调大型模型,利用Qwen3-14B进行监督微调(SFT)及低秩适应(LoRA)。我们的最佳提交在任务1中排名第二,在任务3(API赛道)中排名第二,在任务3(GPU赛道)中排名第四。
推理不仅仅是解决问题——它还关乎评估哪些问题真正值得解决。历史上,对人工智能(AI)系统的评估主要聚焦于问题解决能力,通过研究模型如何下棋或玩围棋等游戏来进行。本文中,我们倡导一种新范式,即评估AI系统对游戏的评价能力。首先,我们引入了一种形式化方法来评估此类评价。随后,我们利用一个包含超过100种新颖棋盘游戏及450多份人类评判的大规模数据集,将现代语言与推理模型产生的评价与人类及符号计算代理的评价进行对比。我们考察了两种评价性查询:评估游戏的收益(或公平性)和趣味性。这些查询涵盖了设计AI评价评估的两个相关维度:查询的计算复杂度及其量化难度。我们的结果表明,在游戏评价上,推理模型通常比非推理语言模型更贴近人类判断。然而,我们观察到一个非单调关系:随着模型趋近于博弈论最优,它们与人类数据的契合度反而减弱。此外,在评估趣味性时,模型间表现出更多的“波动性”,这与量化该查询的更大难度相符。跨查询与游戏,推理模型在评估查询时展现出高度可变且不可预测的资源消耗,这凸显了在语言与推理模型中融入更多资源理性元推理的重要性。