每日精选AI研究论文及翻译
多大型语言模型(Multi-LLM)系统通过整合不同大型语言模型的互补优势,实现了单一模型无法达到的性能与效率提升。在现有设计中,LLM之间通过文本进行交流,迫使内部表示转化为输出标记序列。这一过程不仅丢失了丰富的语义信息,还引入了逐标记生成的延迟。针对这些局限性,我们提出疑问:LLM能否超越文本进行交流?实验表明,通过丰富KV-Cache的语义,可以在不增加缓存大小的情况下提升响应质量,这支持了KV-Cache作为模型间交流的有效媒介。因此,我们提出了Cache-to-Cache(C2C),一种直接实现LLM间语义交流的新范式。C2C利用神经网络将源模型的KV-Cache投影并融合到目标模型的KV-Cache中,从而实现直接的语义传递。一个可学习的门控机制选择那些能从缓存交流中受益的目标层。与文本交流相比,C2C充分利用了双方模型的深层、专业化语义,同时避免了显式的中间文本生成。实验结果显示,C2C比单一模型平均准确率提高了8.5-10.5%,较文本交流范式提升了约3.0-5.0%,并在延迟上实现了平均2.0倍的加速。我们的代码已发布于https://github.com/thu-nics/C2C。
视觉标记化仍然是统一自回归范式下视觉理解与生成的核心挑战。现有方法通常采用离散潜在空间中的标记器,以与大型语言模型的标记对齐,然而量化误差可能限制语义表达能力,削弱视觉语言理解的效果。为此,我们提出了MingTok,一种新型连续潜在空间视觉标记器家族,旨在实现统一的自回归生成与理解。鉴于理解任务偏好判别性的高维特征,而生成任务则倾向于紧凑的低级编码,MingTok采用了一种三阶段序列架构,包括低级编码、语义扩展和视觉重建。基于此,Ming-UniVision消除了对任务特定视觉表示的需求,将多样化的视觉语言任务统一于单一的自回归预测范式之下。通过将理解和生成均表述为共享连续空间中的下一标记预测,它无缝支持多轮、上下文相关的任务,如迭代理解、生成与编辑。实证研究表明,采用统一的连续视觉表示能够调和理解与生成任务对标记器的竞争性要求,从而在两大领域均达到顶尖性能水平。我们期望这些发现能推动连续域内统一视觉标记化的发展。为惠及社区,我们已发布推理代码与模型权重。
我们推出Lumina-DiMOO,一款开源的基础模型,旨在实现无缝的多模态生成与理解。Lumina-DiMOO区别于以往的统一模型,它采用完全离散的扩散建模技术来处理跨多种模态的输入与输出。这一创新方法使Lumina-DiMOO在采样效率上超越了先前的自回归(AR)或混合AR-扩散范式,并能够灵活支持广泛的多模态任务,包括文本到图像生成、图像到图像生成(如图像编辑、主题驱动生成及图像修复等)以及图像理解。Lumina-DiMOO在多项基准测试中达到了业界领先水平,超越了现有的开源统一多模态模型。为了推动多模态与离散扩散模型研究的进一步发展,我们向社区公开了代码及模型检查点。项目页面:https://synbol.github.io/Lumina-DiMOO。
当前的大型语言模型(LLMs)和口语模型(SLMs)仅在用户完成其发言后才开始思考并采取行动。这种做法阻碍了模型在用户发言期间的互动能力,并可能导致高响应延迟,因为它需等待完整输入后再进行思考。因此,在接收完整输入后进行思考的模式并不适用于语音对语音的交互场景,其中实时、低延迟的交流至关重要。我们通过观察人类自然“边听边想”的现象来解决这一问题。本文中,我们提出了SHANKS,一个通用的推理框架,使SLMs能够在听取用户输入的同时生成未说出的思维链推理。SHANKS将输入语音以固定时长的片段流式传输,一旦接收到一个片段,便基于之前的所有语音和推理生成未说出的推理,而用户则继续发言。SHANKS利用这些未说出的推理来决定是否打断用户,并调用工具以完成任务。我们展示了SHANKS在两种场景下增强了用户与SLM的实时互动:(1)当用户逐步展示数学问题的解答时,SHANKS能够倾听、推理,并在用户犯错时打断,其打断准确率比不进行思考的基线模型高出37.1%;(2)在工具增强的对话中,SHANKS能在用户结束发言前完成56.9%的工具调用。总体而言,SHANKS推动了模型在整个对话过程中持续思考,而不仅仅是在一轮对话结束后。SHANKS的动画演示可访问https://d223302.github.io/SHANKS/查看。
视频扩散变换器(Video DiTs)在视频生成领域取得了显著进展,然而它们仍难以有效建模多实例或主体-客体间的交互关系。这引发了一个核心问题:这些模型内部是如何表征交互的?为解答此问题,我们精心构建了MATRIX-11K,一个包含交互感知标注和多实例掩码轨迹的视频数据集。基于此数据集,我们进行了系统性分析,从两个视角形式化地审视了视频DiTs:一是通过视频到文本的注意力机制评估语义基础,即名词和动词词元是否捕捉到了实例及其关系;二是通过视频到视频的注意力机制考察语义传播,即实例绑定是否在帧间持续存在。研究发现,这两种效应均集中于少数以交互为主导的层中。受此启发,我们提出了MATRIX,一种简单而有效的正则化方法,它通过将视频DiTs特定层的注意力与MATRIX-11K数据集中的多实例掩码轨迹对齐,从而增强了语义基础和传播。此外,我们还提出了InterGenEval,一个针对交互感知视频生成的评估协议。实验表明,MATRIX在提升交互真实性和语义对齐的同时,减少了漂移和幻觉现象。大量消融实验验证了我们的设计选择。代码和权重将予以公开。
近期,视觉与语言基础模型的显著进展极大地推动了多模态理解、推理和生成能力的发展,激发了人们将此类能力扩展至具身环境中的浓厚兴趣,这主要通过视觉-语言-动作(VLA)模型实现。然而,大多数VLA模型仍采用监督微调(SFT)进行训练,这种方法在分布变化下因误差累积而难以泛化。强化学习(RL)通过直接优化任务表现提供了一种有前景的替代方案,但现有尝试较为零散,缺乏一个统一的平台以公平、系统地比较不同模型架构和算法设计。为填补这一空白,我们推出了RLinf-VLA,一个统一且高效的框架,用于VLA模型的可扩展RL训练。该系统采用高度灵活的资源分配设计,解决了在RL+VLA训练中整合渲染、训练和推理的挑战。特别是,针对GPU并行化模拟器,RLinf-VLA实现了一种新颖的混合细粒度管道分配模式,训练速度提升了1.61倍至1.88倍。通过统一接口,RLinf-VLA无缝支持多种VLA架构(如OpenVLA、OpenVLA-OFT)、多种RL算法(如PPO、GRPO)及各类模拟器(如ManiSkill、LIBERO)。在模拟环境中,一个统一模型在130个LIBERO任务上达到了98.11%的完成率,在25个ManiSkill任务上达到了97.66%的完成率。除了实证性能外,我们的研究提炼出一套将RL应用于VLA训练的最佳实践,并揭示了这一融合中的新兴模式。此外,我们展示了在真实世界Franka机器人上的初步部署,其中RL训练的策略展现出比SFT训练更强的泛化能力。我们期待RLinf-VLA成为加速和标准化具身智能研究的基础。
大型语言模型(LLMs)推动了“氛围编程”的兴起,用户通过自然语言交互利用LLMs生成并迭代优化代码,直至其通过“氛围检验”。氛围检验与真实世界的人类偏好紧密相关,超越了单纯的功能性:解决方案应感觉恰当、代码清晰、意图得以保留且保持正确。然而,当前的代码评估仍固守于pass@k指标,仅捕捉功能正确性,忽视了用户日常应用的非功能性指令。本文假设,指令遵循是构成氛围检验中代表人类编程偏好的缺失环节,它超越了功能正确性。为了量化模型遵循代码指令的能力,我们引入了VeriCode,一个包含30种可验证代码指令的分类体系及其对应的确定性验证器。我们利用该分类体系扩充了现有的评估套件,创建了Vibe Checker,一个同时评估代码指令遵循与功能正确性的测试平台。通过对31个领先LLMs的评估,我们发现即使是最强大的模型也难以同时遵循多项指令,并表现出明显的功能退化。最重要的是,功能正确性与指令遵循的综合评分与人类偏好最为相关,其中后者在现实编程任务中成为主要区分因素。我们的研究揭示了氛围检验的核心要素,为基准测试和开发更符合用户编程偏好的模型提供了具体路径。
大型语言模型(LLMs)在处理知识密集型和复杂推理任务时,越来越多地依赖于多轮工具集成规划。现有实现通常依赖单一代理,但受限于上下文长度不足和工具响应噪声的问题。一个自然的解决方案是采用多代理框架,通过规划者与工作者代理来管理上下文。然而,现有方法尚不支持对工具集成多代理框架进行有效的强化学习后训练。为填补这一空白,我们提出了多代理工具集成策略优化(MATPO),它允许在单一LLM实例内,通过角色特定的提示,利用强化学习训练不同的角色(规划者与工作者)。MATPO基于规划者与工作者执行轨迹间的原则性信用分配机制设计,这一设计既避免了部署多个LLM带来的内存负担,又保留了角色专业化的优势。在GAIA-text、WebWalkerQA和FRAMES数据集上的实验表明,MATPO相较于单代理基线平均提升了18.38%的性能,并展现出对工具输出噪声更强的鲁棒性。我们的研究结果强调了在单一LLM内统一多代理角色的有效性,并为稳定高效的多代理强化学习训练提供了实用见解。
长序列建模面临着一个根本性的权衡:一方面,类似RNN的模型通过固定大小的压缩内存实现高效处理;另一方面,基于注意力机制的Transformer模型则通过无损增长的内存保持高保真度。受认知科学中多存储模型的启发,我们提出了一种人工神经网络的内存框架。该方法将Transformer的KV缓存作为无损短期记忆的滑动窗口,同时通过一个称为人工海马网络(AHN)的可学习模块,将窗口外的信息递归压缩为固定大小的紧凑长期记忆。为验证这一框架,我们采用现代RNN架构(包括Mamba2、DeltaNet和门控DeltaNet)实例化了AHN。在长上下文基准测试LV-Eval和InfiniteBench上的大量实验表明,增强AHN的模型始终优于滑动窗口基线,并实现了与全注意力模型相当甚至更优的性能,同时大幅降低了计算和内存需求。例如,在Qwen2.5-3B-Instruct中引入AHN,推理FLOPs减少了40.5%,内存缓存减少了74.0%,同时其在LV-Eval(128k序列长度)上的平均得分从4.41提升至5.88。代码已开源:https://github.com/ByteDance-Seed/AHN。
近期前沿模型采用长链式思维推理来探索上下文中的解决方案空间,从而获得更强的性能。尽管许多研究致力于通过蒸馏技术构建更小但能力不减的模型,但大多聚焦于英语领域,对于特定语言的推理机制知之甚少。为填补这一空白,我们首次引入**语言混合链式思维(Language-Mixed CoT)**,这一推理框架在英语与目标语言间切换,利用英语作为锚点,在优化推理能力的同时最小化翻译误差。以韩语为例,我们精心构建了**Yi-Sang**数据集:包含来自网络问答、考试、STEM及编程领域的579万条原生韩语提示;由Qwen3-32B生成的370万条长推理轨迹;以及一个精选的26万条高价值子集。我们训练了九种不同规模(4B至35B)的模型,涵盖六个系列(如Qwen2.5、Llama-3.1、Gemma-3等)。其中,最佳模型**KO-REAson-35B**实现了顶尖性能,以64.0±25的平均分位居榜首,在九项基准测试中五项排名第一,其余四项位列第二。中小型模型同样显著受益,在评估的九项基准上平均提升18.6分。消融实验表明,**语言混合链式思维**比单语链式思维更为有效,同时带来了跨语言和多模态性能的提升。我们公开了数据整理流程、评估系统、数据集及模型,以推动特定语言推理研究的进步。数据与模型集合详见:https://huggingface.co/KOREAson。
尽管非洲语言占全球语言总数的近三分之一,但在现代自然语言处理(NLP)技术中,这些语言却严重缺乏支持,其中88%被归类为在计算语言学领域严重代表性不足或完全被忽视。我们推出了非洲语言实验室(All Lab),这是一项全面的研究计划,旨在通过系统的数据收集、模型开发和能力建设来填补这一技术鸿沟。我们的贡献包括:(1)一个质量控制的数据收集流程,生成了涵盖40种语言的最大规模验证过的非洲多模态语音和文本数据集,包含190亿个单语文本标记和12,628小时的对齐语音数据;(2)广泛的实验验证表明,我们的数据集结合微调,相较于基线模型取得了显著提升,在31种评估语言中平均提高了23.69 ChrF++、0.33 COMET和15.34 BLEU分数;(3)一个结构化的研究项目,成功指导了十五位早期职业研究人员,建立了可持续的本地能力。我们与谷歌翻译的对比评估显示,在多种语言上具有竞争力,同时也识别出需要持续发展的领域。
追求计算效率推动了低精度格式在Transformer模型训练中的应用。然而,这一进展常因训练过程中的不稳定现象而受阻。本文首次从机制上解释了一个长期未解的故障案例:在低精度设置下使用Flash Attention进行训练时,会导致灾难性的损失爆炸。我们的深入分析揭示,该故障并非随机现象,而是由两个相互交织的因素引起:注意力机制中相似低秩表示的出现,以及低精度算术中固有舍入误差的累积效应。我们展示了这些因素如何形成误差积累的恶性循环,从而破坏权重更新,最终导致训练动态失控。为验证我们的发现,我们对Flash Attention进行了最小程度的修改,以减轻舍入误差的偏差。这一简单改动稳定了训练过程,证实了我们的分析,并为这一长期存在的问题提供了实用解决方案。
大型推理模型(LRMs)在复杂的多步推理任务中展现了强大的能力,为自动化优化建模开辟了新的机遇。然而,现有的领域适应方法最初是为早期指令调优模型设计的,往往无法充分利用现代LRMs的高级推理模式——特别是,我们发现直接对传统的非反思性数据集进行微调带来的提升有限。为了充分挖掘LRMs固有的推理能力,我们提出了CALM(轻量修正的校正适应框架),该框架在优化建模任务中逐步精炼LRMs的推理模式。在CALM中,专家干预者识别推理缺陷并提供简洁的修正提示,LRM则整合这些提示以生成改进的推理轨迹。这些干预仅修改了生成token的不到2.6%,但通过监督微调生成了高质量的数据用于软适应。随后,通过强化学习进一步优化适应后的模型。基于CALM,我们开发了STORM(智能思维优化推理模型),这是一个拥有40亿参数的LRM,在五个流行的优化建模基准测试中达到了68.9%的平均准确率,创下了新的记录,与一个6710亿参数的LRM性能相当。这些结果表明,基于提示的动态数据合成不仅保留了现代LRMs的推理模式,还放大了其推理能力,为在具有挑战性的优化建模任务中实现专家级性能提供了一条更有效且可扩展的路径。
强化学习(RL)近期已成为训练能够产生长链思维(LongCoT)的推理大语言模型(LLMs)的有效方法。然而,标准的RL“思考环境”中,状态由提示词及所有先前的推理标记构成,导致状态无界,迫使基于注意力的策略随着思维链的延长而承受二次方的计算负担。我们重新审视了环境本身,提出了马尔可夫思维范式,在此范式中,策略在固定大小的状态下推进推理,将思维长度与上下文规模解耦。这一变革直接带来了线性计算与恒定内存的收益。我们通过Delethink这一RL环境具体实现了这一理念,它将推理结构化为固定大小的片段。在每个片段内,模型如常进行思考;在片段边界,环境重置上下文并以简短的信息传递重新初始化提示。通过RL训练,策略学会在每段末尾书写足以无缝延续推理的文本状态。在此环境中训练的R1-Distill 1.5B模型,在8K标记的片段内进行推理,却能思考长达24K标记,与使用24K预算训练的LongCoT-RL相媲美甚至超越。随着测试规模的扩大,Delethink持续改进,而LongCoT则趋于平稳。线性计算的效果显著:我们实证估计,在平均96K思维长度下,LongCoT-RL需耗费27个H100月,而Delethink仅需7个。RL初始化阶段的分析显示,现成的推理模型(1.5B至120B)在多种基准测试中常能零样本生成马尔可夫轨迹,为大规模RL提供了有效正样本。我们的结果表明,重新设计思考环境是一个强有力的杠杆:它支持极长推理而不引入二次方开销,为高效、可扩展的推理LLMs开辟了道路。
长上下文模型(LCMs)在处理长序列方面展现了巨大潜力,推动了众多实际应用的发展。LCMs的成功可归因于其能够在上下文中定位隐含的关键信息以进行后续预测。然而,近期研究表明,LCMs往往容易受到上下文噪声(即无关的标记)的影响,这些噪声可能会误导模型的注意力。本文对上下文噪声进行了细致分析,并提出了一种有效的度量指标——积分梯度(IG)分数,用于检测和量化上下文中的噪声信息。我们的研究发现,即使是对检测到的上下文噪声进行简单缓解,也能显著增强模型对关键标记的关注,从而有利于后续预测。基于这一洞察,我们提出了上下文去噪训练(CDT),这是一种简单而有效的训练策略,旨在提升对关键标记的注意力,同时强化它们对模型预测的影响。在上下文窗口扩展和长上下文对齐设置下的四项任务中,广泛的实验验证了CDT的优越性。值得注意的是,采用CDT训练后,一个开源的8B模型能够达到与GPT-4o(51.00)相当的性能(50.92)。
Transformer模型在序列建模方面表现出色,但面临二次方复杂度的问题,而线性注意力虽提升了效率,却常在长上下文场景下牺牲召回准确率。本研究提出了一种新型混合架构——原生混合注意力(NHA),它将线性注意力与全注意力相结合,通过统一层设计实现了层内与层间的双重混合。NHA利用线性RNN更新键值槽以保持长期上下文信息,并通过滑动窗口补充短期令牌。随后,对所有键值对应用单一的softmax注意力操作,实现无需额外融合参数的逐令牌、逐头部的上下文依赖权重分配。层间行为通过滑动窗口大小这一单一超参数调控,可在保持所有层结构一致的同时,平滑调整于纯线性与全注意力之间。实验结果表明,NHA在召回密集型和常识推理任务上超越了Transformer及其他混合基线模型。此外,预训练的大语言模型(LLMs)可与NHA进行结构混合,在保持竞争力的准确率的同时,显著提升效率。代码已发布于https://github.com/JusenD/NHA。
大规模文本到图像扩散模型虽然功能强大,却面临着高昂的计算成本。现有的单次网络剪枝方法由于扩散模型的迭代去噪特性,难以直接应用于此类模型。为填补这一空白,本文提出了OBS-Diff,一种新颖的单次剪枝框架,能够实现大规模文本到图像扩散模型的精确且无需训练的压缩。具体而言,(i) OBS-Diff复兴了经典的“最优脑外科医生”(OBS)方法,使其适应现代扩散模型的复杂架构,并支持多种剪枝粒度,包括非结构化、N:M半结构化以及结构化(多头注意力机制头与前馈神经网络神经元)稀疏性;(ii) 为使剪枝标准与扩散过程的迭代动态相契合,通过从误差累积的角度审视问题,我们提出了一种新颖的时间步感知Hessian矩阵构建方法,该方法融入了对数递减权重方案,赋予早期时间步更大权重,以减轻潜在的误差累积;(iii) 此外,提出了一种计算高效的组序贯剪枝策略,以分摊昂贵的校准过程。大量实验表明,OBS-Diff在扩散模型的单次剪枝上达到了业界领先水平,在视觉质量仅有微小下降的情况下实现了推理加速。
大型语言模型(LLMs)的快速发展与现实世界的变迁,已超越了广泛使用的评估基准的静态特性,引发了对其在评估LLM事实准确性方面可靠性的担忧。尽管大量研究仍依赖于流行但陈旧的基准,这些基准与现实世界事实及现代LLMs的时间错位,以及它们对LLM事实准确性评估的影响,尚未得到充分探讨。因此,在本研究中,我们通过考察五个流行的事实性基准和八个不同年份发布的LLMs,对此问题进行了系统性调查。我们定制了一套最新的信息检索流程和三项指标,以量化基准的老化及其对LLM事实准确性评估的影响。实验结果表明,广泛使用的事实性基准中有相当一部分样本已过时,导致对LLM事实准确性的评估不可靠。我们希望我们的工作能为评估基准在LLM事实准确性评估中的可靠性提供一个测试平台,并激发更多关于基准老化问题的研究。代码可在https://github.com/JiangXunyi/BenchAge获取。
现有强化学习中提取奖励信号的方法通常依赖于标注数据和专门的训练划分,这种设置与人类直接从环境中学习的方式形成鲜明对比。在本研究中,我们提出了TTRV(测试时强化学习)方法,通过在推理时动态调整模型来增强视觉语言理解,且无需任何标注数据。具体而言,我们改进了群体相对策略优化(GRPO)框架,设计基于基础模型输出频率的奖励机制,同时对每个测试样本进行多次推理。此外,我们还提出通过同时奖励模型获得输出经验分布的低熵值来控制模型输出的多样性。我们的方法在物体识别和视觉问答(VQA)任务上均取得了显著提升,分别实现了高达52.4%和29.8%的改进,在16个数据集上的平均提升分别为24.6%和10.0%。值得注意的是,在图像识别任务中,应用于InternVL 8B的TTRV在8个基准测试上平均超越GPT-4o 2.3%,同时在VQA任务上保持高度竞争力,证明了测试时强化学习能够匹配甚至超越最强大的专有模型。最后,我们发现了测试时强化学习在视觉语言模型中的许多有趣特性:例如,即使在数据极度受限的场景下,仅对单个随机选取的未标注测试样本进行适应,TTRV仍能在识别任务中带来高达5.5%的非平凡改进。
在具身智能领域,一个根本性挑战在于开发表达力强且紧凑的状态表示,以实现高效的世界建模与决策制定。然而,现有方法往往难以达成这一平衡,产生的表示要么冗余过度,要么缺失任务关键信息。我们提出了一种无监督方法,利用轻量级编码器与预训练的扩散变换器(DiT)解码器,学习高度压缩的双令牌状态表示,充分发挥其强大的生成先验优势。我们的表示高效、可解释,并能无缝集成到现有的基于视觉语言动作(VLA)的模型中,在LIBERO基准上提升性能14.3%,在现实世界任务成功率上提升30%,且推理开销极小。更重要的是,我们发现通过潜在插值获得的这些令牌之间的差异,自然形成了高效的潜在动作,可进一步解码为可执行的机器人动作。这一涌现能力揭示出,我们的表示在无显式监督的情况下捕捉到了结构化动态。我们将此方法命名为StaMo,因其能够从静态图像编码的紧凑状态表示中学习到可泛化的机器人运动,挑战了当前依赖复杂架构和视频数据学习潜在动作的主流做法。由此产生的潜在动作还增强了策略协同训练,以10.4%的优势超越先前方法,并提升了可解释性。此外,我们的方法能有效扩展到多种数据源,包括真实机器人数据、仿真及人类第一人称视角视频。
近期,在加速多模态大语言模型(MLLMs)推理方面的努力主要集中于视觉令牌压缩。这些方法的有效性通常通过在既定基准上测量准确率下降来评估,比较压缩前后模型的性能。然而,这些基准最初设计用于评估MLLMs的感知与推理能力,而非专门针对压缩技术。因此,直接将其应用于视觉令牌压缩任务时,存在任务不匹配的问题。引人注目的是,我们的研究发现,在多个广泛使用的基准测试中,简单的图像下采样持续优于许多先进的压缩方法。通过大量实验,我们得出以下观察:(i) 当前基准对于视觉令牌压缩任务存在噪声。(ii) 下采样能够作为数据过滤器,评估视觉令牌压缩任务中样本的难度。基于这些发现,我们引入了VTC-Bench,这是一个包含数据过滤机制的评估框架,旨在去噪现有基准,从而实现对视觉令牌压缩方法更公平、更准确的评估。所有数据与代码均可访问https://github.com/Chenfei-Liao/VTC-Bench。
近年来,多模态大语言模型(MLLMs)发展迅速。然而,现有视觉任务方法常依赖间接表示,如将检测坐标生成为文本,这限制了性能并阻碍了分割等密集预测任务的实现。为克服这些挑战,我们提出了“Patch-as-Decodable Token”(PaDT)这一统一范式,使MLLMs能直接生成文本及多样化的视觉输出。PaDT的核心在于视觉参考标记(VRTs),它们源自查询图像的视觉补丁嵌入,并与大语言模型输出的文本标记无缝交织。随后,一个轻量级解码器将大语言模型的输出转化为检测、分割及定位预测。与先前方法不同,PaDT在每次前向传播中独立处理VRTs,并动态扩展嵌入表,从而提升定位能力及相似物体间的区分度。我们进一步为PaDT定制了训练策略,通过随机选择VRTs进行监督微调,并引入鲁棒的逐标记交叉熵损失。在四项视觉感知与理解任务上的实证研究表明,PaDT持续达到最先进性能,即便与规模显著更大的MLLM模型相比亦不逊色。代码已发布于https://github.com/Gorilla-Lab-SCUT/PaDT。
当前最先进的大型语言模型开发通常被理解为一个包含预训练和后训练的两阶段过程。我们指出,在此过程中需要增加一个称为强化中期训练的中间阶段,该阶段具有显著提升性能的潜力。本文正式定义了这一问题,并识别出三个关键挑战:(1) 因过多推理步骤导致的训练效率低下,(2) 对不平衡的令牌熵分布缺乏考虑,(3) 令牌信息利用不足。针对这些挑战,我们提出了RMT框架,这是一个高效、自适应且统一的强化中期训练框架,包含多项创新组件。具体而言,我们首先引入了一种动态令牌预算机制,以限制不必要的推理步骤并缓解模型的过度思考。接着,我们设计了一种基于课程的适应性采样方法,促进从易到难的令牌渐进学习路径。最后,我们提出了一种双重训练策略,将强化学习与下一令牌预测相结合,确保对关键令牌的针对性学习及所有令牌信息的充分利用。大量实验证明,RMT在语言建模任务中优于现有最先进方法,仅使用21%的推理长度即可实现高达+64.91%的性能提升。我们还展示了强化中期训练后获得的检查点能够有益于后续的后训练,在数学领域带来高达+18.76%的改进。
腕部视角观测对于VLA模型至关重要,因为它们捕捉到了精细的手-物交互,直接提升了操控性能。然而,大规模数据集鲜少包含此类记录,导致丰富的锚点视角与稀缺的腕部视角之间存在显著差距。现有世界模型无法弥合这一差距,因为它们需要腕部视角的首帧图像,因而无法仅凭锚点视角生成腕部视角视频。在这一差距中,近期如VGGT等视觉几何模型凭借几何与跨视角先验知识,为解决极端视角转换提供了可能。受此启发,我们提出了WristWorld,首个仅从锚点视角生成腕部视角视频的4D世界模型。WristWorld分两阶段运行:(i) 重建阶段,扩展VGGT并引入我们的空间投影一致性(SPC)损失,以估计几何一致的腕部视角姿态与4D点云;(ii) 生成阶段,采用我们的视频生成模型,从重建的视角合成时间连贯的腕部视角视频。在Droid、Calvin及Franka Panda上的实验展示了具有卓越空间一致性的最先进视频生成能力,同时提升了VLA性能,将Calvin上的平均任务完成长度提高了3.81%,并缩小了42.4%的锚点-腕部视角差距。
尽管语言模型(LMs)在自动化机器学习工程(MLE)方面取得了显著进展,但高质量MLE训练数据的获取仍受到极大限制。当前的MLE基准测试因依赖静态、手动策划的任务而存在可扩展性低、适用性有限的问题,这些任务的制作耗时且需大量人工投入。为此,我们引入了MLE-Smith,一个全自动的多智能体流程,通过高效的生成-验证-执行范式,将原始数据集转化为竞赛风格的MLE挑战,旨在实现MLE任务的可扩展性,同时确保任务质量的可验证性、现实世界的实用性及丰富的多样性。MLE-Smith中的多智能体流程推动了结构化任务设计与标准化重构,结合混合验证机制,严格实施结构规则与高层次语义合理性,并通过交互式执行进一步验证了任务的实际可解性与现实世界的保真度。我们将MLE-Smith应用于224个真实世界数据集,生成了涵盖多种类别、目标及模态的606项任务,证明MLE-Smith能在广泛的实际数据集上有效工作。对生成任务的评估显示,八种主流及前沿大语言模型在MLE-Smith任务上的表现与它们在精心设计的人工任务上的表现高度相关,凸显了MLE-Smith在扩大MLE任务规模的同时保持任务质量的有效性。
在线强化学习(RL)与扩散和流模型的整合,近期已成为一种颇具前景的方法,旨在使生成模型与人类偏好对齐。在去噪过程中,通过随机微分方程(SDE)进行随机采样,为RL探索生成多样化的去噪方向。尽管现有方法能有效探索潜在的高价值样本,但由于奖励信号稀疏且局限,导致偏好对齐效果欠佳。针对这些挑战,我们提出了一种新颖的细粒度GRPO(G^2RPO)框架,该框架在流模型的强化学习中实现了对采样方向的精确且全面的奖励评估。具体而言,引入了一种奇异随机采样策略,以支持逐步的随机探索,同时强化奖励与注入噪声之间的高度相关性,从而确保每次SDE扰动都能获得真实的奖励。同时,为了消除固定粒度去噪中固有的偏差,我们引入了多粒度优势集成模块,该模块聚合了在多个扩散尺度上计算的优势,从而对采样方向进行了更为全面和稳健的评估。在包括域内和域外评估在内的多种奖励模型上进行的实验表明,我们的G^2RPO显著优于现有的基于流的GRPO基线,凸显了其有效性和鲁棒性。
均匀信息密度(Uniform Information Density, UID)假说认为,有效的沟通应保持信息流的稳定性。在本研究中,我们重新审视了这一原则在大语言模型(LLM)推理轨迹中的应用,探讨步骤层面的均匀性是否反映了推理质量。为此,我们提出了一种基于熵的逐步信息密度度量方法,并引入了两种互补的均匀性衡量标准:局部与全局均匀性评分。通过对六个不同推理基准的实验,我们发现步骤层面的均匀性不仅提供了强有力的理论视角,还带来了实际的性能提升;例如,在AIME2025基准上,选择步骤层面信息密度更均匀的推理轨迹,相较于基线,准确率提升了10-32%。进一步分析显示,正确的推理轨迹倾向于避免信息密度的急剧波动,而错误的轨迹则表现出不规则的信息爆发。这些结果表明,受UID启发的信息密度度量在预测推理质量方面优于其他内部信号。研究结果强调了信息密度均匀性作为构建更可靠、准确推理系统的稳健诊断与选择标准的重要性。
过去十年间,U-Net 架构在医学图像分割领域占据主导地位,催生了数千种 U 型变体的发展。尽管其应用广泛,但目前仍缺乏一个全面的基准来系统评估这些变体的性能与实用性,主要原因在于统计验证不足以及对跨数据集效率和泛化能力的考量有限。为填补这一空白,我们推出了 U-Bench,这是首个大规模、统计严谨的基准测试,评估了 100 种 U-Net 变体在 28 个数据集和 10 种成像模态下的表现。我们的贡献体现在三个方面:(1) 全面评估:U-Bench 从统计鲁棒性、零样本泛化能力和计算效率三个关键维度评估模型。我们引入了一个新指标——U-Score,该指标综合捕捉性能与效率的权衡,为模型进展提供了部署导向的视角。(2) 系统分析与模型选择指导:我们总结了大规模评估中的关键发现,并系统分析了数据集特性和架构范式对模型性能的影响。基于这些洞察,我们提出了一个模型顾问代理,以指导研究人员为特定数据集和任务选择最合适的模型。(3) 公开可用性:我们提供了所有代码、模型、协议和权重,使社区能够复现我们的结果,并将基准测试扩展到未来的方法中。总之,U-Bench 不仅揭示了以往评估中的不足,还为下一个十年基于 U-Net 的分割模型奠定了公平、可重复且实际相关的基准测试基础。项目访问地址:https://fenghetan9.github.io/ubench。代码获取地址:https://github.com/FengheTan9/U-Bench。
通用事件边界检测(GEBD)旨在通过人类感知的视角解析长视频。然而,当前的GEBD方法需要处理完整的视频帧才能做出预测,这与人类在线实时处理数据的方式不同。为弥合这一差距,我们引入了一项新任务——在线通用事件边界检测(On-GEBD),旨在即时检测流媒体视频中的通用事件边界。该任务面临独特挑战,需在无法访问未来帧的情况下,实时识别无分类体系的微妙事件变化。为应对这些挑战,我们提出了一种新颖的On-GEBD框架——Estimator,其灵感来源于事件分割理论(EST),该理论解释了人类如何通过利用预测信息与实际信息之间的差异,将进行中的活动分割为事件。我们的框架包含两个关键组件:一致性事件预测器(CEA)和在线边界判别器(OBD)。具体而言,CEA仅基于先前帧生成反映当前事件动态的未来帧预测。随后,OBD测量预测误差,并通过对过去误差的统计测试自适应调整阈值,以捕捉多样且微妙的事件转换。实验结果表明,Estimator在Kinetics-GEBD和TAPOS数据集上不仅超越了所有基于近期在线视频理解模型改编的基线,而且达到了与先前离线GEBD方法相当的性能。
我们推出Heptapod,一种遵循语言建模基础原则的图像自回归模型。Heptapod采用因果注意力机制,摒弃了对CFG的依赖,并避开了语义分词器的流行趋势。我们的核心创新是二维分布预测:一个专注于重建的视觉分词器与因果Transformer相结合,学习在每个时间步预测整个二维空间网格上的图像分布。这一学习目标将自回归框架的序列建模与掩码自编码的整体自监督学习统一起来,使模型能够通过生成训练捕捉全面的图像语义。在ImageNet生成基准测试中,Heptapod取得了2.70的FID分数,显著超越了以往的因果自回归方法。我们希望我们的工作能激发对视觉信号乃至更广泛领域语言建模原则的重新思考。
基于大型语言模型(LLMs)或多模态大型语言模型(MLLMs)驱动的计算机使用代理(CUA)框架,正迅速成熟为能够在软件环境中直接感知上下文、推理并执行操作的助手。其中,操作系统(OS)控制是其最为关键的应用之一。随着CUA在OS领域的应用日益深入日常操作,审视其现实世界中的安全影响变得至关重要,特别是探究CUA是否可能被滥用来实施真实且与安全相关的攻击。现有研究存在四大局限:缺乏针对战术、技术及程序(TTP)的攻击者知识模型,端到端攻击链覆盖不完整,未考虑多主机及加密用户凭证的不真实环境,以及依赖LLM作为评判标准的不确定性。为填补这些空白,我们提出了AdvCUA,这是首个与MITRE ATT&CK企业矩阵中真实世界TTPs对齐的基准测试,包含140项任务,其中40项直接恶意任务、74项基于TTP的恶意任务及26项端到端攻击链,通过硬编码评估在多主机环境沙箱中系统性地评估CUA面临的企业OS安全威胁。我们基于8个基础LLM评估了现有的五大主流CUA,包括ReAct、AutoGPT、Gemini CLI、Cursor CLI及Cursor IDE。结果表明,当前前沿的CUA并未充分覆盖以OS安全为核心的威胁。CUA的这些能力降低了对定制恶意软件和深度领域专业知识的依赖,使得即便是经验不足的攻击者也能发起复杂的企业入侵,这引发了社会对CUA责任与安全性的广泛关注。
优化器的选择对大规模语言模型(LLMs)的训练效率和计算成本有着显著影响。近期,Muon优化器通过正交化参数更新、改善优化几何条件,展示了令人瞩目的成果。尽管Muon被视为Adam的潜在继任者,但联合利用两者优势的可能性尚未得到系统探索。本研究中,我们填补了这一空白,提出了NorMuon(神经元级归一化Muon),一种将正交化与神经元级自适应学习率协同结合的优化器。分析表明,Muon虽有效降低了条件数,但其更新导致神经元范数高度不均,致使某些神经元主导优化过程。NorMuon通过为每个神经元维护二阶动量统计量,并在正交化后实施行归一化,解决了这一失衡问题,确保参数利用均衡的同时保留了Muon的条件改善优势。为实现大规模实际部署,我们在FSDP2框架下开发了一种高效的分布式实现,策略性地将正交化计算分布至各设备。跨多个模型规模的实验证明,NorMuon在1.1B预训练设置下,训练效率较Adam提升21.74%,较Muon提升11.31%,同时保持与Muon相当的内存占用。我们的发现表明,正交化与自适应学习率是互补而非竞争的方法,为大规模深度学习中的优化器设计开辟了新路径。
文本到视频(T2V)生成技术具有变革多个领域的潜力,包括教育、市场营销、娱乐以及为视觉或阅读理解障碍人士提供的辅助技术,它能够从自然语言提示中生成连贯的视觉内容。自诞生以来,该领域已从对抗模型发展到基于扩散的模型,产生了更高保真度、时间一致性更强的输出。然而,挑战依然存在,如对齐、长程连贯性和计算效率。针对这一不断演变的局面,我们对文本到视频生成模型进行了全面综述,追溯了从早期生成对抗网络(GANs)和变分自编码器(VAEs)到混合扩散-Transformer(DiT)架构的发展历程,详细阐述了这些模型的工作原理、它们解决了前代模型的哪些局限,以及为何转向新的架构范式对于克服质量、连贯性和控制方面的挑战是必要的。我们系统性地介绍了这些文本到视频模型训练和评估所用的数据集,并为了支持可重复性和评估训练此类模型的可访问性,详细说明了它们的训练配置,包括硬件规格、GPU数量、批量大小、学习率、优化器、训练轮数及其他关键超参数。此外,我们概述了常用于评估此类模型的评价指标,并展示了它们在标准基准测试中的表现,同时讨论了这些指标的局限性及向更全面、感知对齐的评价策略转变的趋势。最后,基于我们的分析,我们概述了当前面临的开放挑战,并提出了几个有前景的未来研究方向,为未来研究者在推进T2V研究和应用方面探索和构建提供了视角。
我们推出AlphaApollo,一个旨在解决基础模型(FM)推理中两大瓶颈——有限模型内在能力与不可靠测试时迭代——的自进化代理推理系统。AlphaApollo通过协调多个模型与专业工具,实现了深思熟虑且可验证的推理过程。它结合了(i)计算工具(配备数值与符号库的Python)和(ii)检索工具(任务相关的外部信息),以执行精确计算并确保决策的落地。该系统进一步通过共享状态地图支持多轮次、多模型的解决方案演进,该地图记录了候选方案、可执行检查及迭代优化的反馈。在AIME 2024/2025的评估中,针对多个模型,AlphaApollo展现了稳定的性能提升:Qwen2.5-14B-Instruct模型在Average@32指标上提升了5.15%,Pass@32指标上提升了23.34%;Llama-3.3-70B-Instruct模型在Average@32指标上提升了8.91%,Pass@32指标上提升了26.67%。工具使用分析显示,超过80%的工具调用成功执行,持续超越非工具基线,从而提升了基础模型的能力上限。更多实证结果与实现细节将更新于https://github.com/tmlr-group/AlphaApollo。
常见的大型语言模型(LLM)评估依赖于示范样本来引导模型生成符合期望风格的响应。尽管使用的样本数量已被研究并标准化,但如何格式化这些样本的选择却较少被探讨。在评估协议和实际应用中,用户面临如何分隔上下文样本的选择:使用逗号?换行?分号?井号?等等。令人惊讶的是,我们发现这一看似微小的选择能显著影响模型响应的质量。在主流模型系列(如Llama、Qwen、Gemma)中,MMLU等任务上的表现可因分隔符的选择而波动高达±23%。实际上,仅通过修改分隔样本的单个字符,就能操控模型排名,使任一模型位居榜首。我们发现LLM的脆弱性普遍存在于不同主题和模型系列中,且不随模型规模扩大而改善。通过探查注意力头得分,我们发现表现良好的分隔符能引导注意力集中于输入中的关键标记。最后,我们探索了提升LLM对分隔符选择鲁棒性的方法。我们发现,在提示中明确指定所选分隔符能增强鲁棒性,并提供了关于最佳分隔符选择的实用建议。
代码转换(Code-switching, CSW),即在单一话语中交替使用不同语言和文字,即便在大规模语言模型(LLMs)快速发展的背景下,仍是多语言自然语言处理(NLP)领域的一项根本性挑战。大多数LLMs在处理混合语言输入时仍显吃力,受限于有限的CSW数据集及评估偏差,阻碍了其在多语言社会中的实际部署。本综述首次全面分析了关注CSW的LLM研究,回顾了横跨五大研究领域、12项NLP任务、30多个数据集及80多种语言的独特参考文献。我们依据架构、训练策略和评估方法对最新进展进行了分类,概述了LLMs如何重塑CSW建模,以及哪些挑战依然存在。文章最后提出了一份路线图,强调需要包容性数据集、公正评估及基于语言学的模型,以实现真正的多语言智能。所有资源的精选集合维护于https://github.com/lingo-iitgn/awesome-code-mixing/。
随着检索增强生成(RAG)技术的日益普及,强大的检索模型变得前所未有的重要。在医疗领域,结合文本与图像信息的多模态检索模型,在诸如问答、跨模态检索及多模态摘要等众多下游任务中展现出显著优势,因为医疗数据往往同时包含这两种形式。然而,目前尚缺乏一个标准基准来评估这些模型在医疗环境中的表现。为填补这一空白,我们推出了M3Retrieve——一个多模态医疗检索基准。M3Retrieve覆盖5大领域、16个医疗专业及4项具体任务,包含超过120万份文本文档和16.4万条多模态查询,所有数据均在授权许可下收集。我们在此基准上评估了领先的多模态检索模型,以探究不同医疗专业特有的挑战及其对检索性能的影响。通过发布M3Retrieve,我们旨在促进系统化评估,激发模型创新,并加速构建更强大、更可靠的多模态医疗检索系统的研究进程。数据集及基线代码已发布于GitHub页面:https://github.com/AkashGhosh/M3Retrieve。
大型语言模型(LLMs)在应对长篇问题时常常产生幻觉,给出看似合理实则错误的答案。一种常见的缓解策略是为LLM输出提供来源标注。然而,现有基准主要集中于简单的来源标注,即检索支持性文本证据作为参考。我们认为,在诸如金融应用等现实场景中,来源标注远不止于参考检索。为此,我们引入了FinLFQA,一个旨在评估LLMs针对复杂金融问题生成长篇回答并附带可靠且细致来源标注能力的基准。FinLFQA通过人工标注评估了来源标注的三个关键方面:(1)从财务报告中提取的支持性证据,(2)中间数值推理步骤,以及(3)指导推理过程的领域特定金融知识。此外,我们还提供了一个自动评估框架,涵盖答案质量和来源标注质量两方面。通过对八种LLM在多种来源生成范式下的广泛实验,我们发现细粒度指标对于区分模型能力至关重要,端到端生成与事后处理方法的性能相当,而迭代优化仅在外界反馈指导下才有效。
旅行规划(TP)智能体近来作为一种新兴的构建模块,通过与外部工具和资源的交互生成旅行行程,确保用户获得愉悦的体验。尽管其优势显著,现有研究多依赖于手工设计的提示词和固定的智能体工作流程,限制了TP智能体向更灵活自主的方向发展。本文提出DeepTravel,一种端到端的智能体强化学习框架,旨在构建自主的旅行规划智能体,该智能体能够自主规划、执行工具操作,并基于工具反馈进行反思,以在多步推理中探索、验证并优化中间行动。为实现这一目标,我们首先构建了一个稳健的沙盒环境,通过缓存交通、住宿及兴趣点数据,使TP智能体训练不受现实世界API限制(如输出不一致)的束缚。此外,我们开发了一套分层奖励模型系统,其中轨迹级验证器首先检查时空可行性并筛选不满意的旅行行程,随后回合级验证器进一步核实行程细节与工具响应的一致性,从而实现高效且精准的奖励服务。最后,我们提出了回复增强的强化学习方法,使TP智能体能够周期性地从失败经验缓冲区中回放,显著提升智能体能力。我们将训练后的TP智能体部署于滴滴企业版应用,并进行了全面的线上与线下评估,结果表明DeepTravel使得小型语言模型(如Qwen3 32B)在旅行规划任务中显著超越现有前沿语言模型,如OpenAI o1、o3及DeepSeek R1。
尽管现代视频生成模型在视觉保真度上表现卓越,但其生成的序列常常违背直观的物理定律,例如物体漂浮、瞬间移动或以违背因果关系的方式变形。虽然人类能轻易察觉这些不合理之处,但目前尚缺乏一种可靠的方法来定量评估视频中的物理真实性。本研究探讨了视频-语言模型(VLMs)是否能够被训练成为物理合理性的可靠评判者。我们发现,现有的VLMs在识别物理违规方面存在困难,暴露了它们在时间和因果推理上的根本局限。为解决这一问题,我们提出了TRAVL,一种结合了平衡训练数据集与轨迹感知注意力模块的微调方案,旨在提升VLMs中的运动编码与辨别能力。为了更严格地评估物理推理,我们引入了ImplausiBench,一个包含300个视频(150个真实,150个生成)的基准测试,它消除了语言偏见,专注于视觉-时间理解。性能评估既基于黄金标准的人类判断,也采用了更为严格的LLM作为评判者的指标。TRAVL与ImplausiBench共同构成了一个统一框架,用于探索并提升多模态模型中的物理合理性,为视觉-时间理解这一具有挑战性且尚未充分探索的领域提供了新的见解。
本研究深入探讨了基础模型在复杂动态环境中的推理与规划能力及其可扩展性。我们引入了PuzzlePlex这一基准测试,旨在通过一系列多样化的谜题来评估这些能力。PuzzlePlex包含15种类型的谜题,涵盖不同难度的确定性与随机性游戏,以及单人及双人场景。该框架为每类游戏提供了全面的环境支持,并具备可扩展性,能够随着基础模型的演进生成更具挑战性的实例。此外,我们还实现了定制化的游戏策略以供对比。基于此基准,我们开发了细粒度的性能度量指标,并在指令驱动与代码执行两种设置下,对前沿基础模型进行了深入分析。同时,我们系统地探究了它们的扩展极限。研究发现,在指令驱动设置下,推理模型表现优异;而代码执行虽面临更大挑战,却提供了一种可扩展且高效的替代方案。PuzzlePlex实现了针对性评估,并为未来基础模型在推理、规划及泛化能力上的改进提供了指导。
视觉自回归(AR)模型的出现彻底革新了图像生成领域,同时也为合成图像检测带来了新的挑战。与以往的GAN或基于扩散的方法不同,AR模型通过离散令牌预测生成图像,在图像合成质量上展现出显著提升,并在其向量量化表示中呈现出独特特征。本文提出利用离散分布差异感知的量化误差(D^3QE)进行自回归生成图像的检测,该方法挖掘了真实与伪造图像中存在的独特模式及码本频率分布偏差。我们引入了一种离散分布差异感知的Transformer,将动态码本频率统计融入其注意力机制中,融合语义特征与量化误差潜在信息。为评估该方法,我们构建了一个名为ARForensics的综合数据集,涵盖7种主流视觉AR模型。实验表明,D^3QE在不同AR模型间展现出卓越的检测精度和强大的泛化能力,并对现实世界中的扰动具有鲁棒性。代码已发布于https://github.com/Zhangyr2022/D3QE{https://github.com/Zhangyr2022/D3QE}。
时间序列插补(TSI)旨在恢复时序数据中的缺失值,由于现实场景中复杂且高频的缺失现象,这一任务始终面临根本性挑战。现有模型通常优化逐点重建损失,侧重于恢复数值(局部信息)。然而,我们观察到,在高缺失率下,这些模型在训练阶段表现良好,但在推理阶段却产生较差的插补结果和扭曲的潜在表示分布(全局信息)。这揭示了一个关键的优化困境:当前目标缺乏全局指导,导致模型过度拟合局部噪声,未能捕捉数据的全局信息。为解决这一问题,我们提出了一种新的训练范式——全局局部信息瓶颈(Glocal-IB)。Glocal-IB与模型无关,通过引入基于可处理互信息近似推导的全局对齐损失,扩展了标准IB框架。该损失将掩码输入的潜在表示与其原始观测对应项对齐,帮助模型在抑制缺失值引起的噪声的同时,保留全局结构和局部细节,从而在高缺失率下实现更好的泛化能力。在九个数据集上的广泛实验证实,Glocal-IB在缺失情况下持续提升了性能并实现了对齐的潜在表示。我们的代码实现可在https://github.com/Muyiiiii/NeurIPS-25-Glocal-IB获取。