每日精选AI研究论文及翻译
尽管扩散语言模型(DLMs)发展迅速,但近期许多模型的核心组件已趋于统一。然而这些组件分散在各自为政的研究代码库中,或缺乏透明实现,导致难以复现和扩展。随着该领域加速发展,我们亟需一个统一框架来标准化这些通用组件,同时保持足够灵活性以支持新方法和架构。 为填补这一空白,我们推出开源框架dLLM,它整合了扩散语言建模的核心环节——训练、推理与评估——并支持新设计的快速定制。通过dLLM,用户可使用标准化流程复现、微调、部署和评估LLaDA、Dream等开源大型DLMs。该框架还提供极简可复现方案,支持在可获取算力下从头构建小型DLMs,包括将任意BERT风格编码器或自回归语言模型转化为DLM。我们同时发布了这些小型DLMs的模型权重,以降低DLMs的研究门槛并加速未来探索。
GPU内核优化是现代深度学习的基石,但仍是需要深厚硬件专业知识的专门领域。尽管大语言模型在通用编程方面表现优异,但在CUDA内核生成任务上仍无法与torch.compile等基于编译器的系统相抗衡。现有的CUDA代码生成方法要么依赖无训练优化,要么在固定的多轮执行-反馈循环中进行模型微调,但这两种范式都未能从根本上提升模型的本质CUDA优化能力,导致性能提升有限。我们提出CUDA Agent——一个基于大规模智能体强化学习的系统,通过三个组件培养CUDA内核专长:可扩展的数据合成流水线、具备自动验证与分析功能的技能增强型CUDA开发环境(用于提供可靠奖励信号),以及实现稳定训练的强化学习算法技术。CUDA Agent在KernelBench上取得最先进成果,在Level-1、Level-2和Level-3三个层级上分别比torch.compile提速100%、100%和92%,在最难的Level-3场景下较Claude Opus 4.5和Gemini 3 Pro等最强专有模型领先约40%。
近期文本到图像生成技术的进展显著提升了视觉保真度与创造性,但同时也对提示词的复杂性提出了更高要求——尤其是在编码复杂空间关系方面。此类场景下,要获得令人满意的结果往往需要多次采样尝试。为应对这一挑战,我们提出了一种创新方法以增强现有图像生成模型的空间理解能力。我们首先构建了包含超过8万组偏好对比数据的SpatialReward数据集,并在此基础上开发出SpatialScore评分模型。该奖励模型专门用于评估文本到图像生成中的空间关系准确性,其性能甚至在空间评估指标上超越了主流专有模型。我们进一步证明,该奖励模型能有效支持复杂空间生成的在线强化学习。在多个基准测试上的大量实验表明,我们专门设计的奖励模型能为图像生成任务带来显著且持续的空间理解能力提升。
当前,多语言大语言模型(LLM)评估的可靠性因翻译基准的质量参差不齐而受到影响。现有资源常存在语义漂移和语境丢失问题,可能导致性能指标失真。本研究提出一种全自动框架,通过实现数据集与基准的高质量规模化翻译,以应对这些挑战。我们证明,采用测试时计算缩放策略——特别是通用自改进(USI)和我们提出的多轮排序方法T-RANK——相比传统流程能显著提升输出质量。该框架可确保基准在本地化过程中保留原始任务结构和语言细微差别。我们将此方法应用于八种东欧及南欧语言(乌克兰语、保加利亚语、斯洛伐克语、罗马尼亚语、立陶宛语、爱沙尼亚语、土耳其语、希腊语)的流行基准翻译。基于参考指标和LLM即评判器的评估表明,我们的翻译成果优于现有资源,能实现更精准的下游模型评估。我们同步发布该框架与优化后的基准数据集,以促进稳健可复现的多语言人工智能发展。
将视频生成从秒级扩展至分钟级面临一个关键瓶颈:短时视频数据丰富且保真度高,而连贯的长视频数据稀缺且局限于狭窄领域。为此,我们提出一种"模式寻求与均值寻求相融合"的训练范式,通过基于解耦扩散变换器的统一表征,将局部保真度与长期连贯性进行分离。该方法采用通过长视频监督学习训练的全局流匹配头来捕捉叙事结构,同时利用局部分布匹配头,通过模式寻求的反向KL散度将滑动窗口与冻结的短视频教师模型对齐。这一策略使得模型能够通过监督流匹配从有限的长视频中学习长程连贯性与运动模式,同时通过将学生模型的每个滑动窗口段与冻结的短视频教师对齐来继承局部真实性,最终实现快速生成分钟级长视频的少步采样。评估表明,我们的方法通过联合提升局部清晰度、运动自然度与长程一致性,有效弥合了保真度-时长差距。项目主页:https://primecai.github.io/mmm/。
推测解码技术通过采用轻量级草稿模型生成候选标记,再由目标模型并行验证的方式,加速自回归大语言模型(LLM)的推理过程。其加速效果主要取决于接受率,而标准训练方法将KL散度最小化作为代理优化目标。虽然KL散度与接受率具有相同的全局最优解,但能力有限的草稿模型通常会收敛至次优解,此时最小化KL散度并不能保证接受率最大化。针对该问题,我们提出LK损失函数——这种特殊训练目标直接以接受率为优化对象。在涵盖四种草稿架构和六种参数量从80亿到6850亿不等的目标模型的全面实验中,相较于基于KL散度的标准训练方法,我们的方案在所有配置下均实现了接受指标的稳定提升。我们在通用文本、代码和数学三大领域进行评估,报告显示平均接受长度最高可提升8-10%。LK损失函数具有实现简便、零计算开销的优势,可直接集成至现有推测训练框架,成为当前草稿训练目标极具吸引力的替代方案。
科学研究依赖准确引用来确保成果归属与学术诚信,然而大型语言模型(LLMs)带来了新的风险:生成的参考文献看似合理却对应着不存在的出版物。此类虚构引用已在多个顶级机器学习会议的投稿和录用论文中被发现,暴露出同行评审机制的脆弱性。与此同时,快速增长的参考文献列表使得人工核查难以实施,而现有自动化工具对嘈杂异构的引用格式适应性差,且缺乏标准化评估体系。我们提出了首个针对科学写作中虚构引用的综合基准与检测框架。通过多智能体验证流程,我们将引文核查分解为论点提取、证据检索、段落匹配、逻辑推理和校准判断等步骤,系统性评估引用来源是否真实支撑其论点。我们构建了跨领域的大规模人工验证数据集,并定义了引用忠实度与证据对齐的统一度量标准。基于前沿大型语言模型的实验揭示了大量引用错误,表明我们的框架在准确性与可解释性上显著优于现有方法。这项研究为LLM时代的引文审计提供了首个可扩展的基础设施,并为提升科学参考文献的可信度提供了实用工具。
组合泛化,即在陌生语境中识别熟悉部分的能力,是智能系统的本质特征。尽管现代模型通过海量数据集进行训练,但其覆盖的输入组合空间仍只是冰山一角,这引发了一个关键问题:表征需具备何种结构才能支持对未见组合的泛化?我们通过可分解性、可迁移性和稳定性三个标准,形式化定义了常规训练下的组合泛化要求,并证明这些要求会施加必要的几何约束:表征必须能线性分解为各概念的分量,且这些分量在概念间需保持正交。这为线性表征假说提供了理论依据:神经网络表征中广泛观察到的线性结构,实则是组合泛化的必然结果。我们进一步推导出维度界限,将可组合概念的数量与嵌入几何特性相关联。实证研究中,我们在现代视觉模型(CLIP、SigLIP、DINO)上验证这些预测,发现表征确实呈现部分线性分解特征,其概念因子具有低秩且近似正交的特性,且这种结构的完善程度与模型在未见组合上的组合泛化能力呈正相关。随着模型规模的持续扩大,这些条件可预测其可能收敛的表征几何形态。代码已发布于 https://github.com/oshapio/necessary-compositionality。
图像记忆性,即图像被记住的可能性,传统上在计算机视觉领域通常作为被动预测任务进行研究——模型通过回归标量分数进行预测,或通过生成方法修改视觉输入以提升图像被记住的概率。然而,这些范式均无法在拍摄阶段为用户提供支持,而此时的核心问题是如何提升照片的记忆性。我们提出了记忆性反馈任务,要求自动化模型在拍摄时为用户提供可操作、易于理解的指导,以增强图像的未来回忆效果。我们同时推出MemCoach方法,首次通过自然语言生成具体改进建议(如“强化面部表情”“突出主体前景”)。该方法基于多模态大语言模型,无需训练即可运作,并采用师生引导策略——通过将模型内部激活状态向教师模型从低到高记忆性样本中习得的记忆模式对齐。为系统评估这一新任务,我们进一步构建MemBench基准数据集,包含时序对齐的连拍摄影序列及记忆性标注分数。针对多种多模态大模型的实验表明,MemCoach能持续超越多个零样本模型,证明记忆性不仅可被预测,更能通过可操作的反馈指导人类创作者,实现从被动预测到主动引导的范式转变。
对比学习已成为现代表征学习的基石,使得能够利用海量无标签数据训练任务专用模型和通用(基础)模型。对比训练中的典型损失函数是InfoNCE及其变体。本研究表明,InfoNCE目标函数会在对比训练产生的表征中诱导出高斯结构。我们通过两个互补的论证体系证实了这一结论。首先,在满足特定对齐性和集中性假设的条件下,我们证明高维表征的投影会渐近地趋近多元高斯分布。其次,在较宽松的假设下,我们证实添加具有渐近消失特性的小规模正则化项(该正则项可促进低特征范数和高特征熵)也能获得类似的渐近结果。我们通过在合成数据集和CIFAR-10数据集上对不同架构和规模的编码器进行实验,验证了表征中普遍存在的高斯特性。这一视角为对比学习中常见的高斯现象提供了理论解释。由此建立的高斯模型使得对习得表征进行原理性分析成为可能,预计将支持对比学习中的广泛应用。
指称表达理解(REC)将语言与区域级视觉感知相连接。随着多模态大语言模型的发展,标准基准数据集(RefCOCO、RefCOCO+、RefCOCOg)虽进展迅速,但对视觉推理与定位能力的检验仍显薄弱:(i)多数表达过于简短,缺乏推理深度;(ii)图像中干扰物稀少,目标易于定位;(iii)冗余描述符使模型可通过捷径策略规避真正的文本理解与视觉推理。我们推出Ref-Adv这一现代REC基准,通过将语言复杂度更高的表达与仅能唯一确定目标的信息相配对,有效抑制捷径策略。该数据集包含真实图像上的指称表达,精心设计具有高干扰性的场景,并标注含否定语义在内的推理要素。我们通过全面消融实验(词序扰动与描述符删除充分性测试)表明,解决Ref-Adv需超越简单线索的推理能力。在对当代多模态大语言模型的评估中,尽管在RefCOCO系列数据集上表现优异,但模型在Ref-Adv上性能显著下降,揭示其对捷径策略的依赖及视觉推理与定位能力的不足。我们提供了深入的错误分析,旨在通过Ref-Adv为未来多模态大语言的视觉推理与定位研究提供指引。
本文针对低算力条件下的长视频理解这一关键且尚未充分探索的挑战,提出了LongVideo-R1——一种具备推理能力的主动式多模态大语言模型(MLLM)智能体,旨在实现高效视频上下文导航,避免穷举搜索带来的冗余。LongVideo-R1的核心在于其推理模块,该模块利用高层视觉线索推断最具信息量的视频片段以供后续处理。在推理过程中,智能体从顶层视觉摘要开始遍历,并迭代式细化关注区域,一旦获取足够回答查询的信息即终止探索过程。为支持训练,我们首先从带有定位标注的视频语料库CGBench中提取层次化视频描述,并指导GPT-5生成3.3万条高质量的工具增强思维链轨迹。LongVideo-R1智能体基于Qwen-3-8B模型通过两阶段范式进行微调:先进行监督微调(SFT),随后采用强化学习(RL),其中RL通过专门设计的奖励函数来最大化选择性片段导航的效率。在多个长视频基准测试上的实验验证了该方法的有效性,其在问答准确性与效率之间实现了更优的平衡。所有整理的数据和源代码均提供于补充材料中并将公开。代码与数据详见:https://github.com/qiujihao19/LongVideo-R1
掩码图像生成模型(MIGM)虽已取得显著成功,但其效率受限于双向注意力机制的多步计算。事实上,这类模型存在明显的计算冗余:当对离散标记进行采样时,连续特征中包含的丰富语义信息会丢失。现有研究尝试通过缓存特征来近似未来特征,但在激进加速比下会表现出较大近似误差。我们认为这源于其有限的表现力以及对采样信息的忽视。为填补这一空白,我们提出学习一个轻量级模型,该模型融合历史特征与已采样标记,并回归特征演化的平均速度场。该模型具有适中复杂度,既能捕捉细微动态变化,又保持相对于原始基础模型的轻量化特性。我们将所提方法MIGM-Shortcut应用于两种代表性MIGM架构与任务,尤其在最新Lumina-DiT模型上实现文本到图像生成质量无损的4倍以上加速,显著提升了掩码图像生成的帕累托前沿。代码与模型权重已开源:https://github.com/Kaiwen-Zhu/MIGM-Shortcut。
扩散模型虽能实现当前最优的视频生成质量,但由于需要大量连续去噪步骤,其推理过程仍显昂贵。这推动了加速扩散推理的研究热潮。在无需重新训练的加速方法中,缓存技术通过跨时间步复用先前计算的模型输出来减少计算量。现有缓存方法依赖启发式准则选择缓存/复用时间步,且需大量调参。我们通过一种基于敏感度的理论化缓存框架解决此局限。具体而言,我们通过分析模型输出对去噪输入(即含噪潜变量和时间步)扰动的敏感度,将缓存误差形式化,并证明该敏感度是预测缓存误差的关键指标。基于此分析,我们提出敏感度感知缓存(SenCache)——一种动态缓存策略,可基于单样本自适应选择缓存时间步。本框架为自适应缓存提供理论依据,解释了先前经验性启发式方法部分有效的原因,并将其扩展为动态的样本特异性方法。在Wan 2.1、CogVideoX和LTX-Video上的实验表明,在相同计算预算下,SenCache比现有缓存方法具有更好的视觉质量。
Transformer凭借其随上下文长度增长的内存容量,已成为序列建模领域绝大多数最新进展的事实基础架构。虽然这种特性在检索任务中具有合理性,但它导致了二次方复杂度,从而促使近期研究探索可行的次二次循环替代方案。尽管这些循环架构在多个领域展现出初步潜力,但在召回密集型任务中表现不及Transformer,这通常归因于其固定大小的记忆体。本文提出记忆缓存(MC)技术,通过缓存记忆状态(即隐藏状态)的检查点来增强循环模型。记忆缓存使RNN的有效记忆容量能够随序列长度增长,提供了在RNN的固定记忆复杂度(O(L))与Transformer的增长记忆复杂度(O(L²))之间灵活插值的权衡方案。我们提出MC的四种变体,包括门控聚合和稀疏选择机制,并探讨其对线性和深度记忆模块的影响。在语言建模和长上下文理解任务上的实验表明,MC能有效提升循环模型性能。上下文召回任务的结果显示,虽然Transformer达到最佳准确率,但我们的MC变体展现出具有竞争力的性能,显著缩小了与Transformer的差距,且优于当前最先进的循环模型。
大型语言模型(LLM)正朝着单一人工群体智能的方向收敛,其共享本性(预训练先验)导致分布多样性的严重坍缩,限制了创造性探索与科学发现所必需的多元视角。为解决此问题,我们提出通过认知进化范式为模型注入推理时培育(个性化认知轨迹),该范式包含探索、内化与表达三个阶段。我们通过PRISM(基于上下文结构建模的多元推理)实现这一范式——这是一个模型无关的系统,通过动态即时认知图谱增强LLM能力。在三个创造力基准测试中,PRISM实现了最优的新颖性指标,并显著扩展了分布多样性。此外,我们通过具有挑战性的罕见疾病诊断基准评估其实际效用。结果表明PRISM能成功发现标准LLM遗漏的长尾正确诊断,证实其发散性源于有意义的探索而非无序噪声。总体而言,本研究确立了多元人工智能的新范式,推动技术从单一共识转向由独特认知个体组成的多样化生态系统,实现集体多视角的发现能力。
生成式检索已成为基于大语言模型的推荐系统的重要范式。然而,工业推荐系统通常需要根据业务逻辑将输出空间限制在特定物品子集(例如强制要求内容新鲜度或商品品类),而标准的自回归解码方法无法原生支持这种约束。现有基于前缀树的约束解码方法在硬件加速器(TPU/GPU)上会产生严重的延迟代价。本文提出STATIC(面向约束解码的稀疏转移矩阵加速前缀树索引),这是一种专为TPU/GPU上高吞吐量生成式检索设计的高效可扩展约束解码技术。通过将前缀树扁平化为静态压缩稀疏行矩阵,我们将不规则树遍历操作转化为完全向量化的稀疏矩阵运算,从而在硬件加速器上实现显著的效率提升。我们在服务数十亿用户的工业级视频推荐平台上部署STATIC,该技术以极低的延迟开销(每步0.033毫秒,仅占推理时间的0.25%)带来显著的产品指标提升,相比CPU前缀树实现加速948倍,比硬件加速二分搜索基线快47-1033倍。更重要的是,STATIC在多种实际配置下均保持极低的运行时开销。据我们所知,STATIC实现了首个生产级严格约束生成式检索系统。在学术基准测试中,STATIC被证明能显著提升生成式检索的冷启动性能。代码已开源:https://github.com/youtube/static-constraint-decoding。
视觉语言模型(VLMs)虽已具备卓越的多模态理解与推理能力,但由于密集的视觉标记处理机制,其计算成本依然高昂。现有高效化方法通常通过合并冗余视觉标记或在语言主干网络中逐步丢弃标记来提升速度,但往往以牺牲精度为代价。本文提出DUET-VLM——一种通用即插即用的双阶段压缩框架,其包含:(a)在视觉编码器输出端进行仅视觉端的冗余感知压缩,生成信息保留型标记;(b)在语言主干网络中实施分层级的文本引导显著性丢弃策略,逐步剔除低信息量视觉标记。这种协同标记管理机制在实现激进压缩的同时保留了关键语义。在LLaVA-1.5-7B模型上,本方法仅用33%的标记量即可维持基线模型99%以上的精度,即使在标记减少89%的极端情况下仍能保持>97%的精度。通过训练期间的双阶段压缩,模型在标记减少67%时达到99.7%的精度,减少89%时仍保持97.6%的精度,在多基准测试中超越现有视觉标记压缩技术。当集成至Video-LLaVA-7B时,该方法甚至超越基线性能——在标记减少53.1%的情况下实现>100%的基准精度,并在标记减少93.4%的极端设定下保持97.6%的精度。这些结果表明,通过DUET-VLM的端到端训练,模型能在不损失精度的前提下稳健适应压缩后的视觉(图像/视频)输入,在相同计算预算下生成紧凑而语义丰富的表征。代码已开源:https://github.com/AMD-AGI/DUET-VLM。
基于指令的图像编辑模型(IIEMs)领域已取得显著进展。然而,尽管现有基准测试表明这类模型在遵循指令和推理能力方面表现优异,但其对小尺度物体的编辑能力仍待深入探索——这种能力对于真实图像和生成图像中的局部精准编辑与细节优化至关重要。本文提出首个专注于评估IIEMs小尺度物体编辑能力的基准测试DeepLookEditBench(DLEBench)。具体而言,我们构建了一个包含7类指令类型、总计1889个样本的挑战性测试集,其中目标物体仅占据图像面积的1%-10%,并涵盖部分遮挡、多物体编辑等复杂场景。为确保评估的鲁棒性,我们提出包含精细化评分标准的评估方案,通过双重评判标准(指令遵循度与视觉一致性)最大限度减少主观性和模糊性。该方案还引入了双模式评估框架(工具驱动模式与先知引导模式),以解决LMM-as-a-Judge评判方式与人类评判在DLEBench上存在的偏差。对10个IIEMs的实证研究揭示了当前模型在小尺度物体编辑方面存在的显著性能差距,表明需要专门化的基准测试来推动该能力的发展。
语境工程已成为释放大型语言模型在软件工程任务中潜力的关键范式,无需模型微调即可在测试阶段提升性能。尽管成效显著,现有研究仍缺乏针对软件工程的系统化语境分类体系,以及用于量化不同语境在核心软件工程流程中异构效应的专用基准。为填补这一空白,我们提出CL4SE(软件工程语境学习基准),该基准具备精细划分的四类软件工程导向语境(可解释示例、项目特定语境、程序化决策语境、正负向语境),并分别映射至代表性任务(代码生成、代码摘要、代码审查、补丁正确性评估)。我们构建了包含30余个开源项目超13,000个样本的高质量数据集,通过九项指标评估五种主流大型语言模型。大量实验表明,语境学习使所有任务平均性能提升24.7%。具体而言:程序化语境将代码审查性能最高提升33%(Qwen3-Max),混合正负向语境使补丁评估提升30%(DeepSeek-V3),项目特定语境将代码摘要BLEU值提高14.78%(GPT-Oss-120B),可解释示例使代码生成PASS@1提升5.72%(DeepSeek-V3)。CL4SE建立了首个软件工程语境学习标准化评估框架,为任务导向的语境设计提供可操作的实证依据,并开源大规模数据集以推动该领域可复现研究。
强化学习(RL)后训练技术近期显著提升了长链思维推理大语言模型(LLM)的性能,但这类模型的高推理成本催生了向更小型学生模型的知识蒸馏需求。现有知识蒸馏(KD)方法多针对监督微调(SFT)设计,依赖固定的教师轨迹或基于师生KL散度的正则化。当与强化学习结合时,这些方法常面临分布失配和目标冲突问题:教师监督可能与学生动态演化的策略分布不匹配,而KL正则项会与奖励最大化目标相互竞争,需要精细的损失平衡。为解决这些问题,我们提出强化学习感知蒸馏(RLAD),在RL过程中实施选择性模仿——仅当能改进当前策略更新时,才引导学生模型向教师模型靠拢。其核心组件信任域比率蒸馏(TRRD)采用PPO/GRPO风格的似然比目标替代师生KL正则项,该目标锚定于教师-旧策略混合分布,在学生模型的策略轨迹上实现优势感知、信任域约束的蒸馏,自然平衡探索、利用与模仿三大目标。在多项逻辑推理与数学基准测试中,RLAD持续优于离线蒸馏、标准GRPO以及基于KL的正则化师生知识蒸馏方法。
尽管当代大型语言模型(LLM)在独立运行时已展现出日益强大的能力,但仍有诸多复杂问题超出了单个LLM的解决范围。针对此类任务,如何将多个LLM作为组件整合为更强大的系统仍存在不确定性。本立场文件提出,设计此类模块化语言智能体的潜在蓝图可借鉴现有认知模型与人工智能(AI)算法研究。为阐明这一观点,我们形式化地提出了智能体模板的概念——该模板既规定了单个LLM的角色定位,也明确了其功能组合方式。随后,我们系统梳理了文献中各类现有语言智能体,重点揭示了那些直接源于认知模型或AI算法的底层模板。通过凸显这些设计范式,我们旨在引导学界关注以认知科学和AI为启发的智能体模板,将其作为开发高效、可解释语言智能体的有力工具。