每日精选AI研究论文及翻译
我们推出DC-VideoGen,一种用于高效视频生成的后训练加速框架。DC-VideoGen可应用于任何预训练的视频扩散模型,通过轻量级微调将其适配至深度压缩的潜在空间,从而提升效率。该框架基于两大创新:(i) 深度压缩视频自动编码器,采用新颖的块因果时序设计,在保持重建质量及对更长视频泛化能力的同时,实现了32倍/64倍的空间压缩和4倍的时间压缩;(ii) AE-Adapt-V,一种稳健的适应策略,能够快速且稳定地将预训练模型迁移至新的潜在空间。使用DC-VideoGen对预训练的Wan-2.1-14B模型进行适配,仅需在NVIDIA H100 GPU上耗费10个GPU日。加速后的模型在不牺牲质量的前提下,推理延迟最多降低14.8倍,并进一步支持在单GPU上生成2160x3840分辨率的视频。代码地址:https://github.com/dc-ai-projects/DC-VideoGen。
扩散大语言模型(dLLMs)作为自回归生成的一种有前景的替代方案,近期在研究界引起了广泛关注,其优势在于并行令牌预测和更低的推理延迟。然而,它们的并行解码潜力在很大程度上仍未得到充分探索,因为现有的开源模型仍需接近令牌长度的解码步骤来确保性能。为此,我们提出了dParallel,一种简单而有效的方法,旨在释放dLLMs的固有并行性以实现快速采样。我们发现,并行解码的关键瓶颈在于掩码令牌的序列确定性收敛。基于这一洞察,我们引入了方法的核心:确定性强制蒸馏,这是一种新颖的训练策略,它通过蒸馏模型使其遵循原始采样轨迹,同时强制模型更快且并行地达到对掩码令牌的高确定性。跨多个基准的广泛实验表明,我们的方法能显著减少解码步骤,同时保持性能。将dParallel应用于LLaDA-8B-Instruct模型时,在GSM8K数据集上,解码步骤从256减少到30,实现了8.5倍的加速且无性能损失。在MBPP基准测试中,解码步骤从256降至24,带来了10.5倍的加速,同时保持了准确性。我们的代码可在https://github.com/czg1225/dParallel获取。
强化学习(Reinforcement Learning, RL)在提升大型语言模型(Large Language Models, LLMs)的推理能力方面展现了显著成效。相较于基于结果的RL,过程监督强化学习(Process-Supervised RL, PSRL)作为一种更为有效的范式崭露头角。然而,现有的PSRL方法在探索效率上存在局限,无论是分支位置的选择还是采样策略。本文提出了一种新颖的PSRL框架——AttnRL,旨在为推理模型实现高效探索。基于初步观察,即高注意力分数步骤与推理行为密切相关,我们建议从高价值位置进行分支。此外,我们开发了一种自适应采样策略,该策略综合考虑问题难度及历史批次大小,确保整个训练批次保持非零优势值。为进一步提升采样效率,我们为PSRL设计了一步离策略训练流程。在多个具有挑战性的数学推理基准上的广泛实验表明,我们的方法在性能、采样及训练效率方面均优于现有方法。
尽管大型语言模型(LLMs)仅通过文本进行训练,却意外地形成了丰富的视觉先验知识。这些先验知识使得在相对少量的多模态数据下,能够解锁潜在的视觉能力以应对视觉任务,甚至在某些情况下,无需见过任何图像即可执行视觉任务。通过系统性分析,我们发现视觉先验——即在语言预训练过程中获得的关于视觉世界的隐性、涌现性知识——由可分离的感知与推理先验构成,各自具有独特的扩展趋势与来源。研究表明,LLM的潜在视觉推理能力主要通过对推理密集型数据(如代码、数学、学术文献)的预训练而发展,并呈渐进式扩展。这种从语言预训练中获得的推理先验具有可迁移性,并普遍适用于视觉推理。相比之下,感知先验则更广泛地源自多样化的语料库,且感知能力对视觉编码器及视觉指令调优数据更为敏感。同时,描述视觉世界的文本虽至关重要,但其对性能的影响迅速达到饱和。基于这些洞见,我们提出了一种以数据为中心的预训练方法,用于培养具备视觉意识的LLMs,并在1T令牌规模的预训练中验证了其有效性。我们的发现建立在超过100项控制实验和消耗50万GPU小时的基础上,涵盖了从LLM预训练到视觉对齐及监督式多模态微调的全流程MLLM构建,跨越五种模型规模、广泛的数据类别与混合方式,以及多种适应设置。除了主要发现外,我们还提出并验证了若干假设,并引入了多层次存在基准(MLE-Bench)。整体而言,这项工作为有意从语言预训练中培育视觉先验提供了新途径,为下一代多模态LLMs的发展铺平了道路。
随着基于大语言模型(LLM)的智能体日益融入现实生活场景,现有基准测试难以全面衡量其在处理海量信息、整合多样化资源及应对动态用户交互方面的内在复杂性。为此,我们推出了VitaBench,一个旨在评估智能体在真实世界情境下执行多功能交互任务的挑战性基准。VitaBench汲取了外卖配送、店内消费及在线旅游服务等日常应用场景,为智能体构建了迄今为止最为复杂的生活服务模拟环境,包含66种工具。通过一个摒弃领域特定策略的框架,我们实现了这些场景与工具的灵活组合,生成了100项跨场景任务(主要结果)和300项单一场景任务。每项任务均源自多个真实用户请求,要求智能体跨越时空维度进行推理,运用复杂工具集,主动澄清模糊指令,并在多轮对话中追踪用户意图的变化。此外,我们提出了一种基于评分标准的滑动窗口评估器,能够在复杂环境及随机交互中,对多样化的解决路径进行稳健评估。我们的全面评估显示,即便是最先进的模型,在跨场景任务上的成功率也仅为30%,而在其他任务上则不足50%。总体而言,我们相信VitaBench将成为推动AI智能体在实际应用中发展的重要资源。代码、数据集及排行榜可访问https://vitabench.github.io/获取。
我们推出了语音推理能力评估基准(VERA),这是一个在实时对话约束下评估语音交互系统推理能力的标准。VERA包含2,931个源自现有文本基准的语音原生场景,分为五个领域(数学、网络、科学、长上下文、事实)。每个项目均针对语音交互进行了适配,同时保留了推理难度。VERA支持在模型家族内直接进行文本与语音的对比,并有助于分析架构选择如何影响可靠性。我们评估了12个当代语音系统,并与强大的文本基线进行了比较,观察到显著且一致的模态差距:在竞赛数学领域,领先的文本模型准确率达到74.8%,而其语音对应模型仅为6.1%;跨领域宏观平均,最佳文本模型准确率为54.0%,而语音模型仅为11.3%。延迟-准确性分析揭示了一个低延迟平台期,快速语音系统准确率集中在约10%,而要接近文本性能则需牺牲实时交互。诊断实验表明,常见的缓解措施效果有限。增加“思考时间”带来的提升微乎其微;将推理与叙述分离的解耦级联策略虽提高了准确性,但仍远不及文本水平,并引入了特有的基础/一致性错误。失败分析进一步揭示了原生流式、端到端及级联设计之间不同的错误特征。VERA为解耦思考与说话的架构提供了可复现的测试平台和针对性诊断,为衡量向既流畅又推理可靠的实时语音助手迈进提供了原则性方法。
现代大型推理模型的卓越能力主要通过在训练后采用监督微调和强化学习等技术得以释放。然而,这些改进背后的架构机制在很大程度上仍不透明。在本研究中,我们运用电路分析技术揭示,针对复杂推理的训练后处理催生了一类新型、功能专一的注意力头。这些注意力头共同支撑起结构化的推理与计算。通过对Qwen系列模型与DeepSeek蒸馏模型的对比分析,我们发现这些新兴注意力头在不同训练策略下呈现出不同的演化路径。蒸馏与监督微调促使稳定的推理头逐步累积;而群体相对策略优化则处于一种动态搜索模式:相对较少的注意力头被迭代激活、评估与剪枝,其存续紧密跟随任务奖励信号的波动。此外,我们发现可控的“思考开关”模型并不具备专门的思考头。相反,关闭显式推理会触发一组更广泛但效率较低的补偿性注意力头。通过消融实验与定性分析,我们将这些电路层面的动态与一个关键的性能权衡联系起来:增强的注意力头虽能助力解决复杂问题,但也可能引入过度思考的失败模式,如在简单任务上出现计算错误或逻辑循环。这些发现将电路层面的动态与宏观性能表现相连接,揭示了一个内在矛盾:复杂推理的获得往往以基础计算能力的削弱为代价。更广泛而言,我们的研究为未来训练策略的设计指明了方向,强调在开发有效推理策略的同时,需确保执行的可靠性与无差错性。
视听语音分离(AVSS)方法通过利用视觉线索来提取目标语音,在嘈杂的声学环境中展现了卓越的分离质量。然而,这些方法通常涉及大量参数且计算成本高昂,这在许多应用中难以接受,尤其是当语音分离仅作为后续语音处理的预处理步骤时。为解决这一问题,我们提出了一种高效的AVSS方法,命名为Dolphin。在视觉特征提取方面,我们开发了DP-LipCoder,一种双路径轻量级视频编码器,将唇部运动转化为离散的音频对齐语义标记。在音频分离方面,我们构建了一个轻量级的编码-解码分离器,其中每一层都集成了全局-局部注意力(GLA)模块,以高效捕捉多尺度依赖关系。在三个基准数据集上的实验表明,Dolphin不仅在分离质量上超越了当前最先进的(SOTA)模型,还在效率上实现了显著提升:参数数量减少超过50%,MACs降低超过2.4倍,GPU推理速度加快超过6倍。这些结果表明,Dolphin为现实世界中的高性能AVSS提供了一个实用且可部署的解决方案。我们的代码和演示页面已公开于http://cslikai.cn/Dolphin/。
近期强化学习(RL)方法显著提升了大型语言模型(LLMs)的规划能力,但其有效性的理论基础仍不明确。本研究通过一种可处理的基于图的抽象模型,探讨了RL的优势与局限,重点关注策略梯度(PG)和Q学习方法。我们的理论分析表明,监督微调(SFT)可能引入基于共现的伪解,而RL则主要通过探索实现正确规划,凸显了探索在促进更好泛化中的关键作用。然而,我们也发现PG存在多样性崩溃问题,即训练过程中输出多样性下降,甚至在达到完美准确率后依然持续。相比之下,Q学习具备两大优势:离策略学习及收敛时的多样性保持。我们进一步证明,为防止Q学习中的奖励欺骗,精心设计奖励机制是必要的。最后,将我们的框架应用于现实世界规划基准Blocksworld,我们证实了这些行为在实际中的显现。