每日精选AI研究论文及翻译
我们推出TurboDiffusion视频生成加速框架,该框架能在保持视频质量的同时,将端到端扩散生成速度提升100-200倍。TurboDiffusion主要依赖以下组件实现加速:(1)注意力加速:采用低比特SageAttention与可训练稀疏线性注意力(SLA)加速注意力计算;(2)步数蒸馏:通过rCM方法实现高效步数蒸馏;(3)W8A8量化:将模型参数和激活值量化为8比特,以加速线性层计算并压缩模型。此外,框架还融合了多项工程优化技术。 我们在Wan2.2-I2V-14B-720P、Wan2.1-T2V-1.3B-480P、Wan2.1-T2V-14B-720P和Wan2.1-T2V-14B-480P模型上进行了实验。结果表明,即使在单张RTX 5090 GPU上,TurboDiffusion也能实现100-200倍的视频生成加速,同时保持相当的视频质量。项目GitHub仓库已开源,包含模型检查点和易用代码,访问地址为:https://github.com/thu-ml/TurboDiffusion。
视觉语言模型(VLM)在通用理解方面表现卓越,但在动态空间推理(DSR)——即随时间推移对三维空间中物体几何属性与关系演变的推理——方面仍显薄弱,这主要源于可扩展的四维感知训练资源的匮乏。为从数据集、基准测试到模型层面全面弥合这一差距,我们推出DSR套件。首先,我们提出一种自动化流程,能够从真实场景视频中生成针对DSR的多选问答对。该流程通过利用现代视觉基础模型,提取丰富的几何与运动信息,包括相机位姿、局部点云、物体掩码、朝向及三维轨迹。这些几何线索支撑构建了用于学习的DSR-Train数据集,以及经人工优化的评估基准DSR-Bench。与现有工作相比,我们的数据突出强调:(i)真实场景视频源;(ii)物体与场景级别的三维需求;(iii)视角变换;(iv)多物体交互;(v)细粒度、过程化的答案。除数据外,我们提出轻量级几何选择模块(GSM),将几何先验无缝集成到VLM中。该模块能浓缩问题语义,并从预训练的四维重建先验中提取与问题相关的知识,将其压缩为一组紧凑的几何标记。这种定向提取避免了无关知识对模型的干扰。实验表明,将DSR-Train与GSM集成至Qwen2.5-VL-7B模型后,其动态空间推理能力显著提升,同时在通用视频理解基准上保持准确率。
文本-音视频生成技术旨在从自然语言中合成时序连贯的视频与语义同步的音频,然而其评估体系仍处于碎片化状态,常依赖单模态指标或范围狭窄的基准测试,难以捕捉复杂提示下的跨模态对齐、指令遵循及感知真实度。为突破此局限,我们提出T2AV-Compass——一个用于全面评估T2AV系统的统一基准,包含通过分类学驱动流程构建的500个多样化复杂提示,确保语义丰富性与物理合理性。此外,T2AV-Compass引入双层级评估框架,既整合了针对视频质量、音频质量及跨模态对齐的客观信号级指标,又结合了基于MLLM即评判器的主观协议来评估指令遵循度与真实感。对11个代表性T2AV系统的广泛测试表明,即使最强模型在人类级真实感与跨模态一致性方面仍存在显著差距,且在音频真实感、细粒度同步、指令遵循等方面存在持续缺陷。这些结果揭示了未来模型的巨大改进空间,同时彰显了T2AV-Compass作为推动文本-音视频生成技术发展的挑战性诊断测试平台的价值。
"一镜到底"技术代表着电影创作中一种独特而精妙的美学风格。然而其实践应用常受制于高昂成本与复杂的现实约束。尽管新兴视频生成模型提供了虚拟化替代方案,但现有方法通常依赖简单的片段拼接,往往难以保持视觉流畅性与时序连贯性。本文提出DreaMontage框架,该通用系统专为任意帧引导生成而设计,能够基于用户提供的多样化输入合成无缝、富有表现力且时长长的"一镜到底"视频。为实现这一目标,我们通过三个核心维度突破技术瓶颈:(i)在DiT架构中融入轻量级中间条件机制,通过采用能有效利用基础训练数据的自适应调优策略,解锁强大的任意帧控制能力;(ii)为提升视觉保真度与电影表现力,我们构建高质量数据集并实施视觉表达SFT阶段。针对主体运动合理性与转场平滑性等关键问题,采用定制化DPO方案显著提升生成内容的成功率与可用性;(iii)为实现长序列生成,设计内存高效的分段自回归推理策略。大量实验表明,我们的方法在保持计算效率的同时,能实现视觉惊艳且无缝连贯的"一镜到底"效果,助力用户将碎片化视觉素材转化为生动连贯的电影级一镜到底体验。
我们揭示了当前先进视觉语言模型(VLMs)中存在显著的流行度偏差:相比普通建筑,模型在著名建筑上的识别准确率最高可提升34%,这表明其依赖记忆而非泛化理解能力。为系统研究此现象,我们推出了该领域规模最大的开放基准数据集YearGuessr——包含来自157个国家的55,546张建筑图像,每张图像均标注有连续序数形式的建造年份(1001-2024)、GPS数据,以及作为流行度代理指标的页面浏览量。基于该数据集,我们将建造年份预测任务构建为序数回归问题,并引入流行度感知区间准确率指标来量化这种偏差。通过对30余个模型(包括我们提出的YearCLIP模型)的测试,基准结果证实:VLMs在热门记忆项上表现优异,但对非知名对象的识别能力显著不足,暴露出其推理能力的根本缺陷。项目页面:https://sytwu.github.io/BeyondMemo/
我们推出Nemotron 3 Nano 30B-A3B——一款采用专家混合架构的Mamba-Transformer混合语言模型。该模型基于25万亿文本标记进行预训练,其中包含较Nemotron 2新增的逾3万亿独特标记,并后续进行了监督微调与多环境大规模强化学习。相较于前代Nemotron 2 Nano,Nemotron 3 Nano在每次前向传播中激活参数不足半数的情况下实现了更高精度,其推理吞吐量最高可达同类开源模型(如GPT-OSS-20B和Qwen3-30B-A3B-Thinking-2507)的3.3倍,并在主流基准测试中表现更优。该模型展现出增强的智能体交互、推理及对话能力,支持高达100万标记的上下文长度。我们已在Hugging Face平台发布预训练模型Nemotron 3 Nano 30B-A3B Base与后训练模型Nemotron 3 Nano 30B-A3B的检查点。
高分辨率视频生成虽对数字媒体与电影至关重要,但受限于扩散模型的二次计算复杂度,实际推理难以实现。为此,我们提出HiStream——一种高效的自回归框架,通过三轴系统性冗余削减策略:i) 空间压缩:先以低分辨率去噪,再利用缓存特征进行高分辨率细化;ii) 时序压缩:采用分块处理策略与固定大小的锚点缓存,确保稳定推理速度;iii) 步长压缩:对后续缓存条件化的分块应用更少去噪步数。在1080p基准测试中,我们的核心HiStream模型(i+ii)在实现顶尖视觉质量的同时,去噪速度较Wan2.1基线提升最高达76.2倍且画质损失可忽略。加速变体HiStream+融合三项优化(i+ii+iii),相比基线实现107.5倍加速,在速度与质量间达成理想平衡,最终使高分辨率视频生成兼具实用性与可扩展性。
我们推出Nemotron 3系列模型——Nano、Super与Ultra三个版本。这些模型具备强大的智能体交互、推理和对话能力。该系列采用混合专家架构的Mamba-Transformer混合模型,实现了业界领先的吞吐性能,并支持高达100万token的上下文长度。Super和Ultra版本采用NVFP4精度训练,并引入创新性LatentMoE技术以提升模型质量。两款大模型还搭载MTP层以加速文本生成。全系模型均经过多环境强化学习后训练,可实现复杂推理、多步骤工具调用,并支持细粒度推理算力控制。最小尺寸的Nano模型在保持极高推理成本效益的同时,准确度超越同级别模型;Super版本专为协同智能体和高负载场景(如IT工单自动化)优化;旗舰型号Ultra则提供最顶尖的准确度与推理性能。Nano模型将随技术报告及本白皮书同步发布,Super与Ultra版本将于未来数月内陆续推出。我们将公开模型权重、前后训练软件工具链、训练配方以及所有具备再分发权限的数据集。
分词器为语言模型处理与表示文本提供了基础支撑。尽管分词技术至关重要,但由于难以单独衡量其影响,人们对分词在语言模型性能与行为中作用的理解仍十分有限。为应对这一需求,我们推出TokSuite——一套支持分词对语言模型影响研究的模型集合与基准测试平台。具体而言,我们采用相同架构、数据集、训练预算和初始化参数,训练了十四组仅分词器不同的同构模型。此外,我们还构建并发布了新型基准测试,专门衡量模型在可能影响分词效果的真实扰动场景下的性能表现。TokSuite通过稳健的解耦分析揭示了各类流行分词器的优势与局限,由此获得的一系列新发现阐明了分词器对语言模型的实际影响。
智能体强化学习日益依赖经验驱动的规模扩展,但现实环境仍存在非适应性、覆盖范围有限和难以扩展的问题。世界模型通过模拟经验为提升学习效率提供了可能路径,然而大型语言模型能否可靠承担此角色,以及在何种条件下能实质性地助力智能体,仍是悬而未决的问题。我们在基于文本的环境中研究这些问题——该环境为将语言建模重新诠释为交互下的状态预测提供了受控场景。我们提出三级评估框架用于检验基于LLM的世界模型:(i)保真度与一致性,(ii)可扩展性与鲁棒性,(iii)智能体效用。在五个代表性环境中的实验表明,经过充分训练的世界模型能保持连贯的潜在状态,随数据和模型规模实现可预测的扩展,并通过动作验证、合成轨迹生成和强化学习热启动来提升智能体性能。同时,这些收益关键取决于行为覆盖度和环境复杂度,由此划定了世界模型有效支持智能体学习的明确边界。
近期,通用基础模型的预训练技术取得显著进展,大幅提升了各类下游任务的性能。尽管以GPT为代表的自回归生成模型已彻底改变自然语言处理领域,但大多数视觉生成式预训练方法仍依赖于BERT风格的掩码建模,这种方式常常忽略视频分析所必需的时间信息。现有少数自回归视觉预训练方法存在语义定位不准、生成质量差等问题,导致语义理解能力不足。本研究提出NExT-Vid——一种创新的自回归视觉生成预训练框架,通过掩码下一帧预测实现图像与视频的联合建模。该框架引入上下文隔离的自回归预测器,将语义表征与目标解码解耦;同时采用条件流匹配解码器来提升生成质量与多样性。通过上下文隔离的流匹配预训练,我们的方法能学习到强表征能力。在大规模预训练模型上的大量实验表明,通过下游分类任务中的注意力探测评估,本方法在视觉表征学习方面持续优于以往的生成式预训练方法。
我们推出Streamo——一款作为通用交互式助手的实时流视频大语言模型。与现有仅聚焦问答或字幕生成的在线视频模型不同,Streamo能执行广泛的流视频任务,包括实时旁白解说、动作理解、事件描述、时序事件定位及时间敏感型问答。为实现这种多功能性,我们构建了Streamo-Instruct-465K,这是一个专为流视频理解定制的大规模指令遵循数据集。该数据集涵盖多样化时序语境与多任务监督机制,支持异构流式任务的统一训练。通过端到端的指令数据集训练与精简流程,Streamo在各类流式基准测试中展现出强大的时序推理能力、实时交互响应以及广泛的泛化性能。大量实验表明,Streamo成功弥合了离线视频感知模型与实时多模态助手之间的鸿沟,为实现在连续视频流中实现统一智能视频理解迈出关键一步。
检索增强生成(RAG)已成为大语言模型(LLM)处理需要领域专业知识或最新信息的知识密集型查询的重要范式。为应对单步检索难以解决的复杂多跳问题,研究者提出了结合强化学习的迭代式RAG方法。然而,现有迭代RAG系统通常在规划问题分解时未充分利用检索语料库的信息,导致检索效率低下,推理链错误累积进而影响性能。本文提出早期知识对齐(EKA)模块,该模块通过在迭代RAG系统中引入上下文相关的检索知识,使LLM在规划前与检索集实现对齐。在六个标准RAG数据集上的实验表明,EKA通过构建更坚实的推理基础,显著提升检索精度、减少错误传导,同时改善性能与效率。从信息熵角度的分析证明,早期知识的引入能减少推理过程中不必要的探索,使模型更聚焦于相关信息子集。此外,EKA作为一种无需训练的通用推理策略,可无缝扩展至大模型。跨数据集与检索语料库的泛化测试验证了方法的鲁棒性。总体而言,EKA在推进迭代RAG技术前沿的同时,揭示了强化学习增强框架中结构化推理与高效探索的关键交互机制。代码已发布于https://github.com/yxzwang/EarlyKnowledgeAlignment{Github}。
现有针对AI编程智能体的基准测试主要聚焦于孤立、单点任务,如修复错误或实现小型功能。然而现实世界的软件工程本质上是长期性工作:开发者需要解读高层级需求、规划跨多个文件的协同修改,并在保持现有功能的前提下通过多次迭代演进代码库。我们推出SWE-EVO基准测试,专门评估智能体应对这种长期性软件演进挑战的能力。该基准基于七个成熟开源Python项目的发布说明和版本历史构建,包含48项演进任务,要求智能体实现平均涉及21个文件的多步骤修改,并通过平均每个实例874项测试的全面测试套件进行验证。针对前沿模型的实验揭示出显著的能力差距:即便搭载OpenHands的GPT-5在SWE-EVO上也仅达到21%的解决率,而在单点任务的SWE-Bench Verified中达到65%。这表明当前智能体在持续性、多文件推理方面存在明显不足。我们还提出修复率这一细粒度指标,用于捕捉解决这类复杂长期任务过程中的部分进展。
本研究推出PhononBench——首个针对AI生成晶体动态稳定性的大规模基准测试平台。基于近期开发的MatterSim原子间势函数(在逾万种材料的声子预测中达到DFT精度水平),PhononBench对六种主流晶体生成模型产生的108,843个晶体结构实现了高效大规模声子计算与动态稳定性分析。该基准测试揭示了当前生成模型在确保动态稳定性方面的普遍局限:所有生成结构的平均动态稳定率仅为25.83%,表现最佳的MatterGen模型也仅达41.0%。进一步案例研究表明,在属性定向生成(以MatterGen的带隙条件生成为例)中,即便在0.5 eV的最佳带隙条件下,动态稳定率仍低至23.5%。在空间群控制生成中,高对称性晶体表现出更好的稳定性(如立方晶系可达49.2%),但所有受控生成的平均稳定率仍仅为34.4%。本研究的另一重要成果是甄别出28,119个在全布里渊区具备声子稳定性的晶体结构,为未来材料探索提供了大量可靠候选体系。通过建立首个大规模动态稳定性基准,本研究系统揭示了晶体生成模型的现存不足,为其朝向设计物理可存在材料的发展提供了关键评估标准与指引。所有模型生成的晶体结构、声子计算结果及PhononBench开发的高通量评估工作流将公开于https://github.com/xqh19970407/PhononBench。
大型语言模型(LLMs)的快速普及与多样化专业基准测试的涌现,亟需从碎片化的任务特定指标转向能够有效聚合多维度能力的整体竞争性排名体系。当前主要依赖静态评分的评估方法存在根本性局限:既难以确定不同基准测试间的合理混合比例,更无法捕捉模型在连续高风险任务中的动态竞争适应性及其脆弱性。为此,我们提出创新的竞争性瑞士制动态评估框架(CSD)。该框架通过多轮次序列化竞赛模拟,使模型根据累计胜负记录在精选基准序列中动态配对,并采用蒙特卡洛模拟(N=100,000次迭代)计算统计稳健的期望胜率得分(E[S_m]),以消除随机配对和早期轮次运气干扰。此外,我们通过参数化每轮淘汰数量(T_k)实施失败敏感性分析,从而根据风险偏好描绘模型特性——区分稳健通才型与激进专才型模型。实验证明,相较于传统聚合评分与静态配对模型,CSD能提供更精细且上下文感知的排名,标志着向风险感知的新一代LLM评估迈出关键一步。