每日精選AI研究論文及翻譯
我們推出TurboDiffusion影片生成加速框架,該框架能在保持影片品質的同時,將端到端擴散生成速度提升100-200倍。TurboDiffusion主要依賴以下組件實現加速:(1) 注意力加速:採用低比特SageAttention與可訓練稀疏線性注意力(SLA)加速注意力計算;(2) 步數蒸餾:通過rCM方法實現高效步數蒸餾;(3) W8A8量化:將模型參數與激活值量化至8比特,以加速線性層運算並壓縮模型。此外,框架還整合了多項工程優化技術。 我們在Wan2.2-I2V-14B-720P、Wan2.1-T2V-1.3B-480P、Wan2.1-T2V-14B-720P及Wan2.1-T2V-14B-480P模型上進行實驗。結果表明,即使在單張RTX 5090 GPU上,TurboDiffusion也能實現100-200倍的影片生成加速,且維持可比擬的影片品質。相關GitHub倉庫已開源,包含模型檢查點與易用代碼,訪問地址:https://github.com/thu-ml/TurboDiffusion。
視覺語言模型(VLM)在通用理解任務中表現卓越,但在動態空間推理(DSR)——即推斷三維空間中物體幾何屬性與關係隨時間演變的能力——方面仍顯薄弱,這主要源於可擴展的四維感知訓練資源匱乏。為彌合數據集、基準測試與模型層面的斷層,我們推出DSR套件。首先,我們提出自動化流程,從真實場景影片生成多選式問答對以支持DSR。通過運用現代視覺基礎模型,該流程能提取豐富的幾何與運動資訊,包括相機姿態、局部點雲、物體遮罩、方位角及三維軌跡。這些幾何線索構建了用於學習的DSR-Train數據集,並經人工精修形成評估用的DSR-Bench基準。相較既有研究,我們的數據突出五大特點:(i)真實場景影片來源;(ii)物體與場景層級的三維需求;(iii)視角轉換;(iv)多物體互動;(v)細粒度程序化答案。除數據外,我們提出輕量級幾何選擇模組(GSM),將幾何先驗無縫整合至VLM中。該模組能濃縮問題語義,並從預訓練的四維重建先驗中提取問題相關知識,壓縮為緊湊的幾何標記集合,避免無關知識對模型的干擾。實驗表明,將DSR-Train與GSM整合至Qwen2.5-VL-7B模型後,其動態空間推理能力顯著提升,同時在通用影片理解基準上保持準確性。
文字轉音視訊(T2AV)生成技術旨在從自然語言合成時間連貫的視訊與語義同步的音訊,然其評估體系仍呈碎片化,常依賴單模態指標或狹隘基準,難以捕捉複雜提示下的跨模態對齊、指令遵循及感知真實性。為解決此局限,我們提出T2AV-Compass——一個統一的T2AV系統綜合評估基準,包含經分類學驅動流程構建的500個多樣化複雜提示,確保語義豐富性與物理合理性。此外,T2AV-Compass引入雙層評估框架,整合客觀信號級指標(用於視訊品質、音訊品質與跨模態對齊)與主觀「MLLM-as-a-Judge」協議(用於指令遵循與真實性評估)。對11個代表性T2AV系統的廣泛測試表明,即便最強模型仍與人類級真實性及跨模態一致性存在顯著差距,且在音訊真實性、細粒度同步、指令遵循等方面存在持續缺陷。這些結果揭示了未來模型的巨大改進空間,並彰顯T2AV-Compass作為推動文字轉音視訊生成技術發展的挑戰性診斷測試平台價值。
「一鏡到底」技術代表著電影製作中一種獨特而精妙的美學風格。然而其實際實現往往受制於高昂成本與複雜的現實約束。儘管新興的影片生成模型提供了虛擬替代方案,但現有方法通常依賴簡單的片段拼接,難以保持視覺流暢度與時間連貫性。本文提出DreaMontage——一個專為任意幀引導生成設計的完整框架,能根據用戶提供的多樣化輸入,合成無縫銜接、表現力豐富且時長靈活的一鏡到底影片。為實現此目標,我們從三個維度突破關鍵難題:(一)在DiT架構中融入輕量級的中間條件調控機制,通過有效利用基礎訓練數據的自適應調優策略,釋放強大的任意幀控制能力;(二)為提升視覺真實感與電影級表現力,我們構建高質量數據集並實施視覺表達微調階段,針對主體運動合理性與轉場流暢度等核心問題,採用定制化的DPO方案顯著提升生成內容的成功率與實用性;(三)為實現長序列生成,設計記憶效率優化的分段自回歸推理策略。大量實驗表明,我們的方法在保持計算效率的同時,能實現視覺驚豔且連貫流暢的一鏡到底效果,助力用戶將碎片化視覺素材轉化為生動統一的電影級連貫敘事體驗。
我們揭露了當前最先進的視覺語言模型(VLMs)中存在顯著的知名度偏差——與普通建築相比,這些模型在著名建築上的準確率最高可提升34%,表明其依賴記憶而非可泛化的理解能力。為系統性研究此現象,我們建立了該任務規模最大的開放基準:YearGuessr數據集,包含來自157個國家、共55,546張具多模態屬性的建築圖像,並標註了連續序數標籤(建造年份跨度为1001-2024年)、GPS數據及作為知名度代理指標的頁面瀏覽量。基於此數據集,我們將建造年份預測任務構建為序數回歸問題,並提出知名度感知的區間準確度指標以量化此偏差。對30餘個模型(包括我們提出的YearCLIP模型)的基準測試結果證實:VLMs在熱門記憶項目上表現優異,但對冷門對象的識別能力顯著不足,暴露出其推理能力的根本缺陷。項目頁面:https://sytwu.github.io/BeyondMemo/
我們推出 Nemotron 3 Nano 30B-A3B——一款採用混合專家架構的 Mamba-Transformer 混合語言模型。該模型在 2.5 萬億文本標記上進行預訓練(其中包含較 Nemotron 2 新增超過 3 萬億獨特標記),並隨後在多樣化環境中進行監督式微調與大規模強化學習。Nemotron 3 Nano 在每次前向傳播中激活的參數量不足上一代 Nemotron 2 Nano 的一半,卻能實現更優的準確率。與同規模開源模型(如 GPT-OSS-20B 和 Qwen3-30B-A3B-Thinking-2507)相比,其推理吞吐量最高可提升 3.3 倍,並在主流基準測試中展現更卓越的準確性。Nemotron 3 Nano 具備增強的智能代理、推理及對話能力,且支援高達 100 萬標記的上下文長度。我們已於 Hugging Face 平台開源預訓練階段的 Nemotron 3 Nano 30B-A3B 基礎模型與後訓練階段的完整檢查點。
高解析度影片生成雖對數位媒體與電影產業至關重要,卻因擴散模型的二次方計算複雜度而形成效能瓶頸,導致實際推論難以實現。為此,我們提出HiStream——一種高效的自迴歸框架,透過三軸向系統性消除冗餘:i) 空間壓縮:先於低解析度進行去噪,再利用快取特徵進行高解析度細化;ii) 時間壓縮:採用固定錨點快取的區塊逐次處理策略,確保穩定推論速度;iii) 時步壓縮:對後續快取條件化的區塊施加更少去噪步數。在1080p基準測試中,我們的主模型HiStream(i+ii)在實現頂尖視覺品質的同時,相較Wan2.1基準線展現出最高76.2倍的去噪加速,且品質損失可忽略不計。進階版本HiStream+則整合三項優化(i+ii+iii),獲得較基準線107.5倍的加速效果,在速度與品質間達成絕佳平衡,從而使高解析度影片生成兼具實用性與擴展性。
我們推出Nemotron 3系列模型——包含Nano、Super與Ultra三款。這些模型具備卓越的智能代理、推理與對話能力。Nemotron 3系列採用混合專家架構的Mamba-Transformer混合式設計,提供業界頂尖的吞吐效能與高達100萬詞元的上下文長度。Super與Ultra模型使用NVFP4精度訓練,並整合創新的LatentMoE技術以提升模型品質。兩款大型模型還搭載MTP層,可實現更快速的文本生成。全系列模型均經過多環境強化學習的後訓練,具備邏輯推理、多步驟工具調用能力,並支援細粒度的推理資源管控。最小型的Nano模型在準確度上超越同級模型,同時保持極具成本效益的推理表現。Super專為協作型智能代理與高負載任務(如IT工單自動化)優化。旗艦款Ultra則提供最先進的準確度與推理性能。Nano模型將連同技術報告與本白皮書同步發布,Super與Ultra則於未來數月內陸續推出。我們將開源模型權重、前後訓練軟體、訓練配方,以及所有具備再分發權的資料集。
分詞器為語言模型處理和表示文本提供了基礎支撐。儘管分詞技術至關重要,但由於難以單獨衡量其影響,人們對其在語言模型性能與行為中扮演的角色仍缺乏深入理解。為解決這一需求,我們推出TokSuite——一套支持分詞對語言模型影響研究的模型集合與基準測試平台。具體而言,我們採用相同架構、數據集、訓練預算和初始化參數,訓練了十四個僅分詞器不同的對照模型。此外,我們精心構建並發布了新型基準測試,專門衡量模型在可能影響分詞效果的現實擾動下的表現。TokSuite通過實現模型分詞器影響力的強健解耦,支撐了一系列創新發現,系統闡明了多種主流分詞器各自的優勢與侷限。
基于智能体的强化学习日益依赖经验驱动的规模扩展,然而现实环境仍存在非适应性、覆盖范围有限和难以扩展的问题。世界模型通过模拟经验提供了提升学习效率的可能路径,但大型语言模型能否可靠承担这一角色,以及在何种条件下能实质性地提升智能体性能,目前尚不明确。我们在基于文本的环境中研究这些问题——这类环境为将语言建模重新诠释为交互下的状态预测提供了受控场景。我们提出了评估基于LLM的世界模型的三层框架:(i)保真度与一致性,(ii)可扩展性与鲁棒性,(iii)智能体效用。通过对五个典型环境的测试,我们发现经过充分训练的世界模型能够保持连贯的潜在状态,随数据和模型规模实现可预测的扩展,并通过动作验证、合成轨迹生成和强化学习热启动等方式提升智能体性能。同时,这些收益关键取决于行为覆盖度和环境复杂度,由此划定了世界模型有效支持智能体学习的明确边界。
近期通用基礎模型的預訓練進展顯著提升了各類下游任務的性能。儘管如GPT這類自迴歸生成模型已徹底改變自然語言處理領域,但大多數視覺生成式預訓練方法仍依賴於BERT風格的掩碼建模,這種方法往往忽視了影片分析所需的時序信息。現有少數自迴歸視覺預訓練方法存在語義定位不準確和生成質量差等問題,導致語義表現不佳。本研究提出NExT-Vid——一種新穎的自迴歸視覺生成預訓練框架,通過掩碼下一幀預測聯合建模圖像與影片。NExT-Vid引入上下文隔離的自迴歸預測器來解耦語義表徵與目標解碼,並採用條件化流匹配解碼器來提升生成質量與多樣性。通過上下文隔離的流匹配預訓練,我們的方法能獲得強健的表徵能力。在大規模預訓練模型上的大量實驗表明,通過下游分類任務的注意力探測評估,我們提出的方法在視覺表徵學習方面持續優於先前的生成式預訓練方法。
我们推出Streamo——一款作为通用交互助手的实时流媒体视频大语言模型。与现有专注于问答或字幕生成等单一功能的在线视频模型不同,Streamo能够执行广泛的流媒体视频任务,包括实时旁白解说、动作理解、事件描述、时序事件定位以及时效性问答。为实现这种多功能性,我们构建了Streamo-Instruct-465K,这是一个专为流媒体视频理解定制的大规模指令遵循数据集。该数据集涵盖多样化时序语境和多任务监督机制,支持异构流媒体任务的统一训练。通过端到端的指令遵循训练流程,Streamo在各类流媒体基准测试中展现出强大的时序推理能力、实时交互响应能力以及广泛的泛化性能。大量实验表明,Streamo成功弥合了离线视频感知模型与实时多模态助手之间的鸿沟,为实现在连续视频流中实现统一智能视频理解迈出重要一步。
檢索增強生成(RAG)已成為大型語言模型(LLM)處理需要領域專屬或最新知識的密集型查詢的重要範式。為應對單步檢索難以解決的複雜多跳問題,學界提出了結合強化學習的迭代式RAG方法。然而,現有迭代RAG系統通常僅規劃問題分解策略,而未利用檢索語料庫的可用信息,導致檢索效率低下且推理鏈會引發次優性能級聯效應。本文提出早期知識對齊(EKA)模塊,該模塊通過在迭代RAG系統規劃前將LLM與上下文相關的檢索知識集進行對齊,其設計簡潔卻高效。在六個標準RAG數據集上的大量實驗表明,EKA通過建立更堅實的推理基礎,顯著提升檢索精度、減少級聯誤差,並同步改善性能與效率。從熵視角進行的分析證實,早期知識的引入能減少推理過程中不必要的探索,使模型更聚焦於相關信息子集。此外,EKA作為一種無需訓練的通用推理策略,可無縫擴展至大型模型。跨數據集與檢索語料庫的泛化測試驗證了該方法的魯棒性。總體而言,EKA在推進迭代RAG技術前沿的同時,揭示了強化學習增強框架中結構化推理與高效探索的關鍵互動機制。代碼已開源於:https://github.com/yxzwang/EarlyKnowledgeAlignment{Github}。
现有针对AI编程智能体的基准测试主要聚焦于孤立、单点任务,如修复错误或实现小型功能。然而,现实世界的软件工程本质上是长期性工作:开发者需要解读高层级需求、规划跨多个文件的协同修改,并在保持现有功能的前提下通过多次迭代演进代码库。我们推出SWE-EVO基准测试,专门评估智能体应对这种长期性软件演进挑战的能力。该基准基于七个成熟开源Python项目的发布说明和版本历史构建,包含48项演进任务,要求智能体实现平均涉及21个文件的多步骤修改,并通过平均每个实例874项测试的全面测试套件进行验证。对前沿模型的实验揭示出显著的能力差距:即便是搭载OpenHands的GPT-5模型,在SWE-EVO上的解决率也仅为21%,远低于其在单点任务基准SWE-Bench Verified上65%的表现。这表明当前智能体难以应对持续性的多文件推理任务。我们还提出修复率这一细粒度指标,用于捕捉解决这些复杂长期任务过程中的部分进展。
本研究推出PhononBench——首个针对AI生成晶体动态稳定性的大规模基准测试平台。基于近期开发的MatterSim原子间势函数(可在万余种材料中实现DFT精度的声子预测),PhononBench对六种主流晶体生成模型产生的108,843个晶体结构进行了高效大规模声子计算与动态稳定性分析。该基准测试揭示了当前生成模型在确保动态稳定性方面存在的普遍局限:所有生成结构的平均动态稳定率仅为25.83%,表现最佳的MatterGen模型也仅达到41.0%。进一步案例研究表明,在面向带隙条件(以MatterGen的0.5eV最优条件为例)的属性定向生成中,动态稳定率仍低至23.5%;在空间群调控生成中,高对称性晶体(如立方晶系稳定率可达49.2%)虽表现更优,但所有受控生成的平均稳定率仍仅为34.4%。本研究的重要附加成果是发现了28,119个在全布里渊区具备声子稳定性的晶体结构,为未来材料探索提供了大量可靠候选体系。通过建立首个大规模动态稳定性基准,本工作系统揭示了晶体生成模型的现存不足,为其朝向设计物理可行材料的发展路径提供了关键评估标准与指导。所有模型生成晶体结构、声子计算结果及PhononBench开发的高通量评估工作流均将公开于https://github.com/xqh19970407/PhononBench。
大型语言模型(LLMs)的快速普及与多样化专业基准测试的涌现,亟需从碎片化的任务特定指标转向能够有效聚合多维度能力表现的整体性竞争排名体系。当前主要采用静态评分的评估方法存在根本性局限性:既难以确定跨基准测试的合理混合比例,更无法捕捉模型在连续高风险任务中的动态竞争适应性及其脆弱性。为此,我们提出创新的竞争性瑞士制动态评估框架(CSD)。该框架通过模拟多轮次序列竞赛,使模型根据累积胜负记录在精选基准测试序列中实现动态配对,并采用蒙特卡洛模拟(N=100,000次迭代)来估算统计稳健的期望胜率得分(E[S_m]),从而消除随机配对和早期轮次运气因素的干扰。此外,我们通过参数化每轮淘汰数量(T_k)实施失效敏感性分析,据此构建模型的风险偏好画像——区分稳健通才型与激进专才型模型。实证表明,相较于传统聚合评分与静态配对模型,CSD能提供更精细且情境感知的排名结果,标志着向风险感知的新一代LLM评估迈出关键一步。