每日精選AI研究論文及翻譯
儘管擴散語言模型(DLM)發展迅速,但近期多數模型均採用一組共享組件。然而這些組件散見於各臨時研究代碼庫,或缺乏透明實現方案,導致難以復現或擴展。隨著領域加速發展,業界迫切需要一個統一框架,既能標準化這些通用組件,又保持足夠靈活性以支持新方法與架構。 為此我們推出dLLM——一個開源框架,整合了擴散語言建模的核心組件(訓練、推理與評估),並使其能輕鬆自定義以適應新設計。通過dLLM,用戶可經標準化流程復現、微調、部署及評估開源大型DLM(如LLaDA和Dream)。該框架還提供極簡可復現方案,使研究者能利用可獲取的算力從頭構建小型DLM,包括將任意BERT風格編碼器或自回歸語言模型轉換為DLM。我們同時發布這些小型DLM的檢查點,以提升DLM的易用性並加速未來研究。
GPU核心優化是現代深度學習的基礎,但至今仍是需要深厚硬體專業知識的高度專門化任務。儘管大型語言模型在通用程式設計領域表現出色,但在CUDA核心生成方面仍無法與基於編譯器的系統(如torch.compile)競爭。現有的CUDA程式碼生成方法要麼依賴免訓練的改進策略,要麼在固定的多輪執行回饋循環中對模型進行微調,但這兩種模式都未能從本質上提升模型的內在CUDA優化能力,導致性能提升有限。我們提出CUDA Agent——一個大規模代理強化學習系統,通過三大組件培養CUDA核心專業能力:可擴展的資料合成流程、具備自動驗證與性能分析功能的技能增強型CUDA開發環境(用於提供可靠獎勵信號),以及實現穩定訓練的強化學習演算法技術。CUDA Agent在KernelBench基準測試中取得突破性成果,於Level-1、Level-2和Level-3級別分別實現比torch.compile快100%、100%和92%的執行速率,在最困難的Level-3設定中更以約40%的優勢超越Claude Opus 4.5和Gemini 3 Pro等最強專有模型。
近期文字到影像生成技術的顯著進展,雖大幅提升了視覺逼真度與創意表現,卻也對提示詞的複雜度提出更高要求——特別是在編碼精細空間關係的場景中。此類情況下,往往需經過多次取樣嘗試方能獲得滿意結果。為應對此挑戰,我們提出一種創新方法,旨在強化現有影像生成模型的空間理解能力。我們首先構建了包含超過8萬組偏好對比的SpatialReward數據集,並基於此開發出SpatialScore評分模型。該獎勵模型專注於評估文字到影像生成中空間關係的準確性,其表現甚至超越現有主流專有模型在空間評估任務上的水準。我們進一步驗證了該獎勵模型能有效驅動複雜空間生成任務的線上強化學習。在多個基準測試中的廣泛實驗表明,此專業化獎勵模型能為影像生成任務帶來顯著且穩定的空間理解能力提升。
當前多語言大型語言模型評估的可信度,正因翻譯基準測試的質量參差不齊而受到影響。現有資源普遍存在語義偏移和上下文缺失問題,可能導致性能指標失真。本研究提出一個全自動化框架,通過實現可擴展的高質量數據集與基準測試翻譯,從根本上解決這些挑戰。我們證明,採用測試時計算擴展策略——特別是通用自我改進技術與我們提出的多輪排序方法T-RANK——相較傳統流程能顯著提升輸出質量。該框架能確保基準測試在本地化過程中保持原始任務結構與語言細微特徵。我們運用此方法將多個主流基準測試翻譯為八種東歐與南歐語言(烏克蘭語、保加利亞語、斯洛伐克語、羅馬尼亞語、立陶宛語、愛沙尼亞語、土耳其語、希臘語)。基於參考指標與LLM評判機制的雙重評估表明,我們的翻譯成果超越現有資源,能實現更精準的下游模型評估。我們同步開源此框架與改進後的基準測試,以促進健壯且可重現的多語言人工智能發展。
將影片生成從秒級擴展至分鐘級面臨關鍵瓶頸:短影片數據雖豐富且高擬真,但連貫的長時序數據稀缺且侷限於狹窄領域。為此,我們提出一種「模式追尋遇見均值追尋」的訓練範式,通過解耦擴散變壓器的統一表徵,將局部擬真度與長時序連貫性分離。該方法採用經長影片監督學習訓練的全局流匹配頭來捕捉敘事結構,同時通過模式尋求的反向KL散度,讓局部分佈匹配頭將滑動窗口與凍結的短影片教師模型對齊。此策略使模型能通過監督式流匹配從有限的長影片中學習長程連貫性與運動,並通過將學生的每個滑動窗口片段與凍結的短影片教師對齊來繼承局部真實感,最終實現少步快速生成長影片。評估顯示,我們的方法通過聯合提升局部銳利度、運動表現及長程一致性,有效彌合了擬真度與時長之間的差距。項目網站:https://primecai.github.io/mmm/。
投機解碼技術透過使用輕量級草稿模型來提出候選標記,再由目標模型並行驗證,從而加速自迴歸大型語言模型的推理過程。加速效果主要取決於接受率,但標準訓練方法僅將最小化KL散度作為代理目標。雖然KL散度與接受率具有相同的全局最優解,但能力有限的草稿模型通常會收斂至次優解,此時最小化KL散度並不能保證接受率最大化。為解決此問題,我們提出LK損失函數——這種特殊訓練目標直接針對接受率進行優化。在四種草稿架構與六個參數量從80億到6850億不等的目標模型上進行的全面實驗表明,相較於標準的KL散度訓練,所有配置的接受指標均獲得持續提升。我們在通用領域、編程領域和數學領域評估本方法,結果顯示平均接受長度最高可提升8-10%。LK損失函數易於實現,不引入額外計算開銷,可直接整合至現有投機訓練框架,成為現有草稿訓練目標的極具競爭力的替代方案。
科學研究依賴準確的文獻引用以確保歸屬與誠信,然而大型語言模型(LLMs)引入了新風險:虛構的參考文獻看似合理,卻對應不到真實出版物。這類虛幻引用已在多個重要機器學習會議的投稿和錄用論文中被發現,暴露出同行評審的脆弱性。與此同時,快速增長的參考文獻清單使人工核查變得不切實際,現有自動化工具對雜亂異構的引用格式仍顯脆弱,且缺乏標準化評估。我們提出首個針對科學寫作中虛幻引用的綜合性基準測試與檢測框架。通過多智能體驗證流程,我們將引用檢查分解為主張提取、證據檢索、段落匹配、推理校準與判斷,以評估引用來源是否真實支持其論斷。我們構建了跨領域的大規模人工驗證數據集,並定義了引用忠實度與證據一致性的統一指標。針對前沿大型語言模型的實驗揭示出大量引用錯誤,同時表明我們的框架在準確性與可解釋性上均顯著優於現有方法。本研究為LLM時代的引用審計提供了首個可擴展基礎架構,並為提升科學參考文獻的可信度提供了實用工具。
組合泛化——即在新穎情境中識別熟悉部分的能力——是智能系統的標誌性特徵。儘管現代模型通過海量數據集進行訓練,但其覆蓋的輸入組合空間僅佔可能性的極小部分,這引發了關鍵問題:表徵需具備何種結構才能支持對未見組合的泛化?我們形式化地提出了標準訓練下組合泛化的三個必要條件(可分性、可遷移性、穩定性),並證明它們會施加必要的幾何約束:表徵必須線性分解為按概念劃分的組件,且這些組件在概念間必須保持正交。這為「線性表徵假說」提供了理論基礎:神經表徵中廣泛觀察到的線性結構實際是組合泛化的必然結果。我們進一步推導出維度界限,將可組合概念的數量與嵌入幾何特性相聯繫。實證研究中,我們在現代視覺模型(CLIP、SigLIP、DINO)上驗證這些預測,發現表徵呈現出部分線性分解特徵,表現為低秩、近正交的單概念因子,且此結構化程度與模型在未見組合上的組合泛化能力相關。隨著模型規模持續擴大,這些條件預示了表徵幾何可能收斂的方向。程式碼公開於:https://github.com/oshapio/necessary-compositionality。
圖像記憶性(即圖像被記住的可能性)在計算機視覺領域的傳統研究主要呈現兩種範式:或被動預測模型通過回歸標量分數進行評估,或採用生成方法修改視覺輸入以提升圖像被記住的概率。然而,這些範式均無法在用戶拍攝時提供支持,而此時的核心問題在於如何提升照片的記憶性。我們提出記憶性反饋任務,旨在通過自動化模型為用戶提供可操作、人類可解讀的指導,以增強圖像的未來回憶效果。我們同時推出MemCoach——首個基於多模態大語言模型的訓練無需方法,能夠生成具體的自然語言建議來提升記憶性(例如「強化面部表情」「拉近主體距離」)。該方法採用師生引導策略,通過對齊模型內部激活向量,使其趨向於從按記憶性由低到高排序的樣本中學習到的記憶模式。為系統評估這一新任務,我們進一步構建MemBench基準,包含帶記憶性分數註釋的序列對齊拍攝圖集。針對多種多模態大語言模型的實驗表明,MemCoach相較於多個零樣本模型能持續提升性能,證明記憶性不僅可預測,更可通過指導教學實現從被動預測向為人類創作者提供可操作反饋的範式轉變。
對比學習已成為現代表徵學習的基石,使模型能夠利用大規模未標記數據進行任務特定及通用(基礎)模型的訓練。InfoNCE損失函數及其變體是對比訓練中的典型目標。本研究證明,InfoNCE目標函數會在對比訓練產生的表徵中誘導出高斯結構。我們通過兩種互補機制確立此結論:首先,在特定對齊性和集中性假設下,高維表徵的投影會漸近趨近多元高斯分佈;其次,在較寬鬆的假設下,我們證明添加促進低特徵範數與高特徵熵的漸近消失正則化項,同樣能導出類似的漸近結果。我們通過在合成數據集與CIFAR-10數據集上,針對多種架構與規模的編碼器進行實驗,驗證了表徵行為的一致性高斯特徵。此視角為對比表徵中常見的高斯現象提供了理論解釋,而由此建立的高斯模型不僅能對學習表徵進行原理性分析處理,更有望支撐對比學習中的廣泛應用場景。
指称表达理解(REC)将语言与区域级视觉感知相连接。尽管多模态大语言模型已推动标准基准数据集(RefCOCO、RefCOCO+、RefCOCOg)快速发展,但这些数据集对视觉推理与定位能力的检验仍存在局限:(i)多数指称表达过于简短,缺乏推理深度;(ii)图像中干扰物稀少,使目标定位过于简单;(iii)冗余描述符催生了绕过真实文本理解与视觉推理的捷径解决方案。我们提出Ref-Adv这一现代REC基准,通过将语言复杂度更高的表达与仅能唯一确定目标的最小必要信息配对,有效抑制捷径策略。该数据集包含真实图像上的指称表达,通过精心设计的高难度干扰物进行构建,并标注了包含否定推理在内的多维度推理要素。我们通过全面消融实验(词序扰动与描述符删除充分性测试)证明,解决Ref-Adv需超越简单线索的深层推理。此外,我们在Ref-Adv上评估了当前主流多模态大语言模型,发现尽管它们在传统基准上表现强劲,但在Ref-Adv上性能显著下降,揭示了模型对捷径的依赖及其在视觉推理与定位方面的缺陷。我们提供了深入的错误分析,旨在以Ref-Adv引导未来多模态大语言模型在视觉推理与定位方向的研究。
本文针对低计算预算下的长视频理解这一关键且尚未被充分探索的挑战,提出了LongVideo-R1——一种具备推理能力的主动式多模态大语言模型(MLLM)智能体。该模型专为实现高效视频上下文导航而设计,避免了穷举搜索的冗余性。LongVideo-R1的核心在于其推理模块,该模块利用高层视觉线索推断最具信息量的视频片段以供后续处理。在推理过程中,智能体从顶层视觉摘要开始遍历,并迭代式细化关注范围,一旦获取足够信息以回答查询即立即终止探索过程。为辅助训练,我们首先从带有定位标注的视频语料库CGBench中提取层次化视频描述,并引导GPT-5生成3.3万条高质量的工具增强思维链轨迹。LongVideo-R1基于Qwen-3-8B模型通过两阶段范式进行微调:监督微调(SFT)后接强化学习(RL),其中RL采用专门设计的奖励函数以最大化选择性片段导航的效率。在多个长视频基准测试上的实验验证了该方法的有效性,其在问答准确性与效率之间实现了更优的平衡。所有整理的数据与源代码均提供于补充材料中并将公开。代码与数据详见:https://github.com/qiujihao19/LongVideo-R1
遮罩圖像生成模型(MIGMs)雖已取得重大成功,但其效率受雙向注意力機制的多步驟計算所限制。事實上,這類計算存在明顯冗餘:當採樣離散符號時,連續特徵中蘊含的豐富語義資訊會遺失。現有研究嘗試透過快取特徵來近似未來特徵,但在激進的加速倍率下會出現顯著近似誤差。我們認為這源於其表達能力有限且未考慮採樣資訊。為此,我們提出學習一個輕量模型,同時融合歷史特徵與已採樣符號,並回歸特徵演化的平均速度場。該模型具備適中複雜度,既能捕捉細微的動態變化,又相較原始基礎模型保持輕量化。我們將方法MIGM-Shortcut應用於兩種代表性MIGM架構與任務,其中在最先進的Lumina-DiMOO模型上實現文字生成圖像速度提升逾4倍,且維持生成品質,顯著推進了遮罩圖像生成的帕累托前沿。程式碼與模型權重已開源於:https://github.com/Kaiwen-Zhu/MIGM-Shortcut。
扩散模型虽能实现最先进的视频生成质量,但由于需要大量连续去噪步骤,其推理过程仍成本高昂。这促使加速扩散推理的研究日益增多。在无需重新训练的加速方法中,缓存技术通过跨时间步复用已计算的模型输出来减少计算量。现有缓存方法依赖启发式准则选择缓存/复用时间步,且需大量调参。我们通过一种基于敏感度感知的缓存框架来解决这一局限。具体而言,我们通过分析模型输出对去噪输入(即含噪潜变量和时间步)扰动的敏感度,将缓存误差形式化,并证明该敏感度是预测缓存误差的关键指标。基于此分析,我们提出敏感度感知缓存(SenCache)——一种动态缓存策略,可基于单样本自适应选择缓存时间步。该框架为自适应缓存提供了理论基础,解释了先前经验性启发式方法为何能部分有效,并将其扩展为动态的样本特异性方法。在Wan 2.1、CogVideoX和LTX-Video上的实验表明,在相同计算预算下,SenCache比现有缓存方法具有更好的视觉质量。
Transformer凭借其随上下文长度扩展而增长的记忆容量,已成为序列建模领域最新进展的事实基础架构。虽然这种特性在检索任务中具有合理性,但其导致的二次计算复杂度促使近期研究开始探索可行的次二次循环替代方案。尽管这些循环架构在多领域展现出初步潜力,但在召回密集型任务中表现仍逊于Transformer,这通常归因于其固定大小的记忆体。本文提出记忆缓存(MC)技术,通过缓存记忆状态(即隐藏状态)的检查点来增强循环模型。该技术使RNN的有效记忆容量能随序列长度增长,在RNN的固定记忆复杂度(O(L))与Transformer的增长记忆复杂度(O(L²))之间实现灵活插值。我们提出四种MC变体,包括门控聚合和稀疏选择机制,并探讨其对线性和深度记忆模块的影响。在语言建模和长上下文理解任务上的实验表明,MC能有效提升循环模型性能。上下文召回任务结果显示:虽然Transformer达到最高准确率,但我们的MC变体展现出竞争优势,显著缩小了与Transformer的差距,且优于当前最先进的循环模型。
大型语言模型(LLM)正朝着单一人工群体智能的方向收敛,其共享本性(预训练先验)导致分布多样性的严重坍缩,限制了创造性探索与科学发现所必需的多元视角。为解决此问题,我们提出通过认知演化范式为模型注入推理时培育(个性化认知轨迹),该范式包含探索、内化与表达三个阶段。我们通过PRISM系统(基于上下文结构建模的多元推理)实现这一范式——这是一个模型无关的动态即时认知图谱增强框架。在三个创造力基准测试中,PRISM实现了最优的新颖性指标,并显著扩展了分布多样性。此外,我们通过具有挑战性的罕见疾病诊断基准评估其实际效用。结果表明PRISM能成功发现标准LLM遗漏的长尾正确诊断,证实其发散性源于有意义的探索而非无序噪声。总体而言,本研究确立了多元人工智能的新范式,推动技术从单一共识体系转向由独特认知个体组成的、能够进行集体多视角发现的多样化生态系统。
生成式检索已成为基于大语言模型的推荐系统的重要范式。然而工业级推荐系统通常需要根据业务逻辑将输出空间限制在特定物品子集(例如强制要求内容新鲜度或商品品类),而标准的自回归解码方法无法原生支持这种约束。现有基于前缀树的约束解码方法在硬件加速器(TPU/GPU)上会产生严重的延迟代价。本文提出STATIC(面向约束解码的稀疏转移矩阵加速前缀树索引),这是一种专为TPU/GPU高通量生成式检索设计的高效可扩展约束解码技术。通过将前缀树扁平化为静态压缩稀疏行矩阵,我们将不规则树遍历操作转化为完全向量化的稀疏矩阵运算,从而在硬件加速器上实现巨大的效率提升。我们在服务数十亿用户的大规模工业级视频推荐平台上部署了STATIC系统。实验表明,STATIC在仅增加极小延迟开销(每步0.033毫秒,占推理时间0.25%)的情况下显著提升产品指标,相比CPU前缀树实现实现948倍加速,较硬件加速二分搜索基线获得47-1033倍加速。更重要的是,STATIC在多种实际配置下均保持极低运行时开销。据我们所知,STATIC实现了首个生产级严格约束生成式检索系统的实际部署。学术基准测试进一步证明,STATIC能显著提升生成式检索的冷启动性能。代码已开源:https://github.com/youtube/static-constraint-decoding。
视觉语言模型(VLM)虽已实现卓越的多模态理解与推理能力,但由于密集的视觉标记化处理,其计算成本依然高昂。现有效率优化方法或通过合并冗余视觉标记,或在语言主干网络中逐步丢弃标记,往往以牺牲精度换取速度。本文提出DUET-VLM——一种通用即插即用的双阶段压缩框架,其包含:(a)在视觉编码器输出端进行纯视觉冗余感知压缩,生成信息保留型标记;(b)在语言主干网络中实施分层级的文本引导显著性丢弃策略,逐步剪除低信息量视觉标记。这种协同标记管理机制可在保留关键语义的前提下实现激进压缩。在LLaVA-1.5-7B模型上,本方法仅用33%的标记量即可维持基线模型99%以上的精度,即使在标记减少89%的极端情况下仍能保持>97%的精度。通过训练期间的双阶段压缩,该方法在标记减少67%时达到99.7%的精度,减少89%时仍达97.6%,在多基准测试中超越现有视觉标记缩减技术的最高水平。当集成至Video-LLaVA-7B时,其表现甚至超越基线模型——在标记大幅减少53.1%的情况下实现>100%的基准精度,并在标记缩减93.4%的极端设置下保持97.6%的精度。这些结果凸显了DUET-VLM端到端训练的优势,使其能在不损失精度的前提下稳健适应缩减后的视觉(图像/视频)输入,在同等计算预算下生成紧凑而语义丰富的表征。代码已开源:https://github.com/AMD-AGI/DUET-VLM。
基于指令的图像编辑模型(IIEMs)领域已取得显著进展。然而,尽管现有基准测试表明这些模型在遵循指令和推理能力方面表现优异,但其对小物体的编辑能力仍待深入探索——这种能力对于真实图像和生成图像中局部精确编辑与细节优化至关重要。本文提出首个专注于评估IIEMs小尺度物体编辑能力的基准测试DeepLookEditBench(DLEBench)。具体而言,我们构建了包含七类指令类型、共1889个样本的挑战性测试集,其中目标物体仅占图像面积1%-10%,覆盖部分遮挡和多物体编辑等复杂场景。为确保评估可靠性,我们提出包含细化评分标准的评估方案,从指令遵循度和视觉一致性两个维度最小化主观判断偏差。该方案还引入双模评估框架(工具驱动模式与先知引导模式),以解决LMM-as-a-Judge评估方式与人类评判在DLEBench上的认知差异。对10个IIEMs的实证研究揭示了现有模型在小尺度物体编辑上的显著性能差距,表明需要专项基准测试推动该能力发展。
语境工程已成为解锁大型语言模型在软件工程任务中潜力的关键范式,其能在不进行模型微调的情况下提升测试时的性能表现。尽管成效显著,现有研究仍缺乏针对软件工程的系统化语境分类体系,以及用于量化不同语境在核心软件工程流程中差异化影响的专用基准。为填补这一空白,我们提出CL4SE(软件工程语境学习基准),该基准构建了包含四种软件工程导向语境类型的细粒度分类体系(可解释示例、项目特定语境、程序化决策语境及正负向混合语境),并将每种类型映射至代表性任务(代码生成、代码摘要、代码审查和补丁正确性评估)。我们构建了涵盖30余个开源项目、包含超13,000个样本的高质量数据集,并基于九项指标对五种主流大型语言模型进行评估。大量实验表明,语境学习使各项任务性能平均提升24.7%。具体而言:程序化语境将代码审查性能最高提升33%(Qwen3-Max),正负向混合语境使补丁评估效果提升30%(DeepSeek-V3),项目特定语境将代码摘要BLEU值提高14.78%(GPT-Oss-120B),可解释示例使代码生成PASS@1指标提升5.72%(DeepSeek-V3)。CL4SE建立了首个软件工程语境学习的标准化评估框架,为任务导向的语境设计提供了可操作的实证依据,并开源大规模数据集以推动该领域可复现研究。
強化學習(RL)後訓練技術近期在長鏈思維推理的大型語言模型(LLM)領域取得顯著進展,但這類模型的高推理成本促使業界尋求將其蒸餾為更小規模的學生模型。現有多數知識蒸餾(KD)方法專為監督式微調(SFT)設計,依賴固定教師軌跡或基於師生KL散度的正則化。當與強化學習結合時,這些方法常面臨分佈失配與目標干擾問題:教師監督可能與學生模型動態演進的滾動分佈不匹配,且KL正則項會與獎勵最大化目標相互競爭,需精心調整損失權衡。為解決這些問題,我們提出RL感知蒸餾法(RLAD),在強化學習過程中實施選擇性模仿——僅當教師指導能改善當前策略更新時,才引導學生模型向教師靠攏。其核心組件「信任區域比率蒸餾」(TRRD)以PPO/GRPO風格的似然比目標取代師生KL正則項,該目標錨定於教師-舊策略混合分佈,在學生模型的滾動數據上實現優勢感知、信任區域約束的蒸餾,自然平衡探索、利用與模仿三者的關係。在多元邏輯推理與數學基準測試中,RLAD持續優於離線蒸餾、標準GRPO以及基於KL的線上師生知識蒸餾方法。
儘管當代大型語言模型在獨立運作時表現日益出色,但仍有許多複雜問題超出單一模型的能力範圍。針對這類任務,學界對於如何將多個語言模型作為組件整合成更強大的系統仍存在不確定性。本立場文件主張,設計此類模組化語言代理的潛在藍圖,可從現有的認知模型與人工智慧演算法文獻中發掘。為闡明此觀點,我們將形式化「代理模板」的概念,明確定義單個語言模型的角色及其功能組合方式。接著系統性梳理文獻中各類現有語言代理,重點揭示其直接源自認知模型或AI演算法的底層模板。通過凸顯這些設計模式,我們旨在喚起學界對認知科學與AI啟發的代理模板之關注,將其視為開發高效且可解釋語言代理的重要工具。