每日精選AI研究論文及翻譯
我們提出了FlashWorld,這是一個生成模型,能夠在幾秒鐘內從單一圖像或文本提示生成3D場景,速度比之前的工作快10到100倍,同時擁有更優越的渲染質量。我們的方法從傳統的多視角導向(MV導向)範式轉變,該範式生成多視角圖像以進行後續的3D重建,轉向一種3D導向的方法,在生成多視角圖像的同時,模型直接生成3D高斯表示。雖然確保了3D一致性,但3D導向方法通常視覺質量較差。FlashWorld包括一個雙模式預訓練階段,隨後是一個跨模式後訓練階段,有效地整合了兩種範式的優勢。具體來說,利用視頻擴散模型的先驗,我們首先預訓練一個雙模式多視角擴散模型,該模型同時支持MV導向和3D導向的生成模式。為了彌補3D導向生成的質量差距,我們進一步提出了一種跨模式後訓練蒸餾方法,通過將一致的3D導向模式的分佈匹配到高質量的MV導向模式。這不僅在保持3D一致性的同時提升了視覺質量,還減少了推理所需的去噪步驟。此外,我們提出了一種策略,在此過程中利用大量的單視角圖像和文本提示,以增強模型對分佈外輸入的泛化能力。大量實驗證明了我們方法的優越性和效率。
近期統一多模態模型的進展顯示出全面內容生成的明確趨勢。然而,聽覺領域仍面臨重大挑戰,音樂與語音往往各自獨立發展,阻礙了通用音頻合成的進程。這種分離源於內在的任務衝突與嚴重的數據不平衡,妨礙了真正統一的音頻生成模型的開發。為應對這一挑戰,我們提出了UniMoE-Audio,這是一個基於新穎的動態容量專家混合(MoE)框架的統一語音與音樂生成模型。在架構上,UniMoE-Audio引入了Top-P路由策略以實現專家數量的動態分配,以及一種混合專家設計,包括用於領域特定知識的路由專家、用於領域無關特徵的共享專家,以及用於自適應計算跳過的無效專家。為解決數據不平衡問題,我們提出了一個三階段訓練課程:1)獨立專家訓練利用原始數據集,在不干擾的情況下將領域特定知識注入每個“原型專家”;2)MoE整合與熱身將這些專家納入UniMoE-Audio架構,使用平衡數據集子集對門控模塊和共享專家進行熱身;3)協同聯合訓練在完全平衡的數據集上端到端訓練整個模型,促進跨領域的增強協同。大量實驗表明,UniMoE-Audio不僅在主要語音與音樂生成基準上達到了最先進的性能,還展現了卓越的協同學習能力,緩解了通常見於簡單聯合訓練的性能下降。我們的研究結果凸顯了專門的MoE架構與精心策劃的訓練策略在推進通用音頻生成領域的巨大潛力。主頁:https://mukioxun.github.io/Uni-MoE-site/home.html
大型語言模型(LLMs)的推理模式仍不透明,而強化學習(RL)通常對整個生成過程應用均勻的獎勵分配,模糊了關鍵步驟與常規步驟之間的區別。本研究將注意力定位為一種特權基質,使LLMs的內部邏輯變得可讀,不僅僅是計算的副產物,更是推理本身的機制藍圖。我們首先區分注意力頭在局部與全局信息處理上的差異,並揭示局部聚焦的注意力頭在對角線附近產生鋸齒狀模式,指示短語片段,而全局聚焦的注意力頭則暴露對未來詞元具有廣泛下游影響的詞元。我們用兩個指標形式化這些現象:1)窗口平均注意力距離,衡量在裁剪窗口內向後注意力的程度;2)未來注意力影響,量化一個詞元的全局重要性,即其從後續詞元接收到的平均注意力。綜合來看,這些信號揭示了一種反覆出現的預規劃與錨定機制,模型首先進行長距離上下文參考以生成一個引導詞元,隨後立即或同時出現一個語義錨定詞元,組織後續推理。基於這些洞察,我們引入了三種新穎的RL策略,動態地對關鍵節點(預規劃詞元、錨定詞元及其時間耦合)進行有針對性的獎勵分配,並在多種推理任務中展現出一致的性能提升。通過將優化與模型的內在推理節奏對齊,我們旨在將不透明的優化轉化為可操作的結構感知過程,希望為LLM推理的更透明和有效優化提供潛在的一步。
全開放式多模態大型語言模型(MLLMs)目前落後於專有模型,主要原因在於監督微調(SFT)數據質量的顯著差距。現有的開源數據集普遍存在廣泛噪聲,且在複雜推理數據(如思維鏈,CoT)方面嚴重不足,這阻礙了高級模型能力的發展。針對這些挑戰,我們的工作做出了三項主要貢獻。首先,我們引入了Honey-Data-15M,這是一個包含約1500萬問答對的新SFT數據集,通過多重清洗技術處理,並採用新穎的雙層(短與長)CoT增強策略進行優化。其次,我們介紹了數據策展管道HoneyPipe及其基礎框架DataStudio,為社區提供了一種透明且可適應的數據策展方法,超越了靜態數據集發布的範疇。最後,為驗證我們的數據集和管道,我們在Honey-Data-15M上訓練了Bee-8B,一個8B參數的模型。實驗結果顯示,Bee-8B為全開放MLLMs設立了新的技術標杆,其性能與近期半開放模型如InternVL3.5-8B相當,甚至在某些方面超越。我們的工作向社區提供了一套基礎資源,包括:Honey-Data-15M語料庫;包含HoneyPipe和DataStudio的全棧套件;訓練配方;評估工具;以及模型權重。這一努力表明,以數據質量為核心的原則性關注,是開發與半開放模型高度競爭的全開放MLLMs的關鍵途徑。
视觉-语言-动作(VLA)模型在机器人操作基准测试中报告了令人瞩目的成功率,然而这些结果可能掩盖了其在鲁棒性方面的根本弱点。我们通过引入七个维度的受控扰动进行系统性脆弱性分析:物体布局、摄像机视角、机器人初始状态、语言指令、光照条件、背景纹理及传感器噪声。我们全面分析了多个最先进的模型,揭示了在表面能力之下的一致性脆弱。我们的分析暴露了关键弱点:模型对扰动因素表现出极端的敏感性,包括摄像机视角和机器人初始状态,在适度扰动下,性能从95%骤降至30%以下。令人惊讶的是,模型对语言变化大多不敏感,进一步的实验揭示模型往往完全忽略语言指令。我们的发现挑战了高基准分数等同于真正能力的假设,并强调了评估实践中需在现实变化下评估可靠性的必要性。
现今的视频生成模型虽能生成视觉上逼真的视频,却常未能遵循物理定律,这限制了其生成物理上合理视频的能力,并阻碍了其作为“世界模型”的潜力。为解决此问题,我们提出了PhysMaster,它通过捕捉物理知识作为指导视频生成模型的表示,以增强其物理感知能力。具体而言,PhysMaster基于图像到视频的任务,模型需从输入图像中预测出物理上合理的动态变化。鉴于输入图像提供了场景中物体的相对位置及潜在交互等物理先验信息,我们设计了PhysEncoder,用于从图像中编码物理信息,作为额外条件注入视频生成过程,以融入物理知识。由于模型在物理表现上缺乏超越外观的适当监督,促使PhysEncoder在物理表示学习中应用了基于人类反馈的强化学习,利用生成模型的反馈,通过直接偏好优化(DPO)以端到端方式优化物理表示。PhysMaster为提升PhysEncoder乃至视频生成的物理感知能力提供了可行方案,通过在一个简单代理任务上的验证,展示了其在广泛物理场景中的通用性。这表明,我们的PhysMaster通过在强化学习范式中统一各种物理过程的解决方案,能够作为物理感知视频生成及更广泛应用中的通用且即插即用的解决方案。
有效的時空表徵對於建模、理解和預測視頻中的動態至關重要。視頻的基本單元——像素,隨著時間推移描繪出一條連續的三維軌跡,成為動態的基本元素。基於這一原理,我們提出將任何視頻表示為軌跡場:一種密集映射,為每一幀中的每個像素分配一個關於時間的連續三維軌跡函數。利用這種表徵,我們引入了Trace Anything,這是一個神經網絡,能夠在單次前向傳播中預測整個軌跡場。具體而言,對於每一幀中的每個像素,我們的模型預測一組控制點,這些控制點參數化了一條軌跡(即B樣條),從而得出其在任意查詢時間點的三維位置。我們在大規模四維數據上訓練了Trace Anything模型,包括來自我們新平台的數據,實驗結果表明:(i) Trace Anything在我們新的軌跡場估計基準上達到了最先進的性能,並在已建立的點追蹤基準上表現出色;(ii) 得益於其一次性通過的範式,它顯著提高了效率,無需迭代優化或輔助估計器;(iii) 它展現了多種新興能力,包括目標條件下的操控、運動預測以及時空融合。項目頁面:https://trace-anything.github.io/。
我們推出InteractiveOmni,這是一個統一且開源的全模態大型語言模型,參數量從4B到8B不等,旨在通過提供全面的全模態理解與語音生成能力,引領輕量級模型領域的發展。為實現這一目標,我們將視覺編碼器、音頻編碼器、大型語言模型和語音解碼器整合為一個統一模型,用於理解與生成任務。我們設計了多階段訓練策略,以確保強大的跨模態能力,包括全模態理解的預訓練,以及語音對話和音視頻交互的後續訓練。為了實現類人的長期對話能力,我們精心策劃了一個多輪訓練數據集,增強模型處理複雜多輪交互的能力。為了有效評估多輪記憶與語音交互能力,我們構建了多模態多輪記憶基準和多輪語音交互基準。實驗表明,InteractiveOmni顯著優於領先的開源模型,並提供了更智能的多輪音視頻體驗,特別是在其長期記憶能力方面。值得注意的是,InteractiveOmni-4B在通用基準測試中可與更大規模的模型如Qwen2.5-Omni-7B相媲美,並且在僅使用50%模型大小的情況下,能保留InteractiveOmni-8B 97%的性能。在圖像、音頻、視頻理解及語音生成任務中,InteractiveOmni對抗同規模模型取得了最先進的成果,是下一代智能交互系統的易於獲取、開源的基礎。
強化學習(RL)已成為訓練大型語言模型(LLMs)的核心技術,然而該領域尚缺乏與預訓練相媲美的預測性擴展方法。儘管計算預算迅速增加,但對於如何評估算法改進以擴展RL計算,仍缺乏系統性的理解。我們首次進行了大規模系統性研究,耗時超過40萬GPU小時,定義了一個分析與預測LLMs中RL擴展的理論框架。我們擬合了RL訓練的S型計算性能曲線,並對一系列常見設計選擇進行了消融實驗,以分析它們對漸近性能和計算效率的影響。我們觀察到:(1)並非所有方案都能產生相似的漸近性能,(2)諸如損失聚合、歸一化、課程學習和離策略算法等細節主要調節計算效率,而不會顯著改變漸近點,(3)穩定且可擴展的方案遵循可預測的擴展軌跡,使得從小規模運行中進行外推成為可能。結合這些洞察,我們提出了一種最佳實踐方案——ScaleRL,並通過成功擴展並預測單次RL運行在10萬GPU小時規模上的驗證性能,展示了其有效性。我們的工作既為分析RL擴展提供了科學框架,也提出了一種實用方案,使RL訓練更接近預訓練長期以來所達到的可預測性。
儘管大多數自回歸大型語言模型(LLMs)受限於逐個解碼的方式,擴散式大型語言模型(dLLMs)因其通過並行解碼大幅加速推理的潛力而日益受到關注。儘管前景看好,dLLMs中的條件獨立性假設導致並行解碼忽略了詞元間的依賴關係,當這些依賴關係強烈時,不可避免地會降低生成質量。然而,現有研究大多忽視了這些固有挑戰,且在標準基準測試(如數學和編碼)上的評估不足以捕捉並行解碼導致的質量下降。為填補這一空白,我們首先對並行解碼進行了信息理論分析。接著,我們從數據分佈和解碼策略的角度,對可解析的合成列表操作進行了案例研究,提供了定量見解,凸顯了並行解碼的根本限制。基於這些見解,我們提出了ParallelBench,這是首個專為dLLMs設計的基準測試,包含對人類和自回歸LLMs來說輕而易舉但對並行解碼下的dLLMs極具挑戰性的現實任務。通過ParallelBench,我們系統地分析了dLLMs和自回歸LLMs,發現:(i)在現實場景中,並行解碼下的dLLMs可能遭受顯著的質量下降;(ii)當前的並行解碼策略難以根據任務難度調整其並行度,因而無法在不犧牲質量的情況下實現有意義的加速。我們的研究結果強調了迫切需要創新的解碼方法來克服當前速度與質量的權衡。我們公開了我們的基準測試,以幫助加速真正高效的dLLMs的發展。
多智能体系统(MAS)与强化学习(RL)被广泛用于增强大型语言模型(LLMs)的代理能力。MAS通过基于角色的编排提升任务执行效率,而RL则利用环境奖励学习更优策略,如GRPO式优化。然而,将在线策略RL应用于MAS仍属探索不足的领域,并面临独特挑战。算法层面,标准的GRPO分组假设因提示随角色及轮次变化而失效。系统层面,训练栈需支持MAS工作流程的展开及对单策略与多策略模型的在线策略更新。 我们提出AT-GRPO,其包含(i)专为MAS设计的智能体与轮次分组RL算法,以及(ii)支持单策略与多策略模式的训练系统。在游戏、规划、编程及数学任务中,AT-GRPO均带来显著提升。在长期规划任务上,它将单智能体RL基线14.0%至47.0%的准确率提升至96.0%至99.5%。同时,它亦改善了推理表现,在编程任务上平均提升3.87%至7.62%,在数学任务上提升9.0%至17.93%。代码与环境可访问:https://github.com/pettingllms-ai/PettingLLMs。
我們提出了生成式通用驗證器這一新穎概念及插件,專為下一代視覺語言模型和統一多模態模型中的多模態推理而設計,在推理和生成過程中提供了對視覺結果進行反思與精煉的基礎能力。本工作主要貢獻有三:(1) 我們構建了ViVerBench,這是一個涵蓋16類關鍵任務的綜合基準,用於評估多模態推理中的視覺結果。結果顯示,現有的視覺語言模型在這些任務上普遍表現不佳,凸顯了與人類在可靠視覺驗證能力上的顯著差距。(2) 我們設計了兩條自動化流水線來構建大規模視覺驗證數據,並訓練了OmniVerifier-7B,這是首個為通用視覺驗證訓練的全能生成式驗證器,在ViVerBench上取得了顯著提升(+8.3)。通過訓練,我們識別了視覺驗證中的三項基本能力,並展示了它們如何協同泛化與互動。(3) 我們提出了OmniVerifier-TTS,這是一種序列化測試時擴展範式,利用通用驗證器在統一模型內橋接圖像生成與編輯,通過迭代的細粒度優化提升生成能力的上限。除生成外,我們還將通用驗證器擴展至更廣泛的世界建模交錯推理場景。實證表明,OmniVerifier-TTS在T2I-ReasonBench(+3.7)和GenEval++(+4.3)上取得了改進,超越了現有的並行測試時擴展方法,如Best-of-N。通過賦予多模態推理可靠的視覺驗證能力,OmniVerifier不僅提升了生成過程中的可靠反思,還實現了可擴展的測試時精煉,標誌著向更可信、更可控的下一代推理系統邁進了一步。
生成模型已广泛应用于环境模拟与未来状态预测的世界建模中。随着自动驾驶技术的进步,不仅对在各种控制下生成高保真视频的需求日益增长,而且对产生多样且有意义的信息(如深度估计)的需求也在增加。为此,我们提出了CVD-STORM,一种利用空间-时间重建变分自编码器(VAE)的跨视角视频扩散模型,该模型能够在多种控制输入下生成具有4D重建能力的长期多视角视频。我们的方法首先通过辅助的4D重建任务对VAE进行微调,增强其编码3D结构和时间动态的能力。随后,我们将此VAE整合到视频扩散过程中,显著提升了生成质量。实验结果表明,我们的模型在FID和FVD指标上均取得了显著改进。此外,联合训练的高斯溅射解码器有效地重建了动态场景,为全面场景理解提供了宝贵的几何信息。
我們推出InternVLA-M1,這是一個用於空間定位與機器人控制的統一框架,旨在推動指令跟隨型機器人向可擴展、通用智能方向發展。其核心理念是空間引導的視覺-語言-動作訓練,其中空間定位作為連接指令與機器人動作的關鍵橋樑。InternVLA-M1採用兩階段流程:(i) 在超過230萬條空間推理數據上進行空間定位預訓練,通過將指令與視覺、無關具體形態的位置對齊來確定“在哪裡行動”;(ii) 空間引導的動作後訓練,通過即插即用的空間提示生成與形態相關的動作,決定“如何行動”。這種空間引導的訓練方法帶來了持續的性能提升:在SimplerEnv Google Robot上,InternVLA-M1比無空間引導的版本高出14.6%,在WidowX上高出17%,在LIBERO Franka上高出4.3%,同時在盒子、點和軌跡預測中展現出更強的空間推理能力。為了進一步擴展指令跟隨能力,我們構建了一個模擬引擎,收集了24.4萬個可泛化的抓取放置場景,使得在200個任務和3000多個對象上的平均性能提升了6.2%。在現實世界的密集抓取放置任務中,InternVLA-M1提升了7.3%,結合合成數據共同訓練,對未見物體和新配置的表現提升了20.6%。此外,在長時序推理密集型場景中,它超越了現有工作超過10%。這些成果凸顯了空間引導訓練作為構建可擴展且魯棒的通用機器人的統一原則。代碼和模型可在https://github.com/InternRobotics/InternVLA-M1獲取。
人工智慧(AI)的前沿研究需要大量資源,包括圖形處理單元(GPU)、數據以及人力資源。本文評估了這些資源與基礎模型(FM)科學進展之間的關係。我們回顧了2022年至2024年間發表的6517篇FM論文,並對229位第一作者進行了調查,探討計算資源對科學產出的影響。我們發現,計算資源的增加與國家資金分配和引用次數相關,但我們的研究並未觀察到與研究環境(學術或工業)、領域或研究方法之間的強烈關聯。我們建議個人和機構專注於創造共享且負擔得起的計算機會,以降低資源不足研究者的進入門檻。這些措施有助於擴大FM研究的參與度,促進思想和貢獻者的多樣性,並維持AI的創新與進步。相關數據將公開於:https://mit-calc.csail.mit.edu/
本文主張,三維視覺定位是空間推理的基石,並引入Grounded-Spatial Reasoner(GS-Reasoner)來探索能有效連接二者的空間表徵。現有的三維大型語言模型因缺乏能同時捕捉語義與幾何資訊的統一三維表徵而受限,這一缺陷表現為定位性能不佳或過度依賴外部模組,最終阻礙了定位與空間推理的無縫整合。為解決此問題,我們提出了一種簡單而有效的雙路徑池化機制,該機制緊密對齊幾何特徵與語義及位置線索,構建了一個基於圖像塊的統一三維表徵,該表徵囊括了所有必要資訊且不增加輸入標記的數量。利用這一全面表徵,GS-Reasoner成為首個完全無需外部模組即可實現自回歸定位的三維大型語言模型,其性能媲美頂尖模型,為三維空間推理建立了一個統一且自洽的框架。為進一步橋接定位與空間推理,我們引入了Grounded Chain-of-Thought(GCoT)數據集。該數據集精心設計,包含推理問題中提及物件的三維邊界框註釋,以及將定位作為問題解決過程核心的逐步推理路徑。大量實驗表明,GS-Reasoner在三維視覺定位上取得了令人印象深刻的成果,這反過來顯著提升了其空間推理能力,使其達到了頂尖性能。
成功的通用視覺-語言-動作(VLA)模型依賴於在多樣化機器人平台上進行有效訓練,並利用大規模、跨體現、異質數據集。為了促進並利用豐富多樣的機器人數據源中的異質性,我們提出了一種新穎的軟提示方法,僅需添加極少參數,通過將提示學習概念融入跨體現機器人學習,並為每個獨特數據源引入可學習的嵌入集。這些嵌入作為體現特定的提示,共同賦予VLA模型有效利用不同跨體現特徵的能力。我們的新X-VLA,一種基於流匹配的簡潔VLA架構,完全依賴於軟提示的標準Transformer編碼器,兼具可擴展性和簡潔性。在6個模擬環境及3個真實世界機器人上的評估中,我們的0.9B實例——X-VLA-0.9B,在一系列基準測試中同時達到了SOTA性能,展示了從靈活靈巧性到跨體現、環境和任務快速適應的廣泛能力軸上的優異成果。網站:https://thu-air-dream.github.io/X-VLA/
通用多模態嵌入模型是各類任務的基礎。現有方法通常通過測量查詢-候選對的相似性來進行批次內負樣本挖掘。然而,這些方法往往難以捕捉候選樣本間的細微語義差異,且負樣本缺乏多樣性。此外,嵌入在區分假負樣本和困難負樣本時表現出有限的辨別能力。本文利用多模態大語言模型(MLLMs)的高級理解能力來增強表示學習,提出了一種新穎的通用多模態嵌入模型(UniME-V2)。我們的方法首先通過全局檢索構建潛在的困難負樣本集。接著引入MLLM-as-a-Judge機制,利用MLLMs評估查詢-候選對的語義對齊並生成軟語義匹配分數。這些分數作為困難負樣本挖掘的基礎,減輕了假負樣本的影響,並能識別出多樣化、高質量的困難負樣本。此外,語義匹配分數被用作軟標籤,以緩解嚴格的一對一映射約束。通過將相似度矩陣與軟語義匹配分數矩陣對齊,模型能夠學習候選樣本間的語義區別,顯著提升其辨別能力。為了進一步提升性能,我們提出了UniME-V2-Reranker,這是一個通過聯合成對和列表優化方法在我們挖掘的困難負樣本上訓練的重新排序模型。我們在MMEB基準和多個檢索任務上進行了全面實驗,結果表明我們的方法在所有任務上平均達到了最先進的性能。
本研究提出了一種名為遮罩退化分類預訓練方法(MaskDCPT),旨在促進輸入圖像中退化類型的分類,從而實現全面的圖像復原預訓練。與傳統的預訓練方法不同,MaskDCPT利用圖像的退化類型作為極弱的監督信號,同時通過圖像重建來提升性能和魯棒性。MaskDCPT包含一個編碼器和兩個解碼器:編碼器從遮罩的低質量輸入圖像中提取特徵;分類解碼器利用這些特徵來識別退化類型,而重建解碼器則致力於重建相應的高質量圖像。這種設計使得預訓練能夠同時受益於遮罩圖像建模和對比學習,從而生成適合復原任務的通用表示。得益於簡潔而強大的MaskDCPT,預訓練後的編碼器可用於解決通用圖像復原問題,並取得卓越的性能。實施MaskDCPT顯著提升了卷積神經網絡(CNNs)和Transformer的性能,在5D全能復原任務中PSNR至少提高了3.77 dB,在真實世界退化場景中PIQE相比基線降低了34.8%。此外,它還展現出對先前未見過的退化類型和級別的強大泛化能力。此外,我們整理並發布了UIR-2.5M數據集,該數據集包含250萬對復原樣本,涵蓋19種退化類型和超過200個退化級別,結合了合成數據和真實世界數據。數據集、源代碼和模型可在https://github.com/MILab-PKU/MaskDCPT獲取。
通過運用大型語言模型(LLMs)來檢索文件並生成自然語言回應,生成式引擎(如Google AI概覽和ChatGPT)提供了顯著提升的用戶體驗,並迅速成為搜索的新形式。它們的快速普及也推動了生成式引擎優化(GEO)的需求,因為內容提供者渴望從中獲得更多關注。在本文中,我們介紹了AutoGEO,這是一個框架,用於在使用檢索內容生成回應時自動學習生成式引擎的偏好,並重寫網絡內容以獲得更多此類關注。AutoGEO首先提示前沿的LLMs解釋生成式引擎的偏好,並從這些解釋中提取有意義的偏好規則。然後,它將這些偏好規則用作AutoGEO_API(一個基於提示的GEO系統)的上下文工程,並作為基於規則的獎勵來訓練AutoGEO_Mini(一個成本效益高的GEO模型)。在標準的GEO-Bench和兩個新構建的基準上使用真實用戶查詢進行的實驗證明了AutoGEO在增強內容關注度同時保持搜索效用方面的有效性。分析確認了學習到的規則的穩健性及其在捕捉不同領域獨特偏好方面的能力,以及AutoGEO系統在內容優化中嵌入這些規則的能力。代碼已發佈於https://github.com/cxcscmu/AutoGEO。
統一多模態模型旨在同時實現視覺理解與生成,然而現有的基準測試鮮少檢驗其真正的整合性。現有的評估要么將這兩種能力孤立對待,要么忽視了那些本質上將它們耦合的任務。為填補這一空白,我們提出了Uni-MMMU,這是一個全面且學科意識的基準測試,系統地展開了生成與理解之間在八個以推理為核心的領域(包括科學、編程、數學和謎題)的雙向協同作用。每項任務均為雙向耦合,要求模型(i)利用概念理解來指導精確的視覺合成,或(ii)將生成作為分析推理的認知支架。Uni-MMMU整合了可驗證的中間推理步驟、獨特的真實值,以及針對文本和視覺輸出的可重複評分協議。通過對最先進的統一模型、僅生成模型和僅理解模型進行廣泛評估,我們揭示了顯著的性能差異和跨模態依賴性,為這些能力何時以及如何相互強化提供了新的見解,並為推進統一模型奠定了可靠的基礎。
細粒度視覺語言理解要求視覺內容與語言描述之間的精確對齊,這一能力在當前模型中仍顯不足,尤其是在非英語環境下。儘管如CLIP等模型在全局對齊上表現出色,但在捕捉物體屬性、空間關係及語言表達的細微差異方面常感吃力,且對雙語理解的支持有限。為應對這些挑戰,我們推出了FG-CLIP 2,這是一款專為提升英語和漢語細粒度對齊而設計的雙語視覺語言模型。我們的方法融合了豐富的細粒度監督,包括區域文本匹配與長描述建模,並結合多種判別目標。此外,我們引入了文本模態內對比(TIC)損失,以更好地區分語義相近的描述。通過在精心挑選的大規模英漢數據集上訓練,FG-CLIP 2展現了強大的雙語性能。為實現嚴謹評估,我們提出了一個新的中文多模態理解基準,涵蓋長描述檢索與邊界框分類。在8項任務、29個數據集上的廣泛實驗表明,FG-CLIP 2超越了現有方法,在兩種語言中均取得了領先成果。我們公開了模型、代碼及基準,以促進未來在雙語細粒度對齊領域的研究。
模型融合,尤其是在指令型和思考型模型上的應用,已展現出卓越的推理效率。本文中,我們系統性地重新審視了最簡單的模型融合方法——直接對兩個模型的權重進行插值。特別地,我們觀察到模型插值遵循一個三階段的演化模式,在推理軌跡上呈現出不同的行為特徵。這些動態特性為權衡性能與成本提供了原則性的指導。實驗結果表明,策略性地進行插值的模型在效率和效果上意外地超越了複雜的模型融合基線。我們進一步通過對模型層次、模組和解碼策略的廣泛消融研究驗證了這些發現。最終,本研究揭開了模型插值的神秘面紗,並提供了一個實用框架,用於精準打造具有特定推理能力的模型。相關代碼已開源於https://github.com/wutaiqiang/MI{Github}。
近期大型語言模型(LLMs)的進展主要集中在測試階段的擴展,通過增加推理計算來提升推理能力,但這往往以效率為代價。我們重新審視了測試階段的行為,並發現了一個簡單卻未被充分探索的現象:推理的不確定性具有高度局部性——僅有一小部分高熵的token主導影響輸出的正確性。基於此,我們提出了最小測試階段干預(MTI),這是一個無需訓練的框架,能夠以最小的開銷提升推理的準確性和穩定性。MTI包括:(i)選擇性CFG干預,僅在不確定位置應用無分類器指導;以及(ii)輕量級負提示指導,重用主模型的KV緩存來高效地近似無條件解碼。MTI在通用、編程和STEM任務中均取得了穩定的增益——例如,Qwen3-8B-Base在八個基準測試中平均提升了1.35%,而使用Qwen3-32B-Reasoning在AIME2024上提升了5%——同時保持了極高的效率。
僅解碼器架構的Transformer已成為大型語言模型(LLMs)的標準架構,因其卓越的性能而備受青睞。近期研究表明,在預訓練的LLMs中,模型的早期、中期和晚期層可能承擔著不同的角色:早期層專注於理解輸入上下文,中期層處理特定任務的運算,而晚期層則將抽象表示轉化為輸出詞元。我們提出假設,一旦表示經過早期和中期層的處理,所得到的隱藏狀態可能已包含足夠的信息,僅需晚期層即可支持多個詞元的生成,從而無需重複遍歷早期和中期層。我們將這一推理範式稱為直接多詞元解碼(Direct Multi-Token Decoding, DMTD)。與推測解碼不同,我們的方法不引入額外參數、輔助程序或生成後驗證。儘管在有限數據集上進行了訓練,經過微調的DMTD Qwen3-4B模型已展現出令人鼓舞的成果,實現了最高達2倍的加速,且僅伴隨輕微的性能損失。此外,如我們的規模分析所示,隨著訓練數據集的擴大,其性能有望進一步提升。
可訓練稀疏注意力已成為解決大型語言模型(LLM)在長上下文處理中解碼效率瓶頸的一種有前景的解決方案,顯著節省了記憶體訪問,同時對任務性能的影響最小。然而,現有的稀疏注意力方法未能解決一個關鍵限制:鍵值(KV)快取的大小仍未減少,這限制了GPU上的批次大小並抑制了解碼吞吐量,特別是在大規模批次推理中。本文中,我們展示了可訓練稀疏注意力在相鄰解碼步驟中的標記選擇上自然表現出強烈的局部性,從而實現了在不改變底層注意力計算的情況下進行KV快取卸載。然而,固有的局部性仍不足以實現高效的卸載,因為所選KV對在CPU和GPU之間的傳輸仍然主導著整體解碼成本。基於這一洞察,我們提出了NOSA,一個專為原生支持KV快取卸載而設計的可訓練稀疏注意力框架。NOSA通過將標記選擇分解為查詢感知和查詢無關的組件,引入了顯式的局部性約束,從而減少了KV傳輸,同時保持了與訓練期間相同的注意力計算。我們使用NOSA預訓練了一個10億參數的模型,並進行了廣泛的基準測試,結果表明它在保持近乎無損性能的同時,與基礎的可訓練稀疏注意力基線(InfLLM-V2)相比,解碼吞吐量提高了最多2.3倍。
機器人操作策略往往難以泛化至新穎物體,這限制了其實際應用價值。相比之下,認知科學研究表明,兒童通過掌握一組簡單玩具,並將此知識應用於更複雜的物品,從而發展出可泛化的精細操作技能。受此啟發,我們探討機器人是否也能實現類似的泛化能力。研究結果表明,機器人能夠利用僅由四種基本形狀(球體、立方體、圓柱體和環形)隨機組裝而成的物體,學習到可泛化的抓取技能。我們證明,在這些“玩具”上進行訓練,能夠使機器人對現實世界中的物體實現穩健的泛化,展現出強大的零樣本性能。關鍵在於,我們發現這種泛化的核心在於由我們提出的檢測池化機制誘導出的以物體為中心的視覺表徵。在模擬和實體機器人上的評估中,我們的模型在YCB數據集上達到了67%的實際抓取成功率,超越了依賴大量域內數據的最先進方法。我們進一步研究了通過改變訓練玩具的數量與多樣性以及每個玩具的示範次數,零樣本泛化性能如何變化。我們相信,這項工作為機器人操作中的可擴展和可泛化學習提供了一條有前景的路徑。演示視頻、代碼、檢查點及我們的數據集可在項目頁面獲取:https://lego-grasp.github.io/。
僅通過模仿學習(IL)訓練的端到端自動駕駛模型往往存在泛化能力不足的問題。相比之下,強化學習(RL)通過獎勵最大化促進探索,但面臨樣本效率低下和收斂不穩定等挑戰。一個自然的解決方案是將IL和RL結合起來。我們超越了傳統的兩階段範式(先進行IL預訓練,再進行RL微調),提出了CoIRL-AD,這是一個競爭性的雙策略框架,使IL和RL代理在訓練過程中能夠互動。CoIRL-AD引入了一種基於競爭的機制,促進知識交換的同時避免梯度衝突。在nuScenes數據集上的實驗顯示,與基線相比,碰撞率降低了18%,並且在長尾場景中表現出更強的泛化能力和改進的性能。代碼可在以下網址獲取:https://github.com/SEU-zxj/CoIRL-AD。
近期,基於大型語言模型的多智能體系統在有效溝通方面展現了顯著的集體智能。然而,現有方法面臨兩個主要挑戰:(i)群體協作建模效果不佳,因為它們依賴於圖結構中的成對邊表示,限制了捕捉多智能體之間關係的能力;(ii)通信拓撲設計的任務適應性有限,導致簡單任務的通信成本過高,而複雜場景的協調不足。這些問題限制了自適應協作框架的可擴展性和實際部署。為解決這些挑戰,我們提出了HyperAgent,這是一個基於超圖的框架,通過直接超邊表示優化通信拓撲並有效捕捉群體協作模式。與基於邊的方法不同,HyperAgent使用超邊將同一子任務中的多個智能體連接起來,並利用超圖卷積層實現協作組中的一步信息聚合。此外,它結合了帶有稀疏正則化的變分自編碼器框架,根據任務複雜度動態調整超圖拓撲。實驗結果凸顯了HyperAgent在性能和效率上的優勢。例如,在GSM8K上,HyperAgent達到了95.07%的準確率,同時減少了25.33%的token消耗,展示了基於超圖優化在多智能體通信中的潛力。
基於大型語言模型(LLM)的推理系統近期在2025年國際數學奧林匹克(IMO)競賽中達到了金牌級別的表現,能夠撰寫數學證明,其中每一步不僅需要正確,還必須得到充分的支持才能獲得滿分。要在這種具有挑戰性且開放式的環境中訓練基於LLM的推理系統,具備捕捉步驟級錯誤能力的強大驗證器是必要的前提。我們引入了Hard2Verify,這是一個經過人工註釋的步驟級驗證基準,耗費了超過500小時的人力資源。Hard2Verify旨在嚴格評估前沿的步驟級驗證器:驗證器必須提供步驟級註釋,或識別由前沿LLM生成的針對近期、具挑戰性且開放式數學問題的回應中的第一個錯誤。我們評估了29個生成式批評器和過程獎勵模型,結果顯示,除少數表現突出者外,開源驗證器落後於閉源模型。我們隨後分析了導致步驟級驗證性能不佳的原因、驗證器計算規模擴展的影響,以及自我驗證和驗證-生成動態等基本問題。
多輪文本到SQL的目標是將用戶的對話語句轉化為可執行的SQL,同時保持對話的連貫性並與目標模式相契合。然而,現有的大多數系統僅將此任務視為簡單的文本翻譯任務,並遵循短視野範式,每輪生成一個查詢而不進行執行、顯式驗證和精煉,這導致了不可執行或不連貫的輸出。我們提出了MTSQL-R1,這是一個面向長視野多輪文本到SQL的代理訓練框架。我們將該任務建模為馬爾可夫決策過程(MDP),其中代理與(i)數據庫進行交互以獲取執行反饋,以及(ii)持久對話記憶以進行連貫性驗證,執行一個迭代的提議執行 -> 驗證 -> 精煉的循環,直到所有檢查通過。在COSQL和SPARC上的實驗表明,MTSQL-R1始終優於強基線,突顯了環境驅動的驗證和記憶引導的精煉在對話語義解析中的重要性。完整的配方(包括代碼、訓練模型、日誌、推理軌跡等)將在內部審查後發布,以貢獻於社區研究。
多智能體大型語言模型(LLM)系統在處理需要智能體間溝通與協調的複雜語言任務時,其應用日益廣泛。然而,這些系統常因智能體間重複處理重疊上下文而產生顯著開銷。在典型流程中,一旦智能體接收到前序智能體的消息,包括先前輪次在內的完整上下文必須從頭重新處理,導致處理效率低下。雖然鍵值(KV)緩存技術在單智能體場景下能有效避免前綴不變時的冗餘計算,但由於多智能體場景中智能體特有的上下文擴展導致前綴分叉,該技術無法直接複用。我們發現,核心挑戰在於跨智能體的KV緩存偏移量存在差異。為此,我們提出了KVCOMM,這是一個無需訓練的框架,通過在多智能體推理中重用KV緩存並在多樣前綴上下文下對齊重疊上下文的緩存偏移,實現高效預填充。KVCOMM通過參考一組存儲了不同前綴下觀察到的緩存偏差的示例(稱為錨點)來估計和調整共享內容的KV緩存。錨點池在線維護和更新,能夠動態適應不同的用戶請求和上下文結構。KVCOMM在多樣化的多智能體工作負載上實現了超過70%的緩存重用率,包括檢索增強生成、數學推理和協作編碼任務,且無需犧牲質量。特別是在五智能體設置下,當每個全連接智能體接收1K輸入令牌(其中512為前綴令牌,512為輸出令牌)時,KVCOMM相比標準預填充流程實現了最高7.8倍的加速,將首次令牌生成時間(TTFT)從約430毫秒縮短至約55毫秒。
追踪器與視頻生成器解決的是密切相關的問題:前者分析運動,後者則合成運動。我們展示了這種聯繫使得預訓練的視頻擴散模型能夠通過簡單地提示它們在時間推移中視覺標記點來執行零樣本點追踪。我們在查詢點放置一個獨特色彩的標記,然後從中間噪聲水平重新生成視頻的其餘部分。這將標記跨幀傳播,描繪出點的軌跡。為了確保在這種反事實生成中標記保持可見,儘管這樣的標記在自然視頻中不太可能出現,我們使用未編輯的初始幀作為負面提示。通過對多個圖像條件視頻擴散模型的實驗,我們發現這些“湧現”的追踪軌跡超越了先前的零樣本方法,並在遮擋情況下持續存在,通常能獲得與專門的自監督模型相媲美的性能。
對齊訓練存在權衡:它幫助語言模型(LMs)提升推理和指令遵循能力,但可能在創造力和校準等技能上有所損失,這些方面未對齊的基礎模型表現更佳。我們旨在通過模型協作來兼顧兩者之長,讓訓練流程中的不同模型相互協作、互補。由於LM回應中交織著適合不同模型的技能,我們提出了切換生成(Switch Generation),讓預訓練和對齊的模型版本在回應序列中輪流「發言」。具體而言,我們通過學習在不同查詢和上下文中選擇不同模型生成下一段的結果,來訓練一個切換器LM。在推理時,切換器LM引導不同的模型檢查點動態生成下一段,在它們最擅長的領域發揮作用。通過與8個模型協作基線和18個數據集的廣泛實驗表明:1)模型協作在18項任務中的16項上持續超越單一模型,2)切換生成進一步平均超越基線12.9%。深入分析揭示,切換生成發現了組合技能來解決單一模型難以應對的問題,並能泛化到未見的模型和任務,重新利用和轉化昂貴模型訓練流程中通常被丟棄的副產品。
基於大型語言模型的多智能體系統在複雜任務中通過協調合作表現出色,但在多輪深度搜索場景中卻面臨高失敗率。現有的時間歸因方法難以準確診斷根本原因,尤其是在錯誤在多個智能體之間傳播的情況下。通過分析動作序列來自動化失敗歸因的嘗試仍然無效,因為這些方法無法考慮跨智能體的信息依賴性。本文識別了兩個核心挑戰:(i) 在多智能體錯誤傳播中區分症狀與根本原因,以及 (ii) 追蹤超越時間順序的信息依賴性。為解決這些問題,我們引入了GraphTracer,這是一個通過信息流分析重新定義失敗歸因的框架。GraphTracer構建信息依賴圖(IDGs)來明確捕捉智能體如何引用和基於先前的輸出。它通過追蹤這些依賴結構來定位根本原因,而不是依賴於時間序列。GraphTracer還使用圖感知的合成數據生成來針對關鍵節點,創建真實的失敗場景。在Who\&When基準上的評估以及在生產系統中的集成表明,GraphTracer-8B相比最先進的模型,歸因準確率提高了高達18.18%,並在部署的多智能體框架中實現了4.8%到14.2%的性能提升,為多智能體系統調試提供了一個強大的解決方案。
随着推理语言模型及测试时扩展方法作为提升模型性能范式的兴起,通常需要大量计算资源从同一提示生成多个候选序列。这一做法虽能探索通往正确答案的不同推理路径,却为每个提示分配了相同的计算预算。基于不同提示承载着不同复杂程度因而具有不同计算需求的假设,我们提出了EAGer,一种无需训练即可通过基于词元熵分布利用模型不确定性的生成方法,旨在减少冗余计算并同时提升整体性能。EAGer仅在高熵词元出现时允许多推理路径的分支,并将节省的计算预算重新分配到最需要探索替代路径的实例上。我们发现,在诸如AIME 2025等复杂推理基准测试中,EAGer无需访问目标标签即可重新分配预算,在推理长度和Pass@k方面实现了最佳效率与性能的平衡。当目标标签可获取时,与全并行采样相比,EAGer生成的词元数量最多减少65%(从而节省计算资源),并在Pass@k上实现了高达37%的提升。
現代長上下文大型語言模型(LLMs)在合成性的「大海撈針」(NIAH)基準測試中表現出色,但此類測試忽略了由偏見檢索和代理工作流程產生的噪聲上下文。我們認為,為了測試模型的長上下文魯棒性,有必要進行「草堆工程」以構建能夠真實反映關鍵現實因素的噪聲長上下文——即來自異質性偏見檢索器的干擾以及代理工作流程中的級聯錯誤。我們通過HaystackCraft實現了這一點,這是一個基於完整英文維基百科超鏈接網絡並包含多跳問題的新NIAH基準測試。HaystackCraft評估了異質性檢索策略(如稀疏、密集、混合及基於圖的檢索)如何影響干擾項的構成、草堆的排序以及下游LLM的表現。HaystackCraft進一步將NIAH擴展至模擬代理操作的動態、依賴於LLM的環境中,在此環境中模型會精煉查詢、反思其過去的推理並決定何時停止。對15個長上下文模型的實驗表明:(1)雖然更強的密集檢索器可能引入更具挑戰性的干擾項,但基於圖的重新排序同時提高了檢索效率並減少了更具危害性的干擾項;(2)在代理測試中,即使是Gemini 2.5 Pro和GPT-5等先進模型,也會因自我生成的干擾項而遭遇級聯失敗,或難以實現早期停止。這些結果凸顯了代理長上下文推理中持續存在的挑戰,並確立了HaystackCraft作為未來進展的重要測試平台。
大型語言模型(LLMs)展現出與人類相當甚至更優越的語言能力,能有效模擬句法結構,然而負責這些能力的具體計算模組仍不明確。一個關鍵問題是,LLM的行為能力是否源自與人腦相似的機制。為探討這些問題,我們引入了層次頻率標記探針(HFTP),這是一種利用頻域分析來識別LLM中負責句法結構的神經元層面組件(例如,個別多層感知器(MLP)神經元)及皮質區域(通過顱內記錄)的工具。我們的結果顯示,如GPT-2、Gemma、Gemma 2、Llama 2、Llama 3.1及GLM-4等模型在處理句法時使用相似的層次,而人腦則依賴不同的皮質區域來處理不同層次的句法。表徵相似性分析揭示,LLM的表徵與大腦左半球(主導語言處理)之間存在更強的對應關係。值得注意的是,升級後的模型呈現出不同的趨勢:Gemma 2比Gemma更接近大腦,而Llama 3.1與大腦的對應程度則低於Llama 2。這些發現為LLM行為改進的可解釋性提供了新的見解,並引發了這些進步是否由類人機制或非類人機制驅動的疑問,同時確立了HFTP作為連接計算語言學與認知神經科學的重要工具。本項目可於https://github.com/LilTiger/HFTP獲取。
随着DeepSeek-R1的问世,一股新的强化学习(RL)方法浪潮涌现,似乎解锁了更强大的数学推理能力。然而,深入审视开源生态系统后,我们发现了一个关键局限:在足够多的采样次数下(例如,pass@1024),许多现有的基础模型已经能够解决广泛使用的数学基准测试(如MATH-500和AIME 2024)中的几乎所有问题。这表明,在大型语言模型(LLM)推理文献中盛行的RL微调方法,主要是对现有解题模式的精炼,而非发现全新的解题方式。这种精炼与RL更广泛的承诺——促进探索和获取新技能——形成了鲜明对比。为了突破这一瓶颈,我们引入了MATH-Beyond(MATH-B),这是一个特意构建的基准测试,旨在即使在大量采样预算下,也能击败参数规模高达8B的常见开源模型。通过RL提升在我们基准测试上的表现,需要那些能够在重复采样中超越基础模型能力进行推理的方法。由于问题选自DAPO-Math-17K和DeepScaleR数据集的子集,它们在主题上仍与标准高中数学保持一致。验证我们的假设,经过RL微调的模型,如Nemotron-Research-Reasoning-Qwen-1.5B和DeepScaleR-1.5B-Preview,在pass@1024下在MATH-B上表现不佳,显示了现有方法在处理更难题例时的不足。我们希望MATH-B能够催化探索驱动的RL方法,激发更深层次的推理能力。我们已在https://huggingface.co/datasets/brendel-group/MATH-Beyond发布了MATH-B。
遠端推理使得輕量級設備能夠利用強大的雲端模型。然而,通信網絡的延遲導致預測結果陳舊,不適合實時任務。為解決這一問題,我們提出了Dedelayed,這是一種延遲校正方法,能夠減輕任意遠端推理延遲,使本地設備能夠實時產生低延遲輸出。我們的方法採用了一個輕量級的本地模型,該模型處理當前幀並融合由重量級遠端模型從過去幀計算出的特徵。在BDD100K駕駛數據集的視頻上,Dedelayed在所有超過33毫秒的實際通信網絡延遲下,均優於僅本地和僅遠端基線中較強者的語義分割精度。在不引入額外延遲的情況下,與完全本地推理相比,其精度提高了6.4 mIoU,與遠端推理相比,提高了9.8 mIoU,往返延遲為100毫秒。在更長的延遲和更高運動場景下,這一優勢更加明顯,因為延遲減輕的分割推理更有效地保持了精度,為必須與當前世界狀態保持一致的實時任務提供了明顯優勢。
推理模型通过推理时的规模扩展,分配更多计算资源以延长令牌预算,从而提升其问题解决能力。识别哪些推理轨迹可能成功仍是一个关键机遇:可靠预测有效路径能显著减少计算浪费并提高整体效率。我们引入了潜在轨迹信号,这些信号刻画了模型在生成中间推理令牌过程中内部表征的时间演变。通过测量推理开始与结束之间潜在表征的总体变化、跨中间步骤累积的变化,以及这些变化向最终状态推进的程度,我们展示了这些信号比跨层度量和基于输出的置信度测量更能可靠地预测解决方案的准确性。当用于指导跨多个采样生成的答案选择时,潜在轨迹信号使得测试时的规模扩展比多数投票更为有效和高效,在保持甚至平均提高2.6%准确率的同时,最多减少了70%的令牌使用。此外,这些预测信号往往在推理轨迹早期出现,使得能够早期选择并分配计算资源给最有希望的候选者。我们的发现不仅贡献了推理时效率的实用策略,还从更深层次的可解释性视角揭示了推理过程在潜在空间中的表示与区分方式。
大型語言模型(LLMs)的出現為遊戲環境中創建動態非玩家角色(NPCs)開闢了新機遇,使其既能執行功能性任務,又能生成符合角色設定的對話。本文中,我們(Tu_Character_lab)報告了參與2025年第二輪常識角色對話挑戰賽(CPDC)的情況,該賽事在三個賽道上評估智能體:任務導向對話、上下文感知對話及其整合。我們的方法結合了兩種互補策略:(i) 在API賽道中採用輕量級提示技術,包括一種去角色化提示方法,以抑制過度角色扮演並提升任務忠實度;(ii) 在GPU賽道中利用Qwen3-14B模型進行監督微調(SFT)和低秩適應(LoRA)的微調大模型。我們的最佳提交在任務1中排名第2,在API賽道的任務3中排名第2,在GPU賽道的任務3中排名第4。
推理不僅關乎解決問題——更在於評估哪些問題真正值得解決。對人工智慧(AI)系統的評估歷來主要聚焦於問題解決能力,例如研究模型如何下棋或玩圍棋。本文中,我們倡導一種新範式,即評估AI系統對遊戲的評價能力。首先,我們引入了一種形式化方法來評估此類評價。接著,我們利用一個包含超過100種新穎棋盤遊戲和450多條人類評判的大規模數據集,將現代語言與推理模型產生的評價與人類及符號計算代理的評價進行比較。我們考慮了兩類評估性查詢:評估遊戲的收益(或公平性)以及趣味性。這些查詢涵蓋了設計AI評估的兩個相關維度:查詢的計算複雜度與量化難度。結果顯示,在遊戲評價上,推理模型通常比非推理語言模型更貼近人類。然而,我們觀察到一種非單調關係:隨著模型趨近於博弈論最優,其與人類數據的契合度反而降低。在評估趣味性時,我們也觀察到模型間存在更多“波動性”,這與量化此類查詢的更大難度相符。無論是針對哪種查詢或遊戲,推理模型在評估查詢時均表現出高度變異且不可預測的資源使用情況,這凸顯了在語言與推理模型中融入更多資源理性元推理的重要性。