每日精選AI研究論文及翻譯
我們推出Pangu Ultra,這是一個擁有1350億參數的大型語言模型(LLM),其密集的Transformer模組在昇騰神經處理單元(NPU)上進行訓練。儘管近年來LLM領域在推動模型規模與能力方面取得了前所未有的進展,但訓練如此大規模的模型仍面臨著重大的優化與系統挑戰。為穩定訓練過程,我們提出了深度縮放三明治歸一化方法,有效消除了深度模型訓練過程中的損失尖峰。我們在13.2萬億個多樣且高質量的token上對模型進行了預訓練,並在後續訓練中進一步增強了其推理能力。為高效執行如此大規模的訓練,我們利用了8,192個昇騰NPU,並實施了一系列系統優化。在多樣化基準測試中的評估表明,Pangu Ultra顯著提升了如Llama 405B和Mistral Large 2等密集LLM的現有技術水平,甚至與參數量更為龐大的稀疏模型結構DeepSeek-R1相比,也取得了競爭性的結果。我們的探索證明,昇騰NPU能夠高效且有效地訓練超過1000億參數的密集模型。我們的模型與系統將面向商業客戶開放。
我們推出Kimi-VL,這是一款高效的開源專家混合(MoE)視覺語言模型(VLM),具備先進的多模態推理能力、長上下文理解能力以及強大的代理功能——其語言解碼器僅激活2.8B參數(Kimi-VL-A3B)。Kimi-VL在多個挑戰性領域展現出卓越性能:作為一款通用VLM,它在多輪代理任務(如OSWorld)中表現出色,與旗艦模型相媲美。此外,它在多樣化的視覺語言任務中展現出顯著能力,包括大學級別的圖像和視頻理解、OCR、數學推理以及多圖像理解。在比較評估中,它有效地與GPT-4o-mini、Qwen2.5-VL-7B和Gemma-3-12B-IT等尖端高效VLM競爭,並在多個關鍵領域超越GPT-4o。Kimi-VL在處理長上下文和清晰感知方面也取得了進展。憑藉128K的擴展上下文窗口,Kimi-VL能夠處理多樣的長輸入,在LongVideoBench上獲得64.5分,在MMLongBench-Doc上獲得35.1分。其原生分辨率的視覺編碼器MoonViT進一步使其能夠看到並理解超高分辨率的視覺輸入,在InfoVQA上獲得83.2分,在ScreenSpot-Pro上獲得34.5分,同時在常見任務中保持較低的計算成本。基於Kimi-VL,我們推出了一款先進的長思維變體:Kimi-VL-Thinking。通過長鏈思維(CoT)監督微調(SFT)和強化學習(RL)開發,該模型展現出強大的長視野推理能力。它在MMMU上獲得61.7分,在MathVision上獲得36.8分,在MathVista上獲得71.3分,同時保持緊湊的2.8B激活LLM參數,為高效多模態思維模型設定了新標準。代碼和模型可在https://github.com/MoonshotAI/Kimi-VL公開訪問。
如DeepSeek-R1这样的大型推理模型,标志着大型语言模型(LLMs)处理复杂问题方式的根本性转变。不同于直接为给定输入生成答案,DeepSeek-R1构建了详尽的多步骤推理链,仿佛在“思考”问题之后才给出解答。这一推理过程对用户公开,为研究模型的推理行为提供了无限可能,并开启了“思维学”这一新领域。从DeepSeek-R1推理基本构建模块的分类学出发,我们的分析探讨了思维长度的影响与可控性、长或混乱上下文的管理、文化及安全顾虑,以及DeepSeek-R1在类人语言处理和世界建模等认知现象中的地位。研究发现描绘了一幅细致入微的图景。特别地,我们揭示了DeepSeek-R1存在一个推理的“最佳点”,超过此点的额外推理时间反而会损害模型表现。此外,我们还发现DeepSeek-R1倾向于持续反思先前探索过的问题表述,阻碍了进一步的探索。同时,我们注意到,相较于非推理型模型,DeepSeek-R1存在显著的安全脆弱性,这也可能危及那些已进行安全对齐的大型语言模型。
混合專家(Mixture-of-Experts, MoE)大型語言模型(LLMs)存在嚴重的專家路徑次優問題——我們的研究揭示,從預訓練中學習到的樸素專家選擇留下了令人驚訝的10-20%的準確率提升空間。基於這一觀察,我們開發了一類新穎的測試時優化方法,用於為每個測試樣本在網絡的不同層中重新加權或“重新混合”專家。由於測試樣本的真實標籤未知,我們提出優化一個由參考樣本集中“成功鄰居”定義的代理目標。我們引入了三種基於模式發現、核迴歸以及相似參考樣本/任務平均損失的代理和算法。為了降低優化整個路徑的成本,我們僅將算法應用於關鍵層中核心專家的混合權重,這樣既能保持相似的性能,又能顯著節省計算資源。這催生了“關鍵層、核心專家、協同路徑優化(Critical-Layer, Core-Expert, Collaborative Pathway Optimization, C3PO)”。我們將C3PO應用於兩個最新的MoE LLMs,並在六個廣泛使用的基準上進行了測試。它持續將基礎模型的準確率提升了7-15%,並大幅超越了廣泛使用的測試時學習基線方法,例如上下文學習和提示/前綴調優。此外,C3PO使得具有1-3億活躍參數的MoE LLMs能夠超越7-9億參數的LLMs,從而進一步提升了MoE在效率上的優勢。我們全面的消融研究還為在MoE上實現測試時改進提供了新的見解。
近期在擴散模型領域的進展顯著推動了各類圖像生成任務的發展。然而,當前的主流方法仍集中於構建特定任務的模型,這在支持廣泛需求時效率有限。儘管通用模型試圖解決這一限制,但它們面臨著關鍵挑戰,包括可泛化的任務指令、適宜的任務分佈以及統一的架構設計。為應對這些挑戰,我們提出了VisualCloze,一個通用的圖像生成框架,它支持廣泛的域內任務、對未見任務的泛化、多任務的無縫統一以及反向生成。與現有依賴基於語言的任務指令、導致任務模糊性和弱泛化能力的方法不同,我們整合了視覺上下文學習,使模型能夠從視覺示範中識別任務。同時,視覺任務分佈的固有稀疏性阻礙了跨任務可遷移知識的學習。為此,我們引入了Graph200K,這是一個圖結構的數據集,建立了多種相互關聯的任務,增強了任務密度和可遷移知識。此外,我們發現我們的統一圖像生成公式與圖像修補共享一致的目標,使我們能夠在不修改架構的情況下利用預訓練修補模型的強大生成先驗。
鏈式思維(CoT)推理的進步顯著提升了大型語言模型(LLMs)和大型視覺語言模型(LVLMs)的能力。然而,針對視頻CoT推理的嚴謹評估框架仍然缺失。現有的視頻基準測試未能充分評估推理過程,也未能揭示失敗是源於感知能力還是推理能力的不足。因此,我們引入了VCR-Bench,這是一個新穎的基準測試,旨在全面評估LVLMs的視頻鏈式思維推理能力。VCR-Bench包含859個涵蓋多種視頻內容和時長的視頻,以及1,034個高質量的問答對。每個問答對都手動註解了逐步的CoT推理過程,其中每一步都標記了其與感知或推理能力的關聯。此外,我們設計了七個不同的任務維度,並提出了CoT分數,基於逐步標記的CoT推理過程來評估整個CoT過程。在VCR-Bench上的廣泛實驗突顯了當前LVLMs的重大限制。即使表現最佳的模型o1,其CoT分數僅達到62.8%,準確率為56.7%,而大多數模型的分數低於40%。實驗顯示,大多數模型在感知步驟上的得分低於推理步驟,揭示了LVLMs在處理複雜視頻推理時的時間空間信息處理的關鍵瓶頸。CoT分數與準確率之間的強烈正相關性證實了我們評估框架的有效性,並強調了CoT推理在解決複雜視頻推理任務中的關鍵作用。我們希望VCR-Bench能作為一個標準化的評估框架,並揭示複雜視頻推理任務中的實際缺陷。
指令遵循(Instruction Following, IF)能力衡量的是多模态大语言模型(Multi-modal Large Language Models, MLLMs)在理解用户确切指令并正确执行方面的表现。现有的多模态指令遵循训练数据稀缺,基准测试简单且多为原子指令,对于要求精确输出约束的任务,评估策略不够精确。为解决这一问题,我们提出了MM-IFEngine,一个生成高质量图像-指令对的有效流程。我们的MM-IFEngine流程生成了大规模、多样化且高质量的MM-IFInstruct-23k训练数据,适用于监督微调(Supervised Fine-Tuning, SFT),并扩展为MM-IFDPO-23k用于直接偏好优化(Direct Preference Optimization, DPO)。我们进一步引入了MM-IFEval,一个具有挑战性和多样性的多模态指令遵循基准,包括(1)针对输出响应的组合级约束和与输入图像相关的感知级约束,以及(2)一个结合了基于规则的评估和评判模型的综合评估流程。我们进行了SFT和DPO实验,结果表明,在MM-IFInstruct-23k和MM-IFDPO-23k上微调MLLMs,在多个IF基准测试中取得了显著提升,如MM-IFEval(+10.2%)、MIA(+7.6%)和IFEval(+12.3%)。完整数据和评估代码将发布于https://github.com/SYuan03/MM-IFEngine。
構建能夠有效感知多模態信號的通用模型一直是一個長期目標。當前的方法涉及整合單獨預訓練的組件,例如將視覺編碼器連接到大型語言模型(LLMs)並繼續進行多模態訓練。雖然這些方法展現了顯著的樣本效率,但這種後期融合架構是否本質上更優仍是一個開放性問題。在本研究中,我們重新審視了原生多模態模型(NMMs)——即從頭開始在所有模態上訓練的模型——的架構設計,並進行了一項廣泛的規模定律研究,涵蓋了457個不同架構和訓練混合比例的訓練模型。我們的調查顯示,後期融合架構相較於不依賴圖像編碼器的早期融合架構並無本質優勢。相反,早期融合在較低參數數量下表現更強,訓練效率更高,且更易於部署。基於早期融合架構的強勁表現,我們展示了引入專家混合(MoEs)可以使模型學習模態特定的權重,從而顯著提升性能。
三維部件全模分割——將三維形體分解為完整且語義明確的部件,即便在遮擋情況下——對於三維內容的創建與理解而言,是一項既具挑戰性又至關重要的任務。現有的三維部件分割方法僅能識別可見的表面片段,限制了其實用性。受二維全模分割的啟發,我們將這一新穎任務引入三維領域,並提出了一種實用的兩階段方法,以應對推斷被遮擋三維幾何、保持全局形狀一致性以及在有限訓練數據下處理多樣化形狀等關鍵挑戰。首先,我們利用現有的三維部件分割技術獲取初始的不完整部件片段。其次,我們引入了HoloPart,一種基於擴散模型的新穎方法,用於將這些片段補全為完整的三維部件。HoloPart採用了一種特殊架構,結合局部注意力機制以捕捉細粒度的部件幾何,以及全局形狀上下文注意力機制以確保整體形狀的一致性。我們基於ABO和PartObjaverse-Tiny數據集引入了新的基準測試,並證明HoloPart顯著優於最先進的形狀補全方法。通過將HoloPart與現有的分割技術相結合,我們在三維部件全模分割上取得了令人鼓舞的成果,為幾何編輯、動畫製作及材質分配等應用開辟了新的途徑。
本文提出了一種有效方法,在僅需少量訓練樣本的情況下,純粹依靠自我改進(無需知識蒸餾)來增強視覺推理能力。我們的核心洞見在於,強化微調(RFT)過程中訓練數據的難度至關重要。即使數據集規模較小,適度挑戰性的樣本也能顯著提升推理能力。儘管這一觀點直觀,但主要挑戰仍在於如何精確量化樣本難度以實現有效的數據篩選。為此,我們提出了一種新穎的方法,重新利用蒙特卡洛樹搜索(MCTS)來達成這一目標。從我們精心挑選的70k開源訓練樣本出發,我們引入了一種基於MCTS的選擇方法,該方法根據視覺語言模型(VLMs)解決每個問題所需的迭代次數來量化樣本難度。MCTS中這種顯式的逐步推理迫使模型進行更長時間的思考,從而更好地識別真正具有挑戰性的樣本。我們篩選並保留了11k樣本,對Qwen2.5-VL-7B-Instruct進行RFT,最終得到我們的模型ThinkLite-VL。在八個基準測試上的評估結果顯示,ThinkLite-VL僅使用11k訓練樣本且無需知識蒸餾,就將Qwen2.5-VL-7B-Instruct的平均性能提升了7%。這顯著超越了所有現有的7B級別推理VLMs,以及我們使用經典選擇方法(如基於準確率的篩選)的相當可比基線。值得注意的是,在MathVista上,ThinkLite-VL-7B達到了75.1的SoTA準確率,超越了Qwen2.5-VL-72B、GPT-4o和O1。我們的代碼、數據和模型可在https://github.com/si0wang/ThinkLite-VL獲取。
我們提出了一個新穎的開源社交網絡模擬框架MOSAIC,其中生成式語言代理能夠預測用戶行為,如點贊、分享和標記內容。該模擬結合了大型語言模型(LLM)代理與有向社交圖,以分析湧現的欺騙行為,並更好地理解用戶如何判斷在線社交內容的真實性。通過從多樣化的細粒度角色構建用戶表示,我們的系統支持多代理模擬,大規模地建模內容傳播和參與動態。在此框架內,我們評估了三種不同的內容審核策略與模擬的錯誤信息傳播,發現這些策略不僅能減緩非事實內容的擴散,還能提高用戶參與度。此外,我們分析了模擬中熱門內容的傳播軌跡,並探討了模擬代理對其社交互動的明確推理是否真正與其集體參與模式相一致。我們開源了模擬軟件,以鼓勵人工智能和社會科學領域的進一步研究。
儘管多模態大型語言模型(MLLMs)已有顯著進展,但其在視覺文本定位方面仍存在不可忽視的侷限性,尤其是在處理富含文本的文件圖像時。文件圖像,如掃描表格和信息圖表,因其複雜的版面設計和文本內容,凸顯了關鍵挑戰。然而,現有的基準測試並未充分應對這些挑戰,因為它們主要聚焦於自然圖像上的視覺定位,而非富含文本的文件圖像。因此,為彌補這一差距,我們引入了TRIG,這是一項新穎的任務,並設計了一個全新的指令數據集,旨在評估和提升MLLMs在文件問答中的文本豐富圖像定位能力。具體而言,我們提出了一條OCR-LLM-人工交互的流程,創建了800個手動標註的問答對作為基準,以及一個基於四個多樣化數據集、包含90%合成數據的大規模訓練集。對我們提出的基準進行多種MLLMs的全面評估,揭示了它們在處理文本豐富圖像時的定位能力存在顯著不足。此外,我們提出了兩種簡單而有效的TRIG方法,分別基於通用指令微調和即插即用的高效嵌入技術。通過在我們的合成數據集上微調MLLMs,它們在空間推理和定位能力方面展現出令人鼓舞的改進。
現有的文本到圖像擴散模型控制方法雖然強大,但無法實現明確的以3D物體為中心的控制,例如精確控制物體的方向。在本研究中,我們解決了文本到圖像擴散模型中的多物體方向控制問題,從而能夠生成具有每個物體精確方向控制的多樣化多物體場景。關鍵思想是通過一組方向感知的指南針標記(每個物體一個)以及文本標記來條件化擴散模型。一個輕量級的編碼器網絡根據物體方向作為輸入來預測這些指南針標記。該模型在一個由程序生成的場景合成數據集上進行訓練,每個場景包含一個或兩個3D資產,背景為純色。然而,直接訓練此框架會導致方向控制不佳以及物體之間的糾纏。為了解決這個問題,我們在生成過程中進行干預,並將每個指南針標記的交叉注意力圖約束到其對應的物體區域。訓練後的模型能夠實現對a) 訓練期間未見過的複雜物體和b) 包含兩個以上物體的多物體場景的精確方向控制,顯示出強大的泛化能力。此外,當與個性化方法結合時,我們的方法能夠在多樣化的上下文中精確控制新物體的方向。我們的方法在廣泛的評估和用戶研究中實現了最先進的方向控制和文本對齊。
我們提出了Geo4D,這是一種將視頻擴散模型重新用於單目動態場景三維重建的方法。通過利用此類視頻模型所捕捉的強大動態先驗,Geo4D僅需使用合成數據進行訓練,便能以零樣本方式良好地泛化到真實數據。Geo4D預測多種互補的幾何模態,即點雲、深度圖和射線圖。它採用了一種新的多模態對齊算法,在推理時對這些模態以及多個滑動窗口進行對齊與融合,從而實現對長視頻的魯棒且精確的四維重建。在多個基準上的廣泛實驗表明,Geo4D顯著超越了包括專為處理動態場景設計的最新方法如MonST3R在內的現有最先進視頻深度估計方法。
現有的單目3D檢測器受限於現實世界數據集的有限多樣性和規模。雖然數據增強確實有所幫助,但在戶外環境中生成具有場景感知的真實增強數據尤其困難。目前大多數合成數據生成方法通過改進渲染技術來專注於物體外觀的真實性。然而,我們發現物體的位置和擺放方式對於訓練有效的單目3D檢測器同樣至關重要。關鍵的挑戰在於自動確定真實的物體放置參數——包括位置、尺寸和方向對齊——當將合成物體引入實際場景時。為解決這一問題,我們引入了MonoPlace3D,這是一個考慮3D場景內容以創建真實增強的新系統。具體而言,給定一個背景場景,MonoPlace3D學習一個關於合理3D邊界框的分佈。隨後,我們渲染真實的物體,並根據從學習到的分佈中採樣的位置進行放置。我們在KITTI和NuScenes兩個標準數據集上的全面評估表明,MonoPlace3D顯著提高了多種現有單目3D檢測器的準確性,同時具有高度的數據效率。
在視頻中追蹤任意點(Tracking Any Point, TAP)是一個具有挑戰性的計算機視覺問題,在機器人技術、視頻編輯和3D重建等領域已展現出多種應用。現有的TAP方法嚴重依賴於複雜的追蹤特定歸納偏見和啟發式方法,這限制了它們的通用性和擴展潛力。為應對這些挑戰,我們提出了TAPNext,這是一種將TAP轉化為序列化掩碼令牌解碼的新方法。我們的模型具有因果性,以純粹在線的方式進行追蹤,並消除了追蹤特定的歸納偏見。這使得TAPNext能夠以最小的延遲運行,並消除了許多現有最先進追蹤器所需的時間窗口限制。儘管其設計簡潔,TAPNext在在線和離線追蹤器中均達到了新的最佳追蹤性能。最後,我們提供的證據表明,許多廣泛使用的追蹤啟發式方法通過端到端訓練在TAPNext中自然湧現。