每日精選AI研究論文及翻譯
我們介紹了我們的第一代推理模型,DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一個經過大規模強化學習(RL)訓練的模型,並且在沒有監督微調(SFT)的情況下作為初步步驟,展現出卓越的推理能力。通過RL,DeepSeek-R1-Zero 自然地展現出許多強大且引人入勝的推理行為。然而,它也面臨著一些挑戰,如可讀性差和語言混合等問題。為了應對這些問題並進一步提升推理性能,我們引入了DeepSeek-R1,它結合了多階段訓練和在RL之前的冷啟動數據。DeepSeek-R1 在推理任務上實現了與OpenAI-o1-1217 相當的性能。為了支持研究社區,我們開源了DeepSeek-R1-Zero、DeepSeek-R1 以及基於Qwen 和 Llama 的六個密集模型(1.5B、7B、8B、14B、32B、70B)。
利用下一個標記預測進行語言模型預訓練已被證明對於擴展計算效果顯著,但受限於可用的訓練數據量。擴展強化學習(RL)開啟了一個新的維度,持續改進人工智慧的潛力,大型語言模型(LLMs)可以通過學習探索獲得獎勵來擴展其訓練數據。然而,先前發表的研究工作並未取得競爭力的結果。鑑於此,我們報告了Kimi k1.5的訓練實踐,這是我們最新的多模態LLM,使用RL進行訓練,包括其RL訓練技術、多模態數據配方和基礎設施優化。長上下文擴展和改進的策略優化方法是我們方法的關鍵要素,該方法建立了一個簡單而有效的RL框架,而無需依賴諸如蒙特卡羅樹搜索、價值函數和處理獎勵模型等更複雜的技術。值得注意的是,我們的系統在多個基準和模態下實現了最先進的推理性能,例如在AIME上達到77.5,在MATH 500上達到96.2,在Codeforces上達到94個百分位,在MathVista上達到74.9,與OpenAI的o1相匹敵。此外,我們提出了有效的長2短方法,利用長CoT技術改進短CoT模型,產生最先進的短CoT推理結果,例如在AIME上達到60.8,在MATH500上達到94.6,在LiveCodeBench上達到47.3,遠遠超過現有的短CoT模型,如GPT-4o和Claude Sonnet 3.5,提高了多達+550%。
本文提出了VideoLLaMA3,這是一個更先進的多模式基礎模型,用於圖像和視頻理解。VideoLLaMA3 的核心設計理念是以視覺為中心。"以視覺為中心" 的含義有兩個方面:視覺為中心的訓練範式和視覺為中心的框架設計。我們視覺為中心的訓練範式的關鍵見解是高質量的圖像文本數據對於圖像和視頻理解至關重要。我們專注於構建大規模且高質量的圖像文本數據集,而非準備大量的視頻文本數據集。VideoLLaMA3 有四個訓練階段:1)視覺為中心的對齊階段,用於啟動視覺編碼器和投影器;2)視覺語言預訓練階段,通過大規模圖像文本數據對視覺編碼器、投影器和LLM 進行聯合調整,包括多種類型的圖像文本數據(包括場景圖像、文件、圖表)以及僅文本數據;3)多任務微調階段,將圖像文本 SFT 數據納入下游任務,並將視頻文本數據納入以建立視頻理解的基礎;4)視頻為中心的微調,進一步提升模型在視頻理解方面的能力。至於框架設計,為了更好地捕捉圖像中的細節,預訓練的視覺編碼器被調整為將不同大小的圖像編碼為具有相應數量的視覺標記,而不是固定數量的標記。對於視頻輸入,我們根據它們的相似性減少視覺標記的數量,從而使視頻的表示更加精確和緊湊。受益於視覺為中心的設計,VideoLLaMA3 在圖像和視頻理解基準測試中取得了引人注目的表現。
虛擬電影製作需要複雜的決策過程,包括編劇、虛擬攝影和演員定位以及動作的精確安排。受到最近在基於語言代理社會中自動化決策方面的進展的激勵,本文介紹了FilmAgent,這是一個新穎的基於LLM的多代理協作框架,用於我們構建的3D虛擬空間中的端到端電影自動化。FilmAgent 模擬了各種工作人員角色,包括導演、編劇、演員和攝影師,並涵蓋了電影製作工作流程的關鍵階段:(1)構思發展將腦力激盪的想法轉化為結構化的故事大綱;(2)編劇為每個場景的對話和角色動作進行詳細說明;(3)攝影確定每個鏡頭的攝影機設置。一組代理通過迭代反饋和修訂進行協作,從而驗證中間腳本並減少幻覺。我們對15個想法和4個關鍵方面的生成視頻進行評估。人類評估表明,FilmAgent在所有方面均優於所有基準,平均得分為3.98(滿分5分),顯示了多代理協作在電影製作中的可行性。進一步的分析顯示,儘管使用較不先進的GPT-4o模型,FilmAgent超越了單一代理o1,顯示了良好協調的多代理系統的優勢。最後,我們討論了OpenAI的文本到視頻模型Sora和我們的FilmAgent在電影製作中的互補優勢和劣勢。
大型語言模型(LLMs)展示了令人印象深刻的性能,但缺乏在不重新訓練的情況下快速適應人類偏好的靈活性。在這項工作中,我們引入了測試時間偏好優化(TPO),這是一個框架,在推論期間將LLM的輸出與人類偏好對齊,無需更新模型參數。TPO不僅依賴於純數值獎勵,還將獎勵信號轉化為文本評論,並將其用作文本獎勵來逐步完善其回應。在涵蓋指令遵循、偏好對齊、安全性和數學的基準測試中,TPO逐步改善了與人類偏好的對齊。值得注意的是,在經過僅幾個TPO步驟後,最初未對齊的Llama-3.1-70B-SFT模型可以超越對齊的對應模型Llama-3.1-70B-Instruct。此外,TPO在推論期間與搜索寬度和深度有效地擴展。通過案例研究,我們說明了TPO如何利用LLM解釋和執行獎勵信號的固有能力。我們的研究結果將TPO確立為一個實用、輕量級的測試時間偏好優化替代方案,實現即時對齊。我們的代碼公開可用於https://github.com/yafuly/TPO。
專家混合(Mixture-of-Experts,MoE)模型主要使用路由器將標記分配給特定專家模組,僅激活部分參數,通常優於密集模型。我們認為,路由器決策與專家執行之間的分離是一個關鍵但被忽視的問題,導致次優的專家選擇和無效的學習。為了解決這個問題,我們提出了專家自治(Autonomy-of-Experts,AoE),這是一種新穎的MoE範式,其中專家自主選擇自己來處理輸入。AoE基於一個洞察,即專家意識到自己有效處理標記的能力,這種意識體現在其內部激活的規模中。在AoE中,移除了路由器;相反,專家為輸入預先計算內部激活,並根據其激活範數進行排名。僅有排名靠前的專家進行前向傳遞,而其他專家則中止。通過低秩權重因子化,預先計算激活的開銷得以降低。這種自我評估然後與夥伴進行比較的方法確保了改進的專家選擇和有效的學習。我們對具有從700M到4B參數的語言模型進行了預訓練,表明AoE在效率上優於具有可比效率的傳統MoE模型。
最近,長思考推理LLM,如OpenAI的O1,採用類似人類思考複雜問題的延長推理過程。這種推理範式顯著增強了模型的解決問題能力並取得了令人鼓舞的成果。然而,長思考推理過程導致推理時間大幅增加。一個迫切的挑戰是降低長思考LLM的推理開銷,同時確保準確性。在本文中,我們實驗性地證明長思考推理模型在根據問題難度和推理冗餘性有效分配標記預算方面存在困難。為了解決這個問題,我們提出了長度協調微調(O1-Pruner),旨在最小化推理開銷同時保持準確性。這種有效的微調方法首先通過預抽樣估計LLM的基準性能,然後使用RL風格的微調來鼓勵模型在準確性約束下生成更短的推理過程。這使得模型能夠以更低的冗餘性實現高效的推理,同時保持準確性。在各種數學推理基準測試中的實驗表明,O1-Pruner不僅顯著降低了推理開銷,還實現了更高的準確性,為這一挑戰提供了一個新穎且有前景的解決方案。我們的代碼即將在https://github.com/StarDewXXX/O1-Pruner 上發布。
最佳-N(BoN)抽樣是大型語言模型(LLMs)在測試時進行縮放的常見策略,依賴獎勵模型從多個世代中選擇最佳候選解決方案。然而,傳統的獎勵模型通常賦予任意和不一致的分數,限制了其有效性。為了解決這個問題,我們提出了一種配對獎勵模型(Pairwise RM),結合淘汰賽錦標賽用於BoN抽樣。Pairwise RM不是賦予絕對分數,而是在給定一個數學問題時,同時評估兩個候選解決方案的正確性。這種方法消除了任意評分的需要,並通過平行比較實現解決方案的交叉驗證。在淘汰賽錦標賽中,Pairwise RM在候選解決方案之間進行兩兩比較,並逐步淘汰不正確的解決方案。我們構建了\ourdataset,這是一個由NumiaMath衍生的443K個配對比較的大規模數據集,並使用gemini-1.5-flash進行標註,通過監督微調訓練Pairwise RM。在MATH-500和奧林匹亞基準上的實驗表明,相對於傳統的區分性獎勵模型,取得了顯著的改進。在前50%具有挑戰性的問題上實現了40%至60%的相對改進。
在計算機視覺中,多視角3D重建仍然是一個核心挑戰,特別是在需要準確且可擴展地呈現各種視角的應用中。目前領先的方法如DUSt3R採用基本上是成對處理的方法,對影像進行成對處理,需要昂貴的全局對齊程序才能從多個視角進行重建。在這項工作中,我們提出了快速3D重建(Fast3R),這是對DUSt3R的一種新型多視角泛化方法,通過並行處理多個視角實現高效且可擴展的3D重建。Fast3R的基於Transformer的架構可以在單個前向通過中轉發N張圖像,無需迭代對齊。通過對相機姿態估計和3D重建的大量實驗,Fast3R展示了最先進的性能,推理速度顯著提高,錯誤積累減少。這些結果確立了Fast3R作為多視角應用的一個堅固選擇,提供了增強的可擴展性,同時不會影響重建的準確性。
大型語言模型(LLMs)正在改變人工智慧,演變為能夠進行自主規劃和執行的面向任務的系統。LLMs 的主要應用之一是對話人工智慧系統,必須處理多輪對話、整合特定領域的應用程式介面(APIs),並遵守嚴格的策略約束。然而,評估這些代理人仍然是一個重大挑戰,因為傳統方法無法捕捉現實世界互動的複雜性和變異性。我們引入了IntellAgent,這是一個可擴展的、開源的多代理框架,旨在全面評估對話人工智慧系統。IntellAgent 通過結合基於策略的圖形建模、真實事件生成和互動式用戶代理模擬,自動創建多樣化的合成基準。這種創新方法提供了細緻的診斷,解決了靜態和手動精心策劃的基準的粗粒度指標的限制。IntellAgent 代表了評估對話人工智慧的範式轉變。通過模擬現實的、多策略的情景,跨不同複雜性水平,IntellAgent 捕捉了代理人能力和策略約束微妙的相互作用。與傳統方法不同,它採用基於圖形的策略模型來表示關係、可能性和策略互動的複雜性,從而實現高度詳細的診斷。IntellAgent 還識別了關鍵的性能差距,提供了針對性優化的可行見解。其模塊化、開源的設計支持新領域、策略和APIs 的無縫集成,促進可重現性和社區合作。我們的研究結果表明,IntellAgent 作為一個有效的框架,有助於通過解決在研究和部署之間橋接的挑戰,推進對話人工智慧。該框架可在 https://github.com/plurai-ai/intellagent 上獲得。