每日精選AI研究論文及翻譯
本文綜述了強化學習(Reinforcement Learning, RL)在大型語言模型(Large Language Models, LLMs)推理應用中的最新進展。RL在拓展LLM能力邊界方面取得了顯著成就,尤其是在處理數學與編碼等複雜邏輯任務上。因此,RL已成為將LLMs轉化為邏輯推理模型(Logical Reasoning Models, LRMs)的基礎方法論。隨著該領域的快速發展,RL在LRMs上的進一步擴展正面臨基礎性挑戰,這些挑戰不僅存在於計算資源方面,還涉及算法設計、訓練數據及基礎設施等層面。有鑑於此,重新審視這一領域的發展歷程、評估其發展軌跡,並探索提升RL向人工超級智能(Artificial SuperIntelligence, ASI)可擴展性的策略,正當其時。特別是,我們考察了自DeepSeek-R1發布以來,將RL應用於LLMs和LRMs以提升推理能力的研究,包括基礎組件、核心問題、訓練資源及下游應用,旨在識別這一快速演進領域的未來機遇與方向。我們期望本綜述能促進RL在更廣泛推理模型上的未來研究。Github: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs
獎勵模型(Reward Models, RMs)對於通過強化學習(Reinforcement Learning, RL)改進生成模型至關重要,然而視覺生成領域中的RM擴展範式仍大多未被探索。這主要源於現有方法的根本性限制:基於CLIP的RMs受制於架構和輸入模態的約束,而廣泛使用的Bradley-Terry損失函數與視覺語言模型(Vision-Language Models, VLMs)的下一個詞預測機制本質上不匹配,阻礙了有效的擴展。更關鍵的是,RLHF優化過程深受獎勵欺騙(Reward Hacking)問題的困擾,即模型利用獎勵信號中的缺陷而不提升真實質量。為應對這些挑戰,我們提出了RewardDance,這是一個可擴展的獎勵建模框架,通過一種新穎的生成式獎勵範式克服了這些障礙。通過將獎勵分數重新定義為模型預測“是”標記的概率,表明生成的圖像在特定標準下優於參考圖像,RewardDance本質上將獎勵目標與VLM架構對齊。這種對齊解鎖了兩個維度的擴展:(1) 模型擴展:系統性地將RMs擴展至260億參數;(2) 上下文擴展:整合任務特定指令、參考示例和思維鏈(Chain-of-Thought, CoT)推理。大量實驗表明,RewardDance在文本到圖像、文本到視頻以及圖像到視頻生成方面顯著超越了現有最先進的方法。尤為重要的是,我們解決了長期存在的“獎勵欺騙”挑戰:我們的大規模RMs在RL微調過程中展現並保持了高獎勵方差,證明了其對欺騙的抵抗能力以及生成多樣化高質量輸出的能力。這極大地緩解了困擾較小模型的模式崩潰問題。
世界建模已成为人工智能研究的基石,使智能体能够理解、表示并预测其所处的动态环境。尽管先前的研究主要侧重于针对二维图像和视频数据的生成方法,但它们忽视了日益增多的利用原生三维和四维表示(如RGB-D图像、占据栅格和LiDAR点云)进行大规模场景建模的工作。同时,“世界模型”缺乏标准化定义和分类体系,导致文献中的主张零散且有时不一致。本综述通过首次专门针对三维和四维世界建模与生成的全面回顾,填补了这些空白。我们确立了精确的定义,引入了一个涵盖基于视频(VideoGen)、基于占据(OccGen)和基于LiDAR(LiDARGen)方法的结构化分类体系,并系统总结了专为三维/四维场景设计的数据集和评估指标。此外,我们探讨了实际应用,识别了开放挑战,并强调了有前景的研究方向,旨在为该领域的进步提供一个连贯且基础性的参考。现有文献的系统性总结可在https://github.com/worldbench/survey获取。
開發能夠做出系列智能決策以解決複雜現實任務的自主大型語言模型(LLM)代理,是一個快速發展的前沿領域。與人類認知發展相似,這些代理被期望通過探索和與環境的互動來獲取知識和技能。儘管已有進展,學術界仍缺乏一個統一的、互動式的強化學習(RL)框架,能夠在多樣且真實的環境中,從零開始有效地訓練此類代理——而無需依賴監督微調(SFT)。為填補這一空白,我們引入了AgentGym-RL,這是一個通過RL訓練LLM代理進行多輪互動決策的新框架。該框架採用模塊化和解耦的架構,確保了高度的靈活性和可擴展性。它涵蓋了廣泛的現實場景,並支持主流的RL算法。此外,我們提出了ScalingInter-RL,這是一種專為探索-利用平衡和穩定RL優化而設計的訓練方法。在早期階段,它通過限制互動次數來強調利用,並逐漸轉向更大範圍的探索,以鼓勵多樣化的問題解決策略。這樣,代理能夠發展出更為多樣的行為,並在長時間範圍內不易崩潰。我們進行了大量實驗,以驗證AgentGym-RL框架和ScalingInter-RL方法的穩定性和有效性。我們的代理在多樣環境中的27項任務上,表現與商業模型相當或更優。我們提供了關鍵見解,並將開源完整的AgentGym-RL框架——包括代碼和數據集——以助力研究界開發下一代智能代理。
將3D資產分割成其組成部分對於增強3D理解、促進模型重用以及支持部件生成等各種應用至關重要。然而,現有方法在處理複雜物體時面臨魯棒性差等限制,且無法完全自動化這一過程。本文提出了一種原生3D點提示部件分割模型,稱為P3-SAM,旨在實現對任何3D物體進行組件分割的全自動化。受SAM啟發,P3-SAM由特徵提取器、多個分割頭和一個IoU預測器組成,支持用戶進行交互式分割。我們還提出了一種算法,用於自動選擇和合併模型預測的掩碼,以實現部件實例分割。我們的模型在一個新構建的數據集上進行訓練,該數據集包含近370萬個具有合理分割標籤的模型。對比結果表明,我們的方法在任何複雜物體上都能實現精確的分割結果和強大的魯棒性,達到了最先進的性能。我們的代碼即將發布。
在本报告中,我们介绍了首个开源的多语言翻译模型——Hunyuan-MT-7B,该模型支持33种主要语言之间的双向翻译,并特别关注普通话与多种少数民族语言及方言之间的互译。此外,为应对多样化的翻译场景并提升模型在测试时的性能,我们引入了受慢速思维模式启发的翻译模型Hunyuan-MT-Chimera-7B。该模型整合了Hunyuan-MT-7B在不同参数设置下生成的多个输出,从而实现了超越传统基于思维链(CoT)的慢速思维模型的性能。我们的模型开发遵循了专为多语言翻译设计的整体训练流程,从通用及面向机器翻译的预训练开始,奠定基础能力,继而通过监督微调(SFT)进行任务特定适应,最终通过强化学习(RL)及弱到强RL实现高级对齐。通过全面实验,我们证明Hunyuan-MT-7B和Hunyuan-MT-Chimera-7B在同等参数规模的翻译专用模型及大多数SOTA大模型上均表现优异,尤其是在普通话与少数民族语言及方言的翻译任务中。在WMT2025共享任务(通用机器翻译)中,我们的模型展现了顶尖性能,在31个语言对中的30个排名第一。这一成果凸显了我们的模型在涵盖高资源语言(如中文、英文、日文)及低资源语言(包括捷克语、马拉地语、爱沙尼亚语和冰岛语)在内的广泛语言谱系中的强大鲁棒性。
現代大型語言模型(LLMs)在生成合成數據方面表現出色。然而,在文本去毒等敏感領域,其性能尚未得到科學界的充分關注。本文探討了使用LLM生成的合成有毒數據作為人類生成數據的替代方案,用於訓練去毒模型的可能性。利用Llama 3和Qwen激活修補模型,我們為ParaDetox和SST-2數據集中的中性文本生成了合成有毒對應物。我們的實驗表明,在合成數據上微調的模型始終表現不如在人類數據上訓練的模型,聯合指標性能下降高達30%。根本原因被確定為一個關鍵的詞彙多樣性差距:LLMs使用一小部分重複的侮辱詞彙生成有毒內容,未能捕捉到人類毒性的細微差別和多樣性。這些發現突顯了當前LLMs在這一領域的局限性,並強調了多樣化、人類註釋數據在構建穩健去毒系統中的持續重要性。
生成式人工智慧正逐漸成為一項重要技術,有望在多個領域帶來變革性影響。然而,生成式AI技術基於從概率模型中採樣,預設情況下並不保證其正確性、安全性、公平性或其他屬性。統計方法為提升生成式AI技術的可靠性提供了一種具有潛力的途徑。此外,統計方法在提升AI評估的品質與效率,以及設計AI干預措施和實驗方面也展現出良好前景。 本文回顧了這些主題上的現有研究,既闡述了所採用的通用統計技術,也探討了它們在生成式AI中的應用。同時,我們也討論了當前方法的局限性以及未來可能的研究方向。
通過生成多個獨立解並從中進行選擇或聚合,來擴大測試時的計算規模,已成為提升大型語言模型(LLMs)在挑戰性推理任務上表現的核心策略。儘管大多數先前的研究依賴於簡單的多數投票或獎勵模型排名來聚合解,這些方法可能僅帶來有限的效益。在本研究中,我們提出將聚合作為一項明確的推理技能來學習:給定一組候選解,我們訓練一個聚合模型,利用可驗證獎勵的強化學習來審查、調和並綜合出最終的正確答案。關鍵要素在於精心平衡易於和困難的訓練樣例,使模型既能學會恢復少數但正確的答案,也能掌握容易的多數正確答案。實證表明,我們的方法AggLM在多個基準測試中均優於基於規則和獎勵模型的基線方法。此外,它能夠有效地泛化到來自不同模型的解,包括訓練數據中未包含的更強模型,同時相比於使用更多解進行多數投票,所需標記數量大幅減少。
開源程式庫的廣泛可用性已催生了大量可重用的軟體元件,然而它們的使用仍依賴手動操作,容易出錯且缺乏連貫性。開發者必須查閱文件、理解API並編寫整合程式碼,這為高效的軟體重用設置了重大障礙。為解決這一問題,我們提出了EnvX框架,該框架利用代理型人工智慧(Agentic AI)將GitHub程式庫轉化為智慧型、自主的代理,使其能夠進行自然語言互動和代理間協作。與將程式庫視為靜態程式碼資源的現有方法不同,EnvX通過三個階段重新構想它們為活躍的代理:(1) 基於TODO的環境初始化,設置必要的依賴項、資料和驗證資料集;(2) 與人類目標對齊的代理自動化,使特定於程式庫的代理能夠自主執行實際任務;(3) 代理間(A2A)協議,允許多個代理進行協作。通過將大型語言模型的能力與結構化工具整合相結合,EnvX不僅自動化程式碼生成,還自動化了理解、初始化和操作化程式庫功能的整個過程。我們在GitTaskBench基準上評估了EnvX,使用了涵蓋影像處理、語音識別、文件分析和影片操作等領域的18個程式庫。結果顯示,EnvX達到了74.07%的執行完成率和51.85%的任務通過率,優於現有框架。案例研究進一步展示了EnvX通過A2A協議實現多程式庫協作的能力。這項工作標誌著從將程式庫視為被動程式碼資源到智慧型、互動式代理的轉變,促進了開源生態系統中更大的可訪問性和協作性。
隨著人類將更多任務和決策委託給人工智慧(AI),我們面臨著失去對個人及集體未來掌控的風險。相對簡單的演算法系統已經在引導人類決策,例如社交媒體的動態推送演算法,使人們在無意間、心不在焉地滑動瀏覽那些為提升參與度而優化的內容。本文透過整合哲學與科學的能動性理論與AI輔助評估方法,發展了人類能動性的概念:利用大型語言模型(LLMs)模擬和驗證用戶查詢,並評估AI的回應。我們開發了HumanAgencyBench(HAB),這是一個基於典型AI使用場景、具有六個維度的人類能動性可擴展且自適應的基準。HAB衡量AI助手或代理在以下方面的傾向:提出澄清問題、避免價值操縱、糾正錯誤信息、推遲重要決策、鼓勵學習以及維護社交界限。我們發現,當代基於LLM的助手對能動性的支持程度從低到中等不等,且不同系統開發者和維度之間存在顯著差異。例如,雖然Anthropic的LLM總體上最支持人類能動性,但在避免價值操縱方面卻是支持最少的LLM。能動性支持似乎並未因LLM能力的提升或指令遵循行為(如RLHF)而一致性地增強,我們呼籲轉向更為穩健的安全性和對齊目標。