每日精選AI研究論文及翻譯
透過強化學習(RL)對訓練後語言模型(LMs)進行後續處理,能夠在不需監督微調的情況下提升其複雜推理能力,這點已由DeepSeek-R1-Zero所證實。然而,要有效利用RL於LMs,需大幅並行化以擴展推理規模,這不僅引入了非輕微的技術挑戰(如延遲、記憶體與可靠性),還伴隨著不斷攀升的財務成本。我們提出了群體採樣策略優化(Swarm sAmpling Policy Optimization, SAPO),這是一種完全去中心化且非同步的RL後訓練算法。SAPO專為異質計算節點組成的去中心化網絡設計,其中每個節點管理自己的策略模型,同時與網絡中的其他節點“共享”軌跡;無需對延遲、模型同質性或硬件做出明確假設,節點亦可根據意願獨立運作。因此,該算法避免了在擴展RL後訓練時常見的瓶頸,同時也開啟(甚至鼓勵)了新的可能性。通過採樣網絡中“共享”的軌跡,它促成了“靈光一現”時刻的傳播,從而引導學習過程。本文中,我們展示了SAPO在控制實驗中實現了高達94%的累積獎勵增益。此外,我們還分享了在一個由Gensyn社區成員貢獻的數千節點網絡上進行測試的洞見,這些節點在開源演示期間於多樣化的硬件和模型上運行該算法。
平行思維作為一種新穎的方法,旨在通過同時探索多條推理路徑來增強大型語言模型(LLMs)的推理能力。然而,通過訓練激活此類能力仍具挑戰性,因為現有方法主要依賴於對合成數據進行監督微調(SFT),這鼓勵了教師強制模仿而非探索與泛化。與此不同,我們提出了Parallel-R1,這是首個能夠在複雜現實世界推理任務中實現平行思維行為的強化學習(RL)框架。我們的框架採用了一種漸進式課程,明確解決了使用RL訓練平行思維時的冷啟動問題。我們首先在較簡單任務的提示生成軌跡上使用SFT來灌輸平行思維能力,然後過渡到RL,在更難的問題上探索並泛化這一技能。在包括MATH、AMC23和AIME在內的各種數學基準測試上的實驗表明,Parallel-R1成功灌輸了平行思維,相比直接在挑戰性任務上使用RL訓練的順序思維模型,準確率提高了8.4%。進一步分析揭示了模型思維行為的明顯轉變:在早期階段,它將平行思維作為一種探索策略,而在後期階段,則利用相同能力進行多視角驗證。最重要的是,我們驗證了平行思維作為訓練中期探索支架的作用,這一臨時探索階段在RL後釋放了更高的性能上限,在AIME25上相比基線提升了42.9%。我們的模型、數據和代碼將在https://github.com/zhengkid/Parallel-R1開源。
透過視覺指令調校訓練的多模態大型語言模型(MLLMs)在多樣任務中展現了卓越的性能,然而在物件計數或空間推理等以視覺為核心的任務上仍顯不足。我們將此差距歸因於當前主流的僅文本監督範式,該範式僅為視覺通路提供間接指導,常導致MLLMs在訓練過程中丟失細粒度的視覺細節。本文提出視覺表徵對齊(VIRAL),一種簡潔而有效的正則化策略,旨在將MLLMs內部的視覺表徵與預訓練視覺基礎模型(VFMs)的表徵對齊。透過明確實施這一對齊,VIRAL不僅使模型能夠保留來自輸入視覺編碼器的關鍵視覺細節,還能補充來自VFMs的額外視覺知識,從而增強其處理複雜視覺輸入的推理能力。我們的實驗在多模態基準測試的所有任務上均顯示出持續的改進。此外,我們進行了全面的消融研究,以驗證框架背後關鍵設計選擇的有效性。我們相信,這一簡明發現為在訓練MLLMs中有效整合視覺信息開闢了重要方向。
近期,大型多模态模型的進展已利用基於圖像的工具與強化學習來解決視覺問題。然而,現有的開源方法往往表現出單調的推理模式,並且僅允許有限的互動輪次,這使得它們難以應對需要試錯探索的複雜任務。在本研究中,我們通過擴展基於工具的互動來解決這一限制,並引入了Mini-o3,這是一個能夠執行深度、多輪次推理(跨越數十步)的系統,並在具有挑戰性的視覺搜索任務中達到了最先進的性能。我們重現OpenAI o3風格行為的配方包含三個關鍵組件。首先,我們構建了視覺探測數據集,這是一個包含數千個設計用於探索性推理的挑戰性視覺搜索問題的集合。其次,我們開發了一個迭代數據收集管道,以獲取展示多樣推理模式(包括深度優先搜索、試錯和目標維護)的冷啟動軌跡。第三,我們提出了一種超輪次掩碼策略,該策略在強化學習過程中防止對超輪次響應(達到最大輪次數的響應)進行懲罰,從而平衡訓練時的效率與測試時的可擴展性。儘管訓練時僅設置了六輪互動的上限,我們的模型在推理時生成的軌跡自然擴展到數十輪,並且隨著輪次增加,準確率也隨之提升。大量實驗表明,Mini-o3產生了豐富的推理模式和深層的思考路徑,有效解決了具有挑戰性的視覺搜索問題。
統一多模態模型(UMMs)將視覺理解與生成整合於單一架構之中。然而,傳統訓練依賴於圖像-文本對(或序列),其描述通常較為簡略,缺乏細緻的視覺細節——即便使用數百字來描述一張簡單圖片。我們提出了重建對齊(RecA),這是一種資源高效的後訓練方法,它利用視覺理解編碼器的嵌入作為密集的“文本提示”,在無需描述的情況下提供豐富的監督。具體而言,RecA讓UMM基於其自身的視覺理解嵌入進行條件化,並通過自監督的重建損失優化模型以重建輸入圖像,從而實現理解與生成的重新對齊。儘管RecA方法簡潔,但其應用廣泛:無論是自回歸、掩碼自回歸還是基於擴散的UMMs,RecA均能一致地提升生成與編輯的保真度。僅需27個GPU小時,採用RecA進行後訓練即可顯著提升GenEval(0.73→0.90)和DPGBench(80.93→88.15)上的圖像生成性能,同時也提升了編輯基準(ImgEdit 3.38→3.75,GEdit 6.94→7.25)。值得注意的是,RecA超越了許多更大的開源模型,並廣泛適用於多種UMM架構,確立了其作為UMMs高效且通用的後訓練對齊策略的地位。
近期圖像定制技術的進步展現了廣泛的應用前景,得益於其更強大的定制能力。然而,由於人類對面部更為敏感,在保持身份一致性的同時避免多參考圖像間的身份混淆仍是一大挑戰,這限制了定制模型的身份可擴展性。為解決這一問題,我們提出了UMO,一個統一的多身份優化框架,旨在保持高保真身份保留並緩解身份混淆,同時具備可擴展性。UMO採用“多對多匹配”範式,將多身份生成重新表述為全局分配優化問題,並通過對擴散模型的強化學習,普遍釋放現有圖像定制方法的多身份一致性。為促進UMO的訓練,我們開發了一個包含合成與真實部分的多參考圖像可擴展定制數據集。此外,我們提出了一種新的度量標準來衡量身份混淆。大量實驗表明,UMO不僅顯著提升了身份一致性,還在多種圖像定制方法上減少了身份混淆,在身份保留維度上樹立了開源方法的新標杆。代碼與模型:https://github.com/bytedance/UMO
在動態視覺環境中執行語言條件任務,仍然是具身人工智慧(Embodied AI)領域的核心挑戰。現有的視覺-語言-動作(Vision-Language-Action, VLA)模型主要採用反應式的狀態到動作映射,這往往導致短視行為以及在動態場景中的魯棒性不足。本文提出了一種名為 F1 的預訓練 VLA 框架,該框架將視覺預測生成整合到決策流程中。F1 採用了一種混合變換器(Mixture-of-Transformer)架構,並配備了專用模組來處理感知、預測生成和控制,從而橋接了理解、生成與動作。其核心在於,F1 使用了一種下一尺度預測機制,以合成目標條件化的視覺預測作為明確的規劃目標。通過預測可能的未來視覺狀態,F1 將動作生成重新表述為一個預測引導的逆動力學問題,從而實現了隱含達成視覺目標的動作。為了賦予 F1 強大且可泛化的能力,我們提出了一種三階段訓練方案,並在包含 136 種多樣化任務、超過 33 萬條軌跡的廣泛數據集上進行訓練。這一訓練方案增強了模組化推理能力,並使模型具備了可遷移的視覺預測能力,這對於複雜且動態的環境至關重要。在真實世界任務和模擬基準上的廣泛評估表明,F1 在任務成功率和泛化能力方面均顯著優於現有方法,取得了實質性的提升。
強化學習(Reinforcement Learning, RL)在提升大型語言模型(Large Language Models, LLMs)的複雜推理能力方面已展現出極高的成效,然而驅動此成功的內在機制仍大多未明。我們的分析揭示,諸如「頓悟時刻」、「長度縮放」及熵動態等令人費解的現象,並非孤立事件,而是湧現推理層次結構的標誌,這與人類認知中高層次策略規劃與低層次程序執行之分離相似。我們發現了一個引人注目的兩階段動態:最初,模型受制於程序正確性,必須提升其低層次技能。隨後,學習瓶頸發生決定性轉移,性能提升轉由探索與掌握高層次策略規劃所驅動。這一洞見揭示了現行RL算法(如GRPO)中的核心低效性,這些算法不分青紅皂白地施加優化壓力,稀釋了所有詞元的學習信號。為解決此問題,我們提出了層次感知信用分配(HIerarchy-Aware Credit Assignment, HICRA),該算法將優化努力集中於高影響力的規劃詞元上。HICRA顯著超越了強基準,證明了聚焦於此策略瓶頸是解鎖高級推理的關鍵。此外,我們驗證了語義熵作為衡量策略探索的優越指南,相較於詞元級熵等誤導性指標,其表現更為出色。
近年來,大型語言模型(LLMs)在規模擴展、高質量訓練數據的豐富性以及強化學習的推動下迅速發展。然而,這一進展面臨著一個根本性的瓶頸:模型需要不斷獲取更多數據以持續學習。在本研究中,我們提出了一種強化學習方法,通過使模型能夠在不依賴額外數據的情況下進行改進,從而消除這一依賴性。我們的方法利用了自我對弈的博弈論框架,將模型的能力轉化為在競爭性遊戲中的表現,並通過讓模型與自身對弈來產生更強的策略——這一過程我們稱之為語言自我對弈(Language Self-Play, LSP)。在Llama-3.2-3B-Instruct模型上進行的指令跟蹤基準測試實驗表明,預訓練模型不僅能夠僅通過自我對弈來提升其在挑戰性任務上的表現,而且比基於數據的基準方法更為有效。
AI輔助的放射學解讀主要基於狹窄的單任務模型。這種方法在涵蓋廣泛的影像模式、疾病和放射學發現方面顯得不太實際。基礎模型(FMs)展現了跨模式和低數據環境下的廣泛泛化潛力。然而,這一潛力在放射學領域尚未得到充分實現。我們介紹了Curia,這是一個基於一家大型醫院多年來所有斷層影像輸出訓練的基礎模型,據我們所知,這是迄今為止最大的真實世界數據集,涵蓋了150,000次檢查(130 TB)。在一個新策劃的19項外部驗證基準測試中,Curia準確識別器官,檢測如腦出血和心肌梗塞等病症,並預測腫瘤分期的結果。Curia達到或超越了放射科醫生和近期基礎模型的表現,並在跨模式和低數據環境中展現出具有臨床意義的湧現特性。為加速進展,我們在https://huggingface.co/raidium/curia上發布了基礎模型的權重。
可驗證獎勵的強化學習(RLVR)在提升大型語言模型(LLMs)的推理能力方面取得了顯著成功。然而,現有的RLVR方法常因訓練數據難度與模型能力不匹配而導致探索效率低下。當問題過於困難時,LLMs無法發現可行的推理路徑;而當問題過於簡單時,LLMs則學不到新的能力。在本研究中,我們通過量化損失下降速度與推理準確性之間的關係,正式化問題難度的影響。基於此分析,我們提出了SEELE,一種新穎的監督輔助RLVR框架,該框架動態調整問題難度以保持在高效區域內。SEELE通過在原始問題後附加提示(完整解答的一部分)來增強每個訓練樣本。與以往的提示方法不同,SEELE有意且自適應地調整每個問題的提示長度以達到最佳難度。為了確定最佳提示長度,SEELE採用了一種多輪推理採樣策略。在每一輪中,它根據前幾輪收集的準確性-提示對擬合一個項目反應理論模型,以預測下一輪所需的提示長度。這種實例級別的實時難度調整使問題難度與模型能力的演變保持一致,從而提高了探索效率。實驗結果顯示,SEELE在六個數學推理基準測試中,分別比群組相對策略優化(GRPO)和監督微調(SFT)高出+11.8和+10.5分,並且平均比之前最佳的監督輔助方法高出+3.6分。
在標準的因果注意力機制中,每個詞元的查詢、鍵和值(QKV)是靜態的,且僅編碼了先前的上下文。我們引入了帶有前瞻鍵的因果注意力機制(CASTLE),這是一種隨著上下文展開而不斷更新每個詞元鍵的注意力機制。我們將這些更新後的鍵稱為前瞻鍵,因為它們屬於較早的位置,卻整合了相對於這些位置之後出現的詞元信息,同時嚴格保持了自回歸特性。儘管該機制看似是順序執行的,但我們推導出了一種數學等價性,避免了在每個位置顯式生成前瞻鍵,從而實現了高效的並行訓練。在語言建模基準測試中,CASTLE在不同模型規模上始終優於標準的因果注意力機制,降低了驗證困惑度,並在一系列下游任務中提升了性能。
近期研究表明,利用可微分獎勵直接對齊擴散模型與人類偏好具有顯著效果。然而,這些方法面臨兩大挑戰:(1) 依賴於多步去噪並計算梯度來評分獎勵,這在計算上代價高昂,因此將優化限制在僅少數擴散步驟;(2) 為達到理想的美學質量,如照片級真實感或精確的光照效果,往往需要持續離線調整獎勵模型。為解決多步去噪的限制,我們提出了Direct-Align方法,該方法預先定義噪聲先驗,通過插值有效恢復任意時間步的原始圖像,利用擴散狀態是噪聲與目標圖像之間插值的特性,有效避免了在後期時間步的過度優化。此外,我們引入了語義相對偏好優化(SRPO),其中獎勵被構建為文本條件信號。這一方法允許在線調整獎勵以響應正負提示增強,從而減少對離線獎勵微調的依賴。通過對FLUX.1.dev模型進行優化去噪和在線獎勵調整的微調,我們將其人類評估的真實感和美學質量提升了超過3倍。
我們推出了SimpleQA Verified,這是一個包含1,000個提示的基準測試集,用於評估大型語言模型(LLM)在簡短事實性回答上的表現,該測試集基於OpenAI的SimpleQA。它解決了OpenAI基準測試中的關鍵限制,包括噪聲和錯誤標籤、主題偏差以及問題重複性。SimpleQA Verified通過嚴謹的多階段過濾流程創建,涉及去重、主題平衡和來源核對,以產生更可靠且更具挑戰性的評估集,同時改進了自動評分提示。在這個新基準上,Gemini 2.5 Pro達到了55.6的F1分數,處於領先地位,超越了包括GPT-5在內的其他前沿模型。這項工作為研究社群提供了一個更高保真度的工具,以追蹤參數模型在事實性方面的真實進展,並減少幻覺現象。基準測試數據集、評估代碼和排行榜可在以下網址獲取:https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified。
文本到圖像的擴散模型在計算上非常密集,通常需要通過大型Transformer骨幹進行數十次前向傳遞。例如,Stable Diffusion XL通過對一個26億參數的模型進行50次評估來生成高質量圖像,即使對於單一批次來說,這也是一個昂貴的過程。少步擴散模型將這一成本降低到2-8次去噪步驟,但仍然依賴於大型未壓縮的U-Net或擴散Transformer骨幹,這些模型在沒有數據中心GPU的情況下進行全精度推理通常成本過高。這些要求也限制了現有的依賴於全精度校準的訓練後量化方法。我們引入了Q-Sched,這是一種新的訓練後量化範式,它修改了擴散模型的調度器而不是模型權重。通過調整少步採樣軌跡,Q-Sched在模型大小減少4倍的情況下實現了全精度準確性。為了學習量化感知的預條件係數,我們提出了JAQ損失,它結合了文本圖像兼容性和圖像質量指標,以進行細粒度的優化。JAQ是無參考的,並且只需要少量的校準提示,避免了在校準期間進行全精度推理。Q-Sched帶來了顯著的增益:與FP16 4步潛在一致性模型相比,FID提高了15.5%,與FP16 8步階段一致性模型相比,提高了16.6%,表明量化和少步蒸餾對於高保真生成是互補的。一項大規模用戶研究,包含超過80,000個註釋,進一步證實了Q-Sched在FLUX.1[schnell]和SDXL-Turbo上的有效性。
我們提出了Delta L正規化,這是一種簡單而有效的損失聚合方法,專門針對可驗證獎勵強化學習(RLVR)中動態生成長度的特性而設計。近年來,RLVR在提升大型語言模型(LLMs)的推理能力方面展現出巨大潛力,但訓練過程中回應長度的巨大變異性導致了高梯度方差和不穩定的優化,這是一個主要挑戰。儘管先前的方法如GRPO、DAPO和Dr. GRPO引入了不同的損失正規化項來解決這一問題,但它們要么產生有偏估計,要么仍受高梯度方差困擾。通過理論與實證分析變動長度對策略損失的影響,我們將問題重新表述為尋找最小方差無偏估計量。我們提出的Delta L正規化不僅提供了真實策略損失的無偏估計,還在理論上最小化了梯度方差。大量實驗表明,它在不同模型大小、最大長度及任務上均能一致取得優異結果。我們的程式碼將公開於https://github.com/zerolllin/Delta-L-Normalization。
大型語言模型(LLMs)是處理文本任務的強大且多功能的工具,它們實現了無數以往難以想像的應用。相比之下,檢索模型尚未出現如此強大的通用模型。要實現這一目標,檢索模型必須能夠執行複雜的檢索任務,這些任務中的查詢包含多個部分、約束或自然語言要求。這些任務代表了從現有大多數常用評估集中使用的簡單、單一方面的查詢的自然演進。隨著人們期望搜索系統處理更具體且往往更具挑戰性的信息請求,複雜查詢自然產生,這在人們使用基於LLM的信息系統的方式中得到了體現。儘管人們越來越希望檢索模型在複雜檢索任務中擴展其能力,但評估檢索模型在各種複雜任務上的能力的資源仍然有限。現有的少數資源範圍有限,且往往缺乏現實的設置,這使得很難了解檢索模型在複雜現實世界檢索任務中的真正能力。為了解決這一不足並推動下一代檢索模型的創新,我們構建了一組多樣化且現實的複雜檢索任務,並對一組具有代表性的最先進檢索模型進行了基準測試。此外,我們還探討了基於LLM的查詢擴展和重寫對檢索質量的影響。我們的結果顯示,即使是最好的模型在產生高質量檢索結果方面也面臨困難,所有任務中的最高平均nDCG@10僅為0.346,R@100僅為0.587。儘管LLM增強可以幫助較弱的模型,但最強的模型在所有重寫技術下的所有指標上均表現下降。
随着生成式人工智能系统在科学、商业和政府领域日益成熟和普及,深入理解其失效模式已成为当务之急。这些系统行为中偶尔表现出的不稳定性,例如Transformer模型产生幻觉的倾向,阻碍了在高风险领域对新兴AI解决方案的信任与采用。在本研究中,我们通过稀疏自编码器捕捉的概念表征,在实验控制输入空间不确定性的场景下,确立了预训练Transformer模型何时以及如何产生幻觉。我们的系统性实验揭示,随着输入信息愈发非结构化,Transformer模型所使用的语义概念数量随之增加。面对输入空间中不断增长的不确定性,Transformer模型倾向于激活连贯但与输入无关的语义特征,从而导致幻觉输出。在极端情况下,对于纯噪声输入,我们在预训练Transformer模型的中间激活中识别出大量被稳定触发且有意义的概念,并通过定向操控验证了其功能完整性。我们还展示了,Transformer模型输出中的幻觉可以从Transformer层激活中嵌入的概念模式中可靠预测。这一系列关于Transformer内部处理机制的洞见,对于将AI模型与人类价值观对齐、AI安全、揭示潜在对抗攻击的攻击面,以及为模型幻觉风险的自动量化提供基础,具有直接的影响。