每日精選AI研究論文及翻譯
我們研究自獎勵推理大型語言模型(LLMs),這些模型能在推理過程中同時生成逐步推理並評估其輸出的正確性,而無需外部反饋。這種整合方法使單一模型能獨立引導其推理過程,為模型部署提供計算優勢。我們特別關注自我修正這一代表性任務,其中模型能自主檢測其回應中的錯誤、修正輸出,並決定何時終止迭代精煉循環。為實現這一點,我們提出了一個兩階段的算法框架,僅使用自生成數據來構建自獎勵推理模型。在第一階段,我們採用序列拒絕抽樣來合成包含自獎勵和自我修正機制的長鏈思維軌跡。在這些精心策劃的數據上微調模型,使其能學習自獎勵和自我修正的模式。在第二階段,我們通過基於規則信號的強化學習進一步增強模型評估回應準確性和精煉輸出的能力。Llama-3和Qwen-2.5的實驗表明,我們的方法超越了內在的自我修正能力,並達到了依賴外部獎勵模型的系統的相當性能。
推理是推進醫學影像分析的關鍵前沿,透明度和可信度在醫師信任和監管批准中發揮著核心作用。儘管醫學視覺語言模型(VLMs)對放射學任務顯示出潛力,但大多數現有的VLMs僅生成最終答案,而不揭示潛在的推理過程。為填補這一差距,我們引入MedVLM-R1,一種醫學VLM,明確生成自然語言推理,以增強透明度和可信度。MedVLM-R1不依賴監督微調(SFT),後者常常過度擬合訓練分佈,無法促進真正的推理,而是採用強化學習框架,該框架鼓勵模型發現可解釋的人類推理路徑,而無需使用任何推理參考。儘管訓練數據有限(600個視覺問答樣本)且模型參數(2B)有限,但MedVLM-R1將MRI、CT和X射線基準的準確率從55.11%提高到78.22%,優於在超過一百萬樣本上訓練的更大模型。它還展示了對分布外任務的強大域泛化能力。通過將醫學影像分析與明確推理結合,MedVLM-R1標誌著邁向可信且可解釋的臨床實踐人工智能的重要一步。
在大型多模態模型(LMMs)中,非語言模態(如視覺表徵)的感知能力通常無法與大型語言模型(LLMs)強大的推理能力相媲美,這阻礙了LMMs在具有挑戰性的下游任務中的表現。近期,這一弱點通過採用專家混合(MoE)架構替代視覺編碼器得到了緩解,該架構提供了豐富、多粒度且多樣化的表徵,以滿足不同下游任務的需求。多模態MoE的性能很大程度上依賴於其路由器,該路由器根據每個輸入重新權衡並混合不同專家的表徵。然而,我們發現端到端訓練的路由器並不能始終為每個測試樣本生成最優的路由權重。為彌補這一差距,我們提出了一種新穎且高效的方法——"測試時重路由(R2-T2)",該方法在測試時通過將路由權重向量向測試樣本鄰域內正確預測樣本的權重向量移動,來局部優化路由權重向量。我們提出了三種R2-T2策略,分別具有不同的優化目標和鄰域搜索空間。R2-T2在不訓練任何基礎模型參數的情況下,持續且顯著地提升了最先進LMMs在多樣化任務挑戰性基準上的表現。
LongRoPE2 是一種創新方法,旨在將預訓練大型語言模型(LLMs)的有效上下文窗口擴展至目標長度,同時保持其在原有較短上下文窗口上的性能。這一成果基於三項貢獻:(1) 提出假設,認為現有方法中觀察到的持續分佈外(OOD)問題,部分源於高維RoPE訓練不足;(2) 開發了一種有效的RoPE重縮放算法,採用由“針驅動”困惑度引導的進化搜索,以解決訓練不足的問題;(3) 引入混合上下文窗口訓練策略,通過微調模型權重,使其既能適應重縮放後的RoPE處理長上下文序列,又能保留使用原始RoPE時的短上下文性能。在LLaMA3-8B和Phi3-mini-3.8B模型上進行的廣泛實驗,跨越多個基準測試,驗證了這一假設並展示了LongRoPE2的有效性。值得注意的是,LongRoPE2僅使用10B標記,便將LLaMA3-8B的有效上下文長度擴展至128K,同時保持超過98.5%的短上下文性能,這比Meta的方法所需標記量少80倍,且後者未能達到目標有效上下文長度。代碼將公開於https://github.com/microsoft/LongRoPE。
近期在架構、預訓練和微調方面的創新,使得如LLaMA和DeepSeek等大型自回歸語言模型展現出卓越的上下文學習與推理能力。相比之下,儘管BERT和RoBERTa等編碼器為眾多下游自然語言處理應用奠定了基礎,卻未見同等程度的進步。為彌合這一差距,我們推出了NeoBERT,這是一款新一代的編碼器,它通過整合架構、現代數據及優化預訓練方法中的尖端技術,重新定義了雙向模型的能力。NeoBERT設計便於無縫採用:它作為現有基礎模型的即插即用替代品,依賴於最佳的深度與寬度比例,並利用長達4,096個標記的擴展上下文長度。儘管其參數規模僅為2.5億,卻在龐大的MTEB基準測試中取得了領先成果,在相同微調條件下,超越了BERT Large、RoBERTa Large、NomicBERT及ModernBERT。此外,我們嚴格評估了每項改進對GLUE的影響,並為MTEB設計了一套統一的微調與評估框架。我們公開了所有代碼、數據、檢查點及訓練腳本,以加速研究與實際應用。
視覺生成與理解之間的表示差異,在將這兩種能力整合到單一框架時形成了一道關鍵鴻溝。為彌合這一差距,我們提出了UniTok,這是一種離散視覺標記器,它既能為生成任務編碼細粒度細節,又能捕捉用於理解的高層語義。儘管近期研究表明這些目標可能在訓練中引發損失衝突,但我們揭示出,根本的瓶頸在於離散標記的表示能力有限。我們通過引入多碼本量化來解決這一問題,該方法利用多個獨立子碼本進行向量量化,從而擴展潛在特徵空間,同時避免因過大碼本導致的訓練不穩定性。我們的方法顯著提升了統一離散標記器的性能上限,使其能夠匹配甚至超越特定領域的連續標記器。例如,UniTok在ImageNet上取得了令人矚目的rFID值0.38(相比於SD-VAE的0.87)和零樣本準確率78.6%(相比於CLIP的76.2%)。我們的代碼已開源於https://github.com/FoundationVision/UniTok。
在先进的文本到圖像生成領域,正見證著統一框架的興起,這些框架將強大的文本編碼器(如CLIP和T5)與擴散變換器(Diffusion Transformer)骨幹相結合。儘管已有嘗試通過額外條件(如邊緣檢測和深度圖)來控制輸出圖像,但對於任意文本-圖像交錯控制的全面框架仍顯不足。這一差距在嘗試於生成過程中融合多張圖像的概念或視覺元素時尤為明顯。為彌補這一差距,我們進行了初步實驗,結果顯示大型多模態模型(LMMs)提供了一個有效的共享表示空間,其中圖像和文本能夠良好對齊,作為外部擴散模型的條件。基於這一發現,我們提出了Dream Engine,這是一個高效且統一的框架,專為圖像生成模型中的任意文本-圖像交錯控制而設計。在強大的文本到圖像模型(如SD3.5)基礎上,我們通過整合多功能多模態信息編碼器(如QwenVL)來替換原有的僅文本編碼器。我們的方法採用兩階段訓練範式,包括聯合文本-圖像對齊和多模態交錯指令微調。實驗表明,這種訓練方法有效,在GenEval基準測試中獲得了0.69的總體分數,並與最先進的文本到圖像模型(如SD3.5和FLUX)的性能相匹配。
許多具有挑戰性的推理任務不僅需要快速、直覺的反應,更需採用一種深思熟慮、多步驟的解決方式。近期大型語言模型(LLMs)的進展,凸顯了從「系統1」快速反應模式向「系統2」反思與修正問題解決風格的重要轉變。然而,現有的基準測試過於依賴最終答案的準確性,而忽略了模型在推理過程中的中間步驟,這使得評估模型在推理過程中反思與糾正錯誤的能力成為一大盲點。為填補這一缺口,我們推出了FINEREASON,這是一個專為細緻評估LLMs推理能力設計的邏輯謎題基準。每個謎題均可分解為基本步驟,非常適合用於嚴格驗證中間推理的正確性。基於此,我們引入了兩項任務:狀態檢查與狀態轉移,以全面評估模型如何評估當前狀況並規劃下一步行動。為支持更廣泛的研究,我們還提供了一個謎題訓練集,旨在提升模型在一般數學任務上的表現。我們展示,經過我們狀態檢查與轉移數據訓練的模型,在GSM8K數學推理任務上的表現提升了高達5.1%。
大型語言模型(LLMs)在軟體工程領域展現了卓越的性能,但在適應不斷演進的程式碼知識方面仍面臨挑戰,尤其是針對第三方函式庫API的頻繁更新。這一限制源於靜態的預訓練資料集,常導致生成不可執行的程式碼或安全性和效率欠佳的實現。為此,本文提出了CODESYNC,這是一個用於識別過時代碼模式並從Python第三方函式庫收集即時代碼知識更新的資料引擎。基於CODESYNC,我們開發了CODESYNCBENCH,這是一個全面的基準測試,用於評估LLMs在保持與程式碼演進同步方面的能力,涵蓋了六個Python函式庫中220個API的實際更新情況。我們的基準測試提供了三項評估任務中的3,300個測試案例,以及一個包含2,200個訓練樣本的更新感知指令微調資料集。對14個最先進的LLMs進行的廣泛實驗表明,即使在高級知識更新方法(如DPO、ORPO和SimPO)的支持下,它們仍難以應對動態的程式碼演進。我們相信,我們的基準測試能為未來開發更有效的即時代碼知識更新方法奠定堅實基礎。實驗程式碼和資料集已公開於:https://github.com/Lucky-voyage/Code-Sync。
儘管現代擴散變換器表現卓越,但其在推理階段面臨著龐大的資源需求,這源於每個去噪步驟所需的固定且大量的計算。在本研究中,我們重新審視了傳統的靜態範式,即每次去噪迭代分配固定計算預算的做法,並提出了一種動態策略作為替代。我們簡潔且樣本高效的框架使得預訓練的擴散變換器模型能夠轉化為靈活的版本——我們稱之為FlexiDiT——使其能在不同的計算預算下處理輸入。我們展示了單一靈活模型如何在不降低圖像質量的前提下生成圖像,同時在類別條件和文本條件圖像生成任務中,相比靜態模型,所需浮點運算次數(FLOPs)減少超過40%。我們的方法具有普遍性,且對輸入和條件模式保持中立。我們還展示了如何將此方法輕鬆擴展至視頻生成領域,其中FlexiDiT模型在保持性能不變的情況下,最多可減少75%的計算量。
我們提出了Mobius,這是一種新穎的方法,能夠直接從文本描述生成無縫循環視頻,無需任何用戶標註,從而為多媒體演示創造新的視覺素材。我們的方法重新利用了預訓練的視頻潛在擴散模型,從文本提示生成循環視頻,且無需任何訓練。在推理過程中,我們首先通過連接視頻的起始和結束噪聲來構建一個潛在循環。考慮到視頻擴散模型的上下文可以保持時間一致性,我們通過在每一步逐漸將第一幀的潛在特徵移至末尾來進行多幀潛在去噪。結果,去噪的上下文在每一步中變化,同時在整個推理過程中保持一致性。此外,我們方法中的潛在循環可以是任意長度。這將我們的潛在移位方法擴展到生成無縫循環視頻,超越了視頻擴散模型上下文的範圍。與以往的動態圖像不同,所提出的方法不需要圖像作為外觀,這會限制生成結果的運動。相反,我們的方法能夠產生更具動態性的運動和更好的視覺質量。我們進行了多項實驗和比較,以驗證所提出方法的有效性,展示了其在不同場景中的效能。所有代碼將公開提供。
自回歸(AR)建模以其下一個標記預測範式而聞名,支撐著最先進的語言和視覺生成模型。傳統上,“標記”被視為最小的預測單位,通常是語言中的離散符號或視覺中的量化補丁。然而,對於二維圖像結構的最佳標記定義仍然是一個懸而未決的問題。此外,AR 模型存在著曝光偏差問題,即在訓練期間的教師強迫導致推理時的錯誤累積。在本文中,我們提出了 xAR,一個廣義的 AR 框架,將標記的概念擴展到一個實體 X,可以代表單個補丁標記、單元(相鄰補丁的 k 次 k 組合)、子採樣(遠處補丁的非局部組合)、尺度(從粗到細的解析度),甚至是整個圖像。此外,我們將離散標記分類重構為連續實體回歸,利用每個 AR 步驟的流匹配方法。這種方法使訓練依賴於嘈雜的實體而不是地面真實標記,從而實現了有效緩解曝光偏差的嘈雜上下文學習。因此,xAR 提供了兩個關鍵優勢:(1)它實現了靈活的預測單位,捕捉不同的上下文粒度和空間結構,(2)通過避免依賴教師強迫,緩解了曝光偏差。在 ImageNet-256 生成基準測試中,我們的基本模型 xAR-B(172M)在實現 20 倍更快的推理的同時,勝過了 DiT-XL/SiT-XL(675M)。與此同時,xAR-H 以 1.24 的 FID 設置了一個新的最先進水準,運行速度比之前表現最佳的模型快 2.2 倍,而不依賴於視覺基礎模塊(例如 DINOv2)或高級引導間隔採樣。
構建關節化物體是計算機視覺領域的一個關鍵挑戰。現有方法往往無法有效地整合不同物體狀態之間的信息,這限制了部件網格重建和部件動力學建模的準確性,尤其是在處理複雜的多部件關節化物體時。我們提出了ArtGS,這是一種新穎的方法,利用3D高斯作為靈活且高效的表示來解決這些問題。我們的方法結合了規範高斯與從粗到細的初始化和更新策略,以對齊不同物體狀態下的關節部件信息,並採用了一個受蒙皮啟發的部件動力學建模模塊,以提升部件網格重建和關節學習的效果。在合成和真實世界數據集上的大量實驗,包括一個針對複雜多部件物體的新基準測試,表明ArtGS在聯合參數估計和部件網格重建方面達到了最先進的性能。我們的方法顯著提高了重建質量和效率,尤其是在處理多部件關節化物體時。此外,我們還提供了對設計選擇的全面分析,驗證了每個組件的有效性,並指出了未來改進的潛在方向。
基於近端策略優化(PPO)的人類反饋強化學習(RLHF)對於使大型語言模型(LLMs)與人類偏好保持一致至關重要。該方法需要聯合訓練一個行動者和一個評論者,並依賴於預訓練且固定的獎勵模型進行指導。這種方法由於行動者與評論者之間的相互依賴性,增加了計算複雜性和不穩定性。此外,在LLM任務中,PPO無法獲取真實的環境獎勵,這限制了其適應性。在這種情況下,預訓練一個價值模型或獎勵模型變得等價,因為兩者都提供了固定的監督信號,而無需新的真實反饋。為了解決這些問題,我們提出了解耦價值策略優化(DVPO),這是一個簡潔的框架,用預訓練的全局價值模型(GVM)取代了傳統的獎勵建模。GVM基於策略軌跡進行條件化,並預測令牌級別的“回報到來”估計值。通過將價值模型與策略訓練解耦(通過凍結的GVM驅動的RL目標),DVPO消除了行動者與評論者之間的相互依賴性,與傳統的RLHF相比,減少了40%的GPU內存使用量和35%的訓練時間。跨基準測試的實驗表明,DVPO在性能上超越了高效的RLHF方法(如DPO),並與最先進的PPO相匹配。
利用大型語言模型的自主 AI 代理能在社會各個範疇中創造無可否認的價值,但它們面臨來自對手的安全威脅,這需要立即提供保護性解決方案,因為信任和安全問題會產生。考慮到許多次的越獄和欺騙性對齊作為一些主要的高級攻擊,這些攻擊無法通過監督訓練期間使用的靜態護欄來緩解,指出了現實世界健壯性的一個關鍵研究重點。在動態多代理系統中結合靜態護欄無法防禦這些攻擊。我們打算通過開發新的評估框架來增強基於大型語言模型的代理的安全性,該框架可以識別和對抗威脅,以實現安全的運行部署。我們的工作使用三種檢測方法通過反向圖靈測試來檢測惡意代理,通過多代理模擬來分析欺騙性對齊,並通過使用 GEMINI 1.5 pro 和 llama-3.3-70B、deepseek r1 模型進行工具介入的對抗情境測試,開發了一個反越獄系統。檢測能力強大,例如 GEMINI 1.5 pro 的準確率達 94%,但系統在長時間攻擊下存在持續的漏洞,因為提示長度增加攻擊成功率(ASR)並且多樣性指標在預測中變得無效,同時揭示了多個複雜系統故障。研究結果顯示,採用基於主動監控的靈活安全系統的必要性,這些系統可以由代理自行執行,同時系統管理員可以進行適應性干預,因為當前模型可能會產生漏洞,導致不可靠和易受攻擊的系統。因此,在我們的工作中,我們試圖應對這些情況,並提出一個全面的框架來對抗安全問題。
主流的问题解决框架主要依赖于商业模型,导致高成本和隐私问题。现有的问题解决训练方法在泛化能力上表现不佳,且未能充分利用开源开发资源。我们提出了面向子任务的强化微调(SoRFT),这是一种新颖的训练方法,旨在提升大语言模型(LLMs)的问题解决能力。我们将问题解决分解为结构化的子任务:文件定位、函数定位、行定位和代码编辑生成。SoRFT包含两个训练阶段:(1) 基于拒绝采样的监督微调,在微调LLM之前使用真实数据过滤思维链(CoT)数据;(2) 基于规则的强化学习,利用PPO算法并结合基于真实数据的奖励机制。我们在SWE-Bench Verified和SWE-Bench Lite上评估了SoRFT训练的模型,在开源模型中实现了最先进的(SOTA)性能(例如,使用SoRFT-Qwen-7B在SWE-Bench Verified上解决了21.4%的问题)。实验结果表明,SoRFT显著提升了问题解决性能,改善了模型的泛化能力,并提供了成本效益优于商业模型的替代方案。
儘管近期在推理增強的大型語言模型(LLMs)如DeepSeek-R1上取得了突破,將推理時序的思考鏈(CoTs)融入機器翻譯(MT)——這一領域中人類譯者自然運用結構化、多層次推理的過程——仍未被充分探索。現有方法要么設計針對特定MT子任務(如文學翻譯)的固定CoT,要么依賴於合成與人類不對齊的CoTs並進行易於發生災難性遺忘的監督微調(SFT),這限制了它們對多樣化翻譯場景的適應性。本文介紹了R1-Translator(R1-T1),這是一種新穎的框架,旨在通過強化學習(RL)實現通用MT的推理時序推理,其中包含六種常見模式的人類對齊CoTs。我們的方法開創了三項創新:(1)將基於推理的翻譯擴展至MT子任務之外,涵蓋六種語言及多樣化任務(如法律/醫學領域適應、成語解析);(2)形式化六種由專家策劃的CoT模板,這些模板反映了混合的人類策略,如上下文感知的意譯和回譯;(3)通過帶有KL約束獎勵的RL,實現自我進化的CoT發現與抗遺忘適應。實驗結果表明,在Flores-101測試集上,21種語言和80個翻譯方向上翻譯性能穩步提升,尤其是在訓練中未見的15種語言上,與普通SFT相比,其通用多語言能力得以保持。
在大型語言模型(LLMs)中,某些神經元可以存儲在預訓練期間學習到的不同知識片段。儘管知識通常呈現為關係和實體的組合,但目前尚不清楚是否有些神經元專注於關係本身 -- 與任何實體無關。我們假設這樣的神經元可以檢測輸入文本中的關係並引導涉及該關係的生成。為了探究這一點,我們使用基於統計的方法對選定的一組關係研究了 Llama-2 家族。我們的實驗證明了關係特定神經元的存在。我們測量了有針對性地停用與關係 r 相關的候選神經元對 LLMS 處理以下兩類事實的能力的影響:(1)其關係為 r 的事實和(2)其關係為不同關係 r'(r 不等於 r')的事實。就其編碼關係信息的能力而言,我們提供了關於關係特定神經元以下三個特性的證據:(i)神經元累積性。與 r 相關的神經元呈現出累積效應,因此停用其中較大部分將導致 r 中更多事實的退化。(ii)神經元多功能性。神經元可以跨多個密切相關和較不相關的關係進行共享。一些關係神經元可以跨越語言。 (iii)神經元干擾。停用與一個關係特定的神經元可以提高 LLMS 對其他關係事實的生成性能。我們將使我們的代碼公開可用於 https://github.com/cisnlp/relation-specific-neurons。
最近的智能體框架和推論時算法常常在處理複雜規劃問題時遇到困難,這是由於驗證生成計劃或推理以及單個任務中不同複雜度實例的限制。許多現有方法對於這些任務要麼執行任務級驗證而不考慮約束,要麼應用推論時算法而不適應實例級複雜度。為了解決這些限制,我們提出了PlanGEN,這是一個模型無關且易於擴展的智能體框架,具有三個關鍵組件:約束、驗證和選擇智能體。具體來說,我們的方法提出了約束引導的迭代驗證,以增強推論時算法(Best of N、Tree-of-Thought 和 REBASE)的性能。在PlanGEN框架中,選擇智能體基於實例複雜度優化算法選擇,確保更好地適應複雜的規劃問題。實驗結果顯示,在多個基準測試中,我們相對最強基線實現了顯著改進,並在NATURAL PLAN(約8%提升)、OlympiadBench(約4%提升)、DocFinQA(約7%提升)和GPQA(約1%提升)上實現了最新成果。我們的主要發現突顯了約束引導的迭代驗證改善了推論時算法,而自適應選擇進一步提升了在複雜規劃和推理問題上的性能。
一致性訓練(CT)最近已成為擴散模型的一個有前途的替代方案,在圖像生成任務中取得了競爭性表現。然而,非蒸餾一致性訓練通常面臨高變異性和不穩定性問題,分析和改進其訓練動態是一個活躍的研究領域。在這項工作中,我們提出了一種基於流匹配框架的新型CT訓練方法。我們的主要貢獻是一種受變分自編碼器(VAE)架構啟發的訓練噪聲耦合方案。通過訓練一個實現為編碼器架構的數據依賴性噪聲發射模型,我們的方法可以間接學習噪聲到數據映射的幾何形狀,這與傳統CT中正向過程的選擇固定不同。跨多個圖像數據集的實證結果顯示出顯著的生成改進,我們的模型優於基準並在CIFAR-10上實現了最先進的非蒸餾CT FID,並在ImageNet上以64x64分辨率的2步生成達到了與最先進技術相當的FID。我們的代碼可在 https://github.com/sony/vct 找到。
從單眼視頻中呈現動態場景是一項至關重要但具有挑戰性的任務。最近出現的可變形高斯飛濺技術已成為代表真實世界動態場景的堅固解決方案。然而,它常常導致高度冗餘的高斯函數,試圖在不同時間步驟擬合每個訓練視圖,進而導致較慢的呈現速度。此外,靜態區域中的高斯函數屬性是時間不變的,因此無需對每個高斯函數進行建模,這可能導致靜態區域出現抖動。在實踐中,動態場景呈現速度的主要瓶頸是高斯函數的數量。為此,我們提出了高效動態高斯飛濺(EDGS),通過稀疏的時間變化屬性建模來表示動態場景。我們的方法使用稀疏錨點網格表示動態場景,通過經典核函數表示計算密集高斯函數的運動流。此外,我們提出了一種無監督策略,以有效地過濾與靜態區域相對應的錨點。僅將與可變形對象相關的錨點輸入到MLP中以查詢時間變化屬性。在兩個真實世界數據集上的實驗表明,我們的EDGS相對於先前最先進的方法,顯著提高了呈現速度並具有優越的呈現質量。