每日精選AI研究論文及翻譯
我們推出了rStar2-Agent,這是一個擁有140億參數的數學推理模型,通過代理強化學習訓練,以達到前沿水平的性能。與當前冗長的思維鏈(CoT)方法相比,該模型展示了高級的認知行為,例如在使用Python編碼工具前深思熟慮,並根據代碼執行反饋進行反思,從而自主探索、驗證和精煉複雜問題解決中的中間步驟。這一能力得益於三項關鍵創新,使得代理強化學習在大規模應用中更加有效:(i)一個高效的強化學習基礎設施,配備可靠的Python代碼環境,支持高吞吐量執行並降低高額的rollout成本,使得在有限的GPU資源(64個MI300X GPU)上進行訓練成為可能;(ii)GRPO-RoC,一種採用“正確時重採樣”rollout策略的代理強化學習算法,有效應對編碼工具帶來的環境噪聲,使模型在代碼環境中更有效地推理;(iii)一個高效的代理訓練方案,從非推理的監督微調(SFT)開始,逐步過渡到多階段強化學習,以最小的計算成本培養高級認知能力。基於此,rStar2-Agent僅用510步強化學習訓練,在一周內將一個預訓練的140億參數模型提升至業界領先水平,在AIME24和AIME25上分別取得了80.6%和69.8%的平均pass@1分數,超越了DeepSeek-R1(671B),且響應時間顯著縮短。除了數學領域,rStar2-Agent-14B在對齊、科學推理及代理工具使用任務上也展現出強大的泛化能力。代碼及訓練方案已開源於https://github.com/microsoft/rStar。
近期研究凸顯了基於GRPO的強化學習方法與基準測試在提升文本到圖像(T2I)生成中的重要性。然而,當前使用點式獎勵模型(RM)對生成圖像進行評分的方法容易受到獎勵欺騙的影響。我們揭示,當圖像間微小的分數差異在標準化後被放大,會產生虛假的優勢,驅使模型過度優化以追求微不足道的增益,最終導致圖像生成過程不穩定。為解決此問題,我們提出了Pref-GRPO,這是一種基於成對偏好獎勵的GRPO方法,它將優化目標從分數最大化轉向偏好擬合,確保更穩定的訓練。在Pref-GRPO中,圖像在每組內使用偏好RM進行成對比較,並以勝率作為獎勵信號。大量實驗表明,PREF-GRPO能夠區分圖像質量的細微差異,提供更穩定的優勢並緩解獎勵欺騙。此外,現有的T2I基準測試受限於粗糙的評估標準,阻礙了模型的全面評估。為此,我們引入了UniGenBench,這是一個統一的T2I基準測試,包含5個主要主題和20個子主題下的600個提示。它通過10個主要和27個子標準評估語義一致性,並利用MLLM進行基準構建與評估。我們的基準測試揭示了開源與閉源T2I模型的優缺點,並驗證了Pref-GRPO的有效性。
我們推出了MCP-Bench,這是一個用於評估大型語言模型(LLMs)在現實多步驟任務中表現的基準測試平台,這些任務要求模型具備工具使用、跨工具協調、精確參數控制以及解決問題的規劃與推理能力。基於模型上下文協議(MCP),MCP-Bench將LLMs連接到28個代表性的實時MCP服務器,涵蓋金融、旅行、科學計算和學術搜索等領域的250種工具。與以往基於API的基準測試不同,每個MCP服務器提供一組互補工具,旨在協同工作,從而構建出具有豐富輸入輸出耦合的真實多步驟任務。MCP-Bench中的任務測試代理在模糊指令下檢索相關工具的能力(無需明確工具名稱)、為複雜目標規劃多跳執行軌跡的能力、基於中間工具輸出進行響應的能力,以及協調跨領域工作流程的能力——這些能力是現有依賴於明確工具規格、淺層少步驟工作流程和孤立領域操作的基準測試所無法充分評估的。我們提出了一個多維度的評估框架,涵蓋工具層次的模式理解與使用、軌跡層次的規劃以及任務完成度。對20個先進LLMs的實驗揭示了MCP-Bench中持續存在的挑戰。代碼與數據請訪問:https://github.com/Accenture/mcp-bench。
现有文献通常将风格驱动和主题驱动的生成视为两个独立的任务:前者优先考虑风格相似性,而后者则强调主题一致性,导致两者之间形成明显的对立。我们认为,这两个目标可以在单一框架下统一,因为它们本质上都涉及内容与风格的解耦与重组,这是风格驱动研究中的一个长期主题。为此,我们提出了USO(统一风格-主题优化定制模型)。首先,我们构建了一个大规模的三元组数据集,包含内容图像、风格图像及其对应的风格化内容图像。其次,我们引入了一种解耦学习方案,通过两个互补的目标——风格对齐训练和内容-风格解耦训练——同时对齐风格特征并从风格中解耦内容。第三,我们整合了一种称为SRL(风格奖励学习范式)的方法,以进一步提升模型的性能。最后,我们发布了USO-Bench,这是首个在多指标下联合评估风格相似性和主题保真度的基准。大量实验表明,USO在开源模型中,无论是在主题一致性还是风格相似性方面,均达到了最先进的性能。代码和模型:https://github.com/bytedance/USO。
從實踐中學習的範式對於開發具備能力的自主AI系統至關重要,然而,這一過程卻因經驗生成效率低下而嚴重受阻,這一瓶頸在GAIA等複雜基準測試中尤為明顯。為解決這一問題,我們推出了AWorld,這是一個專為大規模智能體與環境交互而設計的開源系統。通過將任務分佈在集群中執行,AWorld相比標準的單節點順序執行方式,將經驗收集速度提升了14.6倍。這一關鍵的加速使得大規模強化學習變得切實可行且可擴展。利用這一能力,我們訓練了一個基於Qwen3-32B的智能體,其表現顯著超越了基礎模型,在GAIA上的總體準確率從21.59%提升至32.23%。在該基準測試最具挑戰性的級別上,我們的智能體取得了16.33%的成績,超越了領先的專有模型。我們的開源系統及其產生的智能體,為從高效交互到可證明的模型改進的完整自主AI訓練流程提供了一個實用的藍圖。
長視頻生成本質上是一個長上下文記憶問題:模型必須在長時間範圍內保留並檢索重要事件,而不會崩潰或漂移。然而,將擴散變壓器擴展以生成長上下文視頻,從根本上受到自注意力機制二次方成本的限制,這使得記憶和計算變得難以處理,並且難以針對長序列進行優化。我們將長上下文視頻生成重新定義為內部信息檢索任務,並提出了一個簡單且可學習的稀疏注意力路由模塊——上下文混合(Mixture of Contexts, MoC),作為有效的長期記憶檢索引擎。在MoC中,每個查詢動態選擇幾個信息豐富的片段加上必要的錨點(如字幕、局部窗口)進行關注,並通過因果路由防止迴路閉合。隨著我們擴展數據並逐步稀疏化路由,模型將計算資源分配給重要的歷史信息,從而保留身份、動作和場景,持續數分鐘的內容。效率作為檢索的副產品(接近線性擴展)隨之而來,這使得實際訓練和合成成為可能,並在數分鐘的尺度上實現了記憶和一致性的湧現。
多樣化的指令數據對於大型語言模型的有效指令調優至關重要,因為它使模型能夠泛化到不同類型的輸入。構建這樣的多樣化指令數據集是這一過程中的關鍵步驟。現有方法通常利用大型語言模型自動探索和生成多樣化的指令,確保數據的多樣性和質量。然而,這些方法往往忽視了實際應用中的一個重要因素:任務相關性。在實踐中,只有少數實際應用需要真正通用的模型;大多數應用則受益於針對其特定用例量身定制的任務特定知識。因此,開發既保持多樣性又針對特定實際場景進行優化的指令增強方法至關重要。 為此,我們引入了任務中心指令增強(Task Centric Instruction Augmentation, TCIA)框架,該框架在保持多樣性和任務對齊的同時,系統性地擴展指令。通過在離散的查詢-約束空間中表示指令,TCIA 創建了一組豐富的任務相關指令,使模型能夠在不犧牲整體性能的情況下泛化到這些任務特定指令。實驗表明,TCIA 在四個實際的任務特定應用中,將開源大型語言模型的性能平均提高了 8.7%,在某些情況下甚至超越了領先的閉源模型。這些改進並未損害一般的指令遵循能力,使得 TCIA 成為一種可擴展且高效的解決方案,用於使大型語言模型適應實際的任務導向應用。
我們推出了首個數據驅動的多視角三維點追蹤器,旨在利用多個相機視角來追蹤動態場景中的任意點。與現有的單目追蹤器(在深度模糊和遮擋方面存在困難)或先前需要超過20個相機並進行繁瑣的每序列優化的多相機方法不同,我們的前饋模型直接使用實際數量的相機(例如四個)預測三維對應關係,從而實現了穩健且準確的在線追蹤。在已知相機姿態和基於傳感器或估計的多視角深度的情況下,我們的追蹤器將多視角特徵融合成統一的點雲,並應用k近鄰相關性以及基於變壓器的更新,即使在遮擋情況下也能可靠地估計長距離三維對應關係。我們在5K個合成的多視角Kubric序列上進行訓練,並在兩個真實世界基準測試(Panoptic Studio和DexYCB)上進行評估,分別實現了3.1厘米和2.0厘米的中位軌跡誤差。我們的方法能夠很好地泛化到1-8個視角的不同相機設置,具有不同的視點和24-150幀的視頻長度。通過發布我們的追蹤器以及訓練和評估數據集,我們旨在為多視角三維追蹤研究樹立新標準,並為實際應用提供實用工具。項目頁面請訪問https://ethz-vlg.github.io/mvtracker。
大型語言模型(LLMs)的安全對齊通常涉及調節內部表徵以拒絕有害請求。最近的研究表明,通過消除或移除模型中的特定表徵方向,這些安全機制可以被繞過。在本文中,我們提出了一種相反的方法:秩一安全注入(ROSI),這是一種白盒方法,通過永久性地將模型的激活引導至拒絕調節的子空間來增強其安全對齊。ROSI作為一種簡單的、無需微調的秩一權重修改,應用於所有殘差流寫入矩陣。所需的安全方向可以從一小組有害和無害指令對中計算得出。我們展示了ROSI一致性地提高了安全拒絕率——如Llama Guard 3所評估——同時在MMLU、HellaSwag和Arc等標準基準測試中保持了模型的實用性。此外,我們還展示了ROSI可以通過放大其自身潛在的安全方向來重新對齊「未審查」模型,證明其作為有效的最後一英里安全程序的實用性。我們的結果表明,有針對性、可解釋的權重引導是一種低成本且強效的機制,可以提升LLM的安全性,並補充了更耗資源的微調範式。
本文介紹了OneReward,這是一個統一的強化學習框架,它僅使用一個獎勵模型就能提升模型在多種任務下根據不同評估標準的生成能力。通過採用單一的視覺語言模型(VLM)作為生成獎勵模型,該模型能夠針對特定任務和評估標準區分優勝者與落後者,從而有效地應用於多任務生成模型,尤其是在數據多樣化且任務目標各異的場景中。我們將OneReward應用於掩碼引導的圖像生成,這可以進一步細分為圖像填充、圖像擴展、物體移除和文本渲染等子任務,這些任務都涉及使用二值掩碼作為編輯區域。儘管這些特定領域的任務共享相同的條件化範式,但它們在底層數據分佈和評估指標上存在顯著差異。現有方法通常依賴於任務特定的監督微調(SFT),這限制了模型的泛化能力和訓練效率。基於OneReward,我們開發了Seedream 3.0 Fill,這是一個通過多任務強化學習直接在預訓練基礎模型上訓練的掩碼引導生成模型,無需進行任務特定的SFT。實驗結果表明,我們的統一編輯模型在多個評估維度上均優於商業和開源競爭對手,如Ideogram、Adobe Photoshop和FLUX Fill [Pro]。代碼和模型可在以下網址獲取:https://one-reward.github.io
配備了檢索、記憶或外部API的工具增強型語言模型正在重塑人工智慧領域,然而其理論優勢仍未被充分探討。本文通過展示在工具內學習(外部檢索)相較於在權重內學習(記憶)對於事實回憶的益處,來回應這一問題。我們證明,模型僅憑其權重所能記憶的事實數量,從根本上受其參數總數的限制。相反地,我們證明了工具使用能夠通過一個簡單且高效的電路構造實現無限制的事實回憶。這些結果在控制實驗中得到了驗證,其中使用工具的模型始終優於依賴記憶的模型。我們進一步表明,對於預訓練的大型語言模型而言,教授工具使用和通用規則比將事實微調進記憶更為有效。我們的工作提供了理論與實證的雙重基礎,確立了為何工具增強的工作流程不僅實用,而且可證明更具擴展性。
近期基於預訓練視覺語言模型(VLMs)構建的視覺-語言-動作(VLA)模型需要進行大量的後續訓練,導致計算開銷過高,限制了其可擴展性和部署能力。我們提出了CogVLA,這是一個認知對齊的視覺-語言-動作框架,利用指令驅動的路由和稀疏化來提高效率和性能。CogVLA從人類多模態協調中汲取靈感,並引入了一個三階段的漸進式架構。1)基於Encoder-FiLM的聚合路由(EFA-Routing)將指令信息注入視覺編碼器,以選擇性地聚合和壓縮雙流視覺標記,形成指令感知的潛在表示。2)在此緊湊視覺編碼的基礎上,基於LLM-FiLM的修剪路由(LFP-Routing)通過修剪與指令無關的視覺基礎標記,將動作意圖引入語言模型,從而實現標記級別的稀疏性。3)為了確保壓縮後的感知輸入仍能支持準確且連貫的動作生成,我們引入了V-L-A耦合注意力(CAtten),它結合了因果視覺-語言注意力和雙向動作並行解碼。在LIBERO基準測試和實際機器人任務上的廣泛實驗表明,CogVLA在成功率上分別達到了97.4%和70.0%,實現了最先進的性能,同時與OpenVLA相比,訓練成本減少了2.5倍,推理延遲降低了2.8倍。CogVLA已開源並公開於https://github.com/JiuTian-VL/CogVLA。
大型語言模型(LLMs)在說服性對話中,往往難以平衡對錯誤信息的輕信與對有效糾正的抗拒,這對其可靠部署構成了關鍵挑戰。我們提出了DuET-PD(雙重評估信任於說服性對話),這是一個評估多輪立場變化動態的框架,涵蓋雙重維度:說服類型(糾正性/誤導性)和領域(通過MMLU-Pro的知識,以及通過SALAD-Bench的安全性)。我們發現,即使是像GPT-4o這樣的頂尖模型,在持續的誤導性說服下,於MMLU-Pro中的準確率也僅為27.32%。此外,結果顯示,新開源模型中的迎合趨勢日益嚴重。為解決這一問題,我們引入了Holistic DPO,一種平衡正面與負面說服示例的訓練方法。與提示或僅抵抗訓練不同,Holistic DPO增強了對錯誤信息的魯棒性和對糾正的接受度,將Llama-3.1-8B-Instruct在安全情境下受誤導性說服時的準確率從4.21%提升至76.54%。這些貢獻為開發更可靠、適應性更強的多輪對話LLMs提供了路徑。代碼可在https://github.com/Social-AI-Studio/DuET-PD獲取。
我們介紹了FakeParts,這是一種新型的深度偽造技術,其特徵在於對原本真實的視頻進行細微且局部的修改,這些修改僅針對特定的空間區域或時間片段。與完全合成的內容不同,這些局部操縱——從改變面部表情到替換物體及修改背景——與真實元素無縫融合,使其特別具有欺騙性且難以檢測。為應對檢測能力上的這一關鍵缺口,我們提出了FakePartsBench,這是首個專門設計用於捕捉所有類型局部深度偽造的大規模基準數據集。該數據集包含超過25,000個視頻,並提供像素級和幀級的操作註釋,從而支持對檢測方法的全面評估。我們的用戶研究表明,與傳統深度偽造相比,FakeParts使人類檢測準確率降低了超過30%,並且在最先進的檢測模型中也觀察到了類似的性能下降。這項工作揭示了當前深度偽造檢測方法中的一個緊迫漏洞,並為開發更強大的局部視頻操縱檢測方法提供了必要的資源。
由於近期視頻生成模型的成功,視頻物體移除技術已取得顯著進展。然而,在處理物體所產生的副作用(如陰影和反射)時,現有方法因缺乏配對視頻數據作為監督而難以有效消除這些影響。本文提出了ROSE(移除帶有副作用的物體),這是一個系統研究物體對環境影響的框架,這些影響可分為五種常見情況:陰影、反射、光線、半透明和鏡像。考慮到收集展示上述效果的配對視頻的挑戰,我們利用3D渲染引擎生成合成數據。我們精心構建了一個全自動的數據準備流程,模擬出包含多樣場景、物體、拍攝角度和相機軌跡的大規模配對數據集。ROSE實現為基於擴散變換器的視頻修復模型。為了定位所有與物體相關的區域,整個視頻被輸入模型進行基於參考的擦除。此外,引入了額外的監督來顯式預測受副作用影響的區域,這些區域可通過配對視頻之間的差異掩碼揭示。為了全面評估模型在各種副作用移除上的性能,我們提出了一個新的基準測試,名為ROSE-Bench,涵蓋了常見場景及上述五種特殊副作用,以進行綜合評估。實驗結果表明,ROSE相比現有的視頻物體擦除模型表現出更優的性能,並能很好地泛化到真實世界的視頻場景中。項目頁面請訪問:https://rose2025-inpaint.github.io/。
我們推出Dress&Dance,這是一個視頻擴散框架,能夠生成高品質、長達5秒、24幀率、分辨率為1152x720的虛擬試穿視頻,展示用戶穿著指定服裝並根據給定參考視頻進行動作。我們的方法僅需一張用戶圖像,並支持多種上衣、下裝和連身服裝,以及單次操作中同時試穿上衣和下裝。我們框架的核心是CondNet,這是一種新穎的條件網絡,利用注意力機制來統一多模態輸入(文本、圖像和視頻),從而提升服裝對齊和動作保真度。CondNet通過多階段漸進的方式,在異質訓練數據上進行訓練,結合有限的視頻數據和更易獲取的大規模圖像數據集。Dress&Dance在現有開源和商業解決方案中表現優異,提供了高品質且靈活的試穿體驗。
3D內容本質上具有多模態特性,能夠投射到不同的模態中(例如RGB圖像、RGBD和點雲)。每種模態在3D資產建模中都展現出獨特的優勢:RGB圖像包含生動的3D紋理,而點雲則定義了細粒度的3D幾何結構。然而,大多數現有的3D原生生成架構要麼主要在單一模態範式下運作——從而忽視了多模態數據的互補優勢——要麼僅限於3D結構,從而限制了可用訓練數據集的範圍。為了全面利用多模態進行3D建模,我們提出了TriMM,這是第一個從基本多模態(例如RGB、RGBD和點雲)中學習的前饋式3D原生生成模型。具體而言,1) TriMM首先引入了協作多模態編碼,該方法整合了模態特定特徵,同時保留了它們獨特的表示優勢。2) 此外,引入了輔助的2D和3D監督,以提高多模態編碼的魯棒性和性能。3) 基於嵌入的多模態代碼,TriMM採用三平面潛在擴散模型來生成高質量的3D資產,增強了紋理和幾何細節。在多個知名數據集上的廣泛實驗表明,TriMM通過有效利用多模態,儘管使用了少量訓練數據,仍能與大規模數據集訓練的模型競爭性能。此外,我們在最新的RGB-D數據集上進行了額外實驗,驗證了將其他多模態數據集納入3D生成的可行性。
隨著與大型語言模型(LLMs)的多輪對話變得越來越長且複雜,使用者如何能更好地評估和審查其對話目標的進展?我們提出了OnGoal,這是一個幫助使用者更好地管理目標進展的LLM聊天介面。OnGoal通過LLM輔助的評估提供即時的反饋,解釋評估結果並附上示例,以及展示目標隨時間的進展概覽,使使用者能夠更有效地導航複雜的對話。通過一項涉及20名參與者的寫作任務研究,我們將OnGoal與沒有目標追蹤的基準聊天介面進行了比較。使用OnGoal的參與者在探索新的提示策略以克服溝通障礙的同時,花費更少的時間和精力來達成目標,這表明追蹤和視覺化目標可以增強LLM對話中的參與度和韌性。我們的研究結果啟發了未來LLM聊天介面的設計方向,這些介面將改善目標溝通、降低認知負荷、增強互動性,並提供反饋以提升LLM的表現。
人類的社會行為本質上是多模態的,這促使我們開發強大的視聽模型來感知這些行為。在本文中,我們提出了Social-MAE,這是一個基於擴展版對比視聽掩碼自編碼器(CAV-MAE)的預訓練視聽模型,該模型在視聽社交數據上進行了預訓練。具體來說,我們修改了CAV-MAE,使其能夠接收更多幀作為輸入,並在人類社交互動的大型數據集(VoxCeleb2)上以自監督的方式進行預訓練。我們通過在不同社交和情感下游任務(即情感識別、笑聲檢測和外顯性格估計)上微調和評估模型,展示了該模型的有效性。該模型在多模態情感識別和笑聲識別上取得了最先進的成果,並在外顯性格估計上取得了競爭力的結果,展示了領域內自監督預訓練的有效性。代碼和模型權重可在這裡獲取:https://github.com/HuBohy/SocialMAE。