每日精選AI研究論文及翻譯
大型語言模型(LLMs)已發展成為具備自主工具使用與多步推理能力的代理系統,以應對複雜問題的解決。然而,基於通用基礎模型的後訓練方法在代理任務中表現持續不佳,尤其是在開源實現中。我們發現其根本原因在於:缺乏強大的代理基礎模型,迫使模型在後訓練過程中需同時學習多樣化的代理行為並將其與專家示範對齊,從而產生了根本性的優化矛盾。為此,我們首次提出將代理持續預訓練(Agentic CPT)納入深度研究代理訓練流程中,以構建強大的代理基礎模型。基於此方法,我們開發了一款名為AgentFounder的深度研究代理模型。我們在10個基準測試上評估了AgentFounder-30B,並取得了最先進的性能,同時保持了強大的工具使用能力,特別是在BrowseComp-en上達到39.9%,在BrowseComp-zh上達到43.3%,以及在HLE上Pass@1達到31.5%。
本文探討開放式深度研究(OEDR),這是一項複雜的挑戰,要求AI代理將海量的網絡規模信息綜合為具有洞察力的報告。當前方法面臨雙重限制:靜態的研究流程將規劃與證據獲取分離,以及一次性生成模式容易受到長上下文失敗問題的影響,如「中間遺失」和幻覺。為應對這些挑戰,我們引入了WebWeaver,一種模擬人類研究過程的創新雙代理框架。規劃者在動態循環中運作,迭代地交織證據獲取與大綱優化,以生成一個全面、基於來源的大綱,並連結到證據的記憶庫。接著,寫作者執行分層檢索與寫作過程,逐節編寫報告。通過針對性地從記憶庫中檢索每部分所需的證據,它有效地緩解了長上下文問題。我們的框架在多個主要OEDR基準測試中,包括DeepResearch Bench、DeepConsult和DeepResearchGym,建立了新的技術前沿。這些結果驗證了我們以人為本、迭代的方法論,表明適應性規劃與聚焦綜合對於生成高質量、可靠且結構良好的報告至關重要。
超越人類認知局限代表著大型語言模型(LLM)訓練中的一個關鍵前沿。專有的代理系統如DeepResearch已在極其複雜的資訊搜尋基準測試(如BrowseComp)上展現出超乎人類的能力,這是一項先前無法達成的成就。我們認為,其成功關鍵在於開源模型所缺乏的一種精妙推理模式:在探索廣闊資訊領域時,系統性地降低極端不確定性的能力。基於這一洞見,我們推出了WebSailor,這是一套完整的後訓練方法論,旨在培養這一關鍵能力。我們的方法包括通過結構化採樣與資訊模糊化生成新穎的高不確定性任務、RFT冷啟動,以及一種高效的代理強化學習訓練算法——複製採樣策略優化(DUPO)。憑藉這一整合流程,WebSailor在複雜的資訊搜尋任務中顯著超越了所有開源代理,與專有代理的表現相當,縮小了能力差距。
基於大型語言模型(LLM)的網絡代理在知識密集型任務上展現出強勁性能,但在如ReAct等範式中,其表現受到上下文窗口限制的阻礙。涉及多個實體、錯綜複雜關係及高度不確定性的複雜查詢,需要進行廣泛的搜索循環,這在達成完整解決方案之前便迅速耗盡了上下文預算。為克服這一挑戰,我們引入了ReSum,這是一種通過定期上下文摘要實現無限探索的新範式。ReSum將不斷增長的交互歷史轉化為緊湊的推理狀態,既保持對先前發現的認知,又繞過了上下文限制。針對範式適應,我們提出了ReSum-GRPO,它將GRPO與分段軌跡訓練及優勢廣播相結合,使代理熟悉基於摘要的推理。在三個基準測試中對不同規模的網絡代理進行的廣泛實驗表明,ReSum相較於ReAct實現了平均4.5%的絕對提升,而經過ReSum-GRPO訓練後,提升幅度更可達8.2%。值得注意的是,僅憑1K訓練樣本,我們的WebResummer-30B(WebSailor-30B的ReSum-GRPO訓練版本)在BrowseComp-zh上達到了33.3%的Pass@1,在BrowseComp-en上達到了18.3%,超越了現有的開源網絡代理。
高階的代理智能是將大型語言模型部署於實際應用中的先決條件。多樣化的現實世界API要求精確且穩健的函數調用智能,這需要代理在各種環境中通過互動來發展這些能力。函數調用能力的廣度與代理訓練環境的多樣性密切相關。在本研究中,我們通過擴展環境作為提升通用代理智能的一步,這引發了兩個核心挑戰:(i) 如何以系統化的方式擴展環境,以及(ii) 如何從與這些環境互動中獲得的經驗中有效訓練代理能力。為解決這些問題,我們設計了一個可擴展的框架,該框架自動構建完全模擬的異質環境,從而系統性地拓寬函數調用場景的空間。我們進一步採用了一種兩階段的代理微調策略:首先賦予代理基礎的代理能力,然後針對特定領域進行專業化。在代理基準測試、tau-bench、tau2-Bench和ACEBench上的廣泛實驗表明,我們訓練的模型AgentScaler顯著增強了模型的函數調用能力。
深度研究系統的最新進展展示了AI代理從外部來源自主發現和綜合知識的潛力。本文介紹了WebResearcher,這是一個通過兩個關鍵組件構建此類代理的新穎框架:(1) WebResearcher,一種將深度研究重新定義為馬可夫決策過程的迭代深度研究範式,在此過程中,代理定期將發現整合到不斷演進的報告中,同時保持專注的工作空間,克服了現有單一上下文方法中常見的上下文窒息和噪音污染問題;(2) WebFrontier,一個可擴展的數據合成引擎,通過工具增強複雜性升級生成高質量訓練數據,使研究任務的系統化創建成為可能,從而彌補被動知識回憶與主動知識構建之間的差距。值得注意的是,我們發現來自此範式的訓練數據顯著提升了傳統單一上下文方法的工具使用能力。此外,我們的範式通過平行思維自然擴展,支持並行的多代理探索,以獲得更全面的結論。在6個具有挑戰性的基準測試中進行的廣泛實驗表明,WebResearcher達到了最先進的性能,甚至超越了前沿的專有系統。
高品質3D資產的創作,作為現代遊戲開發的基石,長期以來一直以勞動密集且專業化的工作流程為特徵。本文介紹了Hunyuan3D Studio,這是一個端到端的AI驅動內容創作平台,旨在通過自動化和簡化遊戲就緒3D資產的生成,徹底革新遊戲生產流程。Hunyuan3D Studio的核心在於將一系列先進的神經模塊(如部件級3D生成、多邊形生成、語義UV等)整合到一個統一且用戶友好的系統中。這一統一的框架能夠將單一的概念圖像或文字描述迅速轉化為完全實現、生產質量的3D模型,並配備優化的幾何結構和高保真的PBR紋理。我們展示了Hunyuan3D Studio生成的資產不僅視覺上引人入勝,而且符合當代遊戲引擎的嚴格技術要求,顯著減少了迭代時間,降低了3D內容創作的門檻。通過提供從創意意圖到技術資產的無縫橋樑,Hunyuan3D Studio代表了遊戲開發和互動媒體中AI輔助工作流程的重大飛躍。
我們從單一流程的角度重新審視了大型語言模型(LLMs)的策略梯度優化。現行的基於群組的方法,如GRPO,雖然通過即時基線降低了方差,但存在關鍵缺陷:頻繁出現的退化群組會抹去學習信號,而同步屏障則阻礙了可擴展性。我們引入了單一流程策略優化(SPO),從設計上消除了這些問題。SPO用一個持久的、KL自適應的值追踪器取代了每組基線,並在整個批次中全局標準化優勢,為每個樣本提供了穩定、低方差的學習信號。由於無需分組,SPO在生成時間變化的長時程或工具集成設置中實現了更高的吞吐量和有效的擴展。此外,持久的值追踪器自然支持通過優先採樣實現的自適應課程。使用Qwen3-8B的實驗表明,SPO比GRPO收斂更平穩,並達到更高的準確性,同時消除了在退化群組上浪費的計算。消融研究證實,SPO的增益源於其對基線估計和優勢標準化的原則性方法,為LLM推理提供了一條更穩健和高效的路徑。在Qwen3 8B的五個困難數學基準測試中,SPO將平均maj@32提高了+3.4個百分點(pp),這主要得益於在具有挑戰性的數據集上的顯著絕對分數提升,包括BRUMO 25上的+7.3 pp、AIME 25上的+4.4 pp、HMMT 25上的+3.3 pp,並在評估的k值上實現了pass@k的一致相對增益。SPO的成功挑戰了當前在強化學習算法中添加附帶複雜性的趨勢,強調了一條由基本原理而非架構變通驅動的LLM推理進步之路。
我們提出了空間區域三維(SR-3D)感知的視覺語言模型,該模型通過共享的視覺標記空間將單視圖二維圖像與多視圖三維數據相連接。SR-3D支持靈活的區域提示,允許用戶在任意幀上使用邊界框、分割掩碼進行區域標註,或直接在3D中進行標註,而無需進行繁瑣的多幀標記。我們通過將3D位置嵌入豐富到2D視覺特徵中來實現這一點,這使得3D模型能夠利用強大的2D先驗知識,在跨幀的空間推理中實現更高的準確性,即使感興趣的物體不在同一視圖中出現。在通用2D視覺語言和專門的3D空間基準上的大量實驗表明,SR-3D達到了最先進的性能,突顯了其在統一2D和3D表示空間以進行場景理解方面的有效性。此外,我們觀察到SR-3D在沒有傳感器3D輸入或真實3D註釋的野外視頻中的適用性,能夠準確推斷空間關係和度量測量。
大型語言模型(LLMs)近期在自動定理證明(ATP)領域取得了顯著進展,通過廣泛採用的測試時擴展策略,特別是反思性思維鏈(CoT)推理和增加採樣次數,實現了性能的大幅提升。然而,這兩種策略都為推理引入了顯著的計算開銷。此外,現有的成本分析通常僅調節採樣次數,而忽略了不同擴展策略引入的採樣成本顯著差異。本文系統地比較了ATP模型不同測試時擴展策略的效率,並展示了當前最先進(SOTA)開源方法的低效性。隨後,我們研究了在保持原有性能的同時,顯著減少令牌使用和採樣次數的方法。具體而言,我們提出了兩種互補的方法,可以整合到一個統一的EconRL管道中以獲得放大效益:(1)動態思維鏈(CoT)切換機制,旨在減少不必要的令牌消耗;(2)多樣化並行擴展的強化學習(RL)與可訓練前綴,以在受限採樣次數下提高通過率。在miniF2F和ProofNet上的實驗表明,我們的EconProver僅以12%的計算成本就達到了與基線方法相當的性能。這項工作為在不犧牲性能的情況下部署輕量級ATP模型提供了可操作的見解。
人類在適應新環境條件時展現出驚人的數據效率,例如駕駛一輛新車。相比之下,現代機器人控制系統,如通過強化學習(RL)訓練的神經網絡策略,往往高度專注於單一環境。由於這種過度擬合,它們在面對微小差異(如模擬到現實的Sim2Real差距)時便容易失效,甚至系統的微小變動也需要進行系統識別和重新訓練。在本研究中,我們提出了RAPTOR方法,旨在訓練一種高度適應性的基礎策略,用於四旋翼飛行器的控制。該方法能夠訓練一個單一的端到端神經網絡策略,以控制多種多樣的四旋翼飛行器。我們測試了從32克到2.4公斤不等的10種真實四旋翼飛行器,這些飛行器在電機類型(有刷與無刷)、框架類型(軟性與剛性)、螺旋槳類型(2/3/4葉片)以及飛行控制器(PX4/Betaflight/Crazyflie/M5StampFly)等方面均有所不同。我們發現,僅需一個三層結構、僅含2084個參數的微小策略,便足以實現對多種平台的零樣本適應。這種通過上下文學習實現的適應性,得益於隱藏層中的遞歸設計。該策略通過一種新穎的元模仿學習算法進行訓練,我們採樣了1000種四旋翼飛行器,並使用強化學習為每種飛行器訓練一個教師策略。隨後,這1000個教師策略被蒸餾成一個單一的、具有適應性的學生策略。我們發現,生成的基礎策略能在毫秒級時間內,零樣本適應於未見過的四旋翼飛行器。我們在各種條件下(軌跡跟踪、室內/室外、風擾、戳刺、不同螺旋槳)對基礎策略的能力進行了廣泛測試。
多模態推理仍然是人工智慧領域的一個根本性挑戰。儘管在基於文本的推理方面取得了顯著進展,即便是最先進的模型如GPT-3,在多模態場景中仍難以保持強勁的表現。為彌補這一差距,我們引入了一種字幕輔助推理框架,有效橋接了視覺與文本模態。我們的方法在ICML 2025 AI for Math Workshop & Challenge 2: SeePhys中榮獲第一名,彰顯了其效能與魯棒性。此外,我們在MathVerse基準上驗證了其在幾何推理中的泛化能力,展示了我們方法的廣泛適用性。我們的程式碼已公開於https://github.com/OpenDCAI/SciReasoner。
我們提出了穩定部件擴散四維框架(Stable Part Diffusion 4D, SP4D),這是一個從單目輸入生成配對RGB與運動部件視頻的系統。與依賴於外觀語義線索的傳統部件分割方法不同,SP4D學習生成運動部件——這些結構組件與物體關節對齊,並在視角和時間上保持一致。SP4D採用雙分支擴散模型,聯合合成RGB幀及相應的部件分割圖。為了簡化架構並靈活支持不同部件數量,我們引入了一種空間色彩編碼方案,將部件掩碼映射到連續的類RGB圖像。這種編碼方式使分割分支能夠共享RGB分支的潛在變分自編碼器(VAE),同時通過簡單的後處理即可恢復部件分割。雙向擴散融合模塊(BiDiFusion, BiDiFuse)增強了分支間的一致性,並輔以對比部件一致性損失,以促進部件預測的空間與時間對齊。我們展示了生成的二維部件圖可被提升至三維,從而推導出骨骼結構和諧波蒙皮權重,僅需少量手動調整。為了訓練和評估SP4D,我們構建了KinematicParts20K數據集,這是一個精選自Objaverse XL(Deitke等,2023)的超過20,000個綁定物體的數據集,每個物體都配備了多視角RGB與部件視頻序列。實驗表明,SP4D在各種場景下展現出強大的泛化能力,包括真實世界視頻、新生成物體及罕見的關節姿態,生成適合下游動畫與運動相關任務的運動感知輸出。
近期,多模态大语言模型(MLLMs)在多个领域引起了广泛关注。然而,其广泛应用也引发了严重的安全隐患。本文揭示了一种MLLMs的新型安全风险:通过精心优化的图像,可以任意操控MLLMs的输出偏好。此类攻击常生成上下文相关但带有偏见的响应,这些响应既不显露出明显的有害性,也不违背伦理,因而难以被察觉。具体而言,我们提出了一种名为“偏好劫持”(Phi)的新方法,利用偏好被劫持的图像来操控MLLM的响应偏好。该方法在推理阶段实施,无需对模型进行任何修改。此外,我们引入了一种通用劫持扰动——一种可转移的组件,可嵌入不同图像中,将MLLM的响应导向攻击者指定的任何偏好。跨多种任务的实验结果验证了我们方法的有效性。Phi的代码可在https://github.com/Yifan-Lan/Phi获取。
我們提出了一種名為zELO的新穎訓練方法,該方法通過分析排名任務在靜態上等同於瑟斯頓模型來優化檢索性能。基於zELO方法,我們利用無監督數據訓練了一套最先進的開放權重重排序模型:zerank-1和zerank-1-small。這些模型在多個領域,包括金融、法律、代碼和STEM中,達到了最高的檢索分數,在NDCG@10和召回率上均超越了閉源專有重排序器。這些模型還展現了極強的適應性,在域外和私人客戶數據集上保持了零樣本性能。訓練數據包括112,000個查詢,每個查詢對應100份文檔,並在不到10,000個H100小時內,從未標註的查詢和文檔中進行了端到端的訓練。
我們提出了一種簡單、完全正確且假設較少的替代方案,用於替換近期帶有複數高斯窗的窗口化量子傅立葉變換(QFT)晶格算法~chen2024quantum中備受爭議的“域擴展”步驟(第9步)。已發表的第9步存在週期性/支撐不匹配的問題。我們提出了一種配對位移差分構造,能夠相干地消除所有未知偏移量,精確生成Z_{P}上的均勻中國剩餘定理(CRT)陪集態,然後利用QFT來強制執行預期的模線性關係。該單元操作是可逆的,使用多項式對數級(poly(log M_2))的量子門,並保持了算法的漸近性能。項目頁面:https://github.com/yifanzhang-pro/quantum-lattice。
近期,大型语言模型(LLM)压缩技术,如量化和剪枝,已取得显著成就。然而,随着这些技术逐渐逼近各自的理论极限,依赖单一方法进行进一步压缩变得愈发困难。本研究探索了一种结合量化与稀疏性的替代方案。这一联合方法虽前景广阔,却因权重分布上固有的矛盾要求而引入新挑战:量化偏好紧凑范围,而剪枝则受益于高方差。针对此问题,我们提出了最优大脑恢复(Optimal Brain Restoration, OBR),一个通用且无需训练的框架,通过误差补偿在剪枝与量化之间实现对齐。OBR基于二阶Hessian目标,最小化下游任务性能的下降,并通过代理近似将其重构为可处理的问题,最终通过组误差补偿达到闭式解。实验表明,OBR能够在现有LLM上实现激进的W4A4KV4量化并保持50%的稀疏性,相较于FP16密集基线,实现了高达4.72倍的加速和6.4倍的内存缩减。
連續體機器人正在革新支氣管鏡檢查程序,能夠深入複雜的肺部氣道並實現精準介入治療。然而,其發展受限於缺乏逼真的訓練與測試環境:由於倫理限制和患者安全考慮,真實數據難以收集,而開發自主算法又需要真實的影像和物理反饋。我們推出了ROOM(醫學中的真實光學觀測),這是一個專為生成逼真支氣管鏡訓練數據而設計的綜合模擬框架。通過利用患者的CT掃描,我們的流程渲染出多模態傳感器數據,包括帶有真實噪聲和光澤反射的RGB圖像、度量深度圖、表面法線、光流以及醫學相關尺度的點雲。我們在兩個醫療機器人經典任務——多視角姿態估計和單目深度估計中驗證了ROOM生成的數據,展示了頂尖方法在轉移至這些醫療場景時必須克服的多樣挑戰。此外,我們證明ROOM產生的數據可用於微調現有的深度估計模型,以克服這些挑戰,同時也支持如導航等其他下游應用。我們期待ROOM能夠實現大規模數據生成,涵蓋臨床環境中難以捕捉的多樣患者解剖結構和手術場景。代碼與數據:https://github.com/iamsalvatore/room。
將病理圖像數位化為千兆像素級全切片圖像(WSIs)為計算病理學(CPath)開闢了新途徑。由於陽性組織僅佔千兆像素WSIs的一小部分,現有的多實例學習(MIL)方法通常通過注意力機制來識別顯著實例。然而,這導致了對易於分類實例的偏見,而忽視了具有挑戰性的實例。最近的研究表明,困難樣本對於準確建模判別邊界至關重要。在實例層面應用這一理念,我們提出了一種新穎的MIL框架——帶有掩碼困難實例挖掘的MIL(MHIM-MIL),該框架利用具有一致性約束的孿生結構來探索困難實例。MHIM-MIL使用類感知實例概率,通過動量教師來掩碼顯著實例,並隱式挖掘困難實例以訓練學生模型。為了獲得多樣化且非冗餘的困難實例,我們採用大規模隨機掩碼,同時利用全局循環網絡來降低丟失關鍵特徵的風險。此外,學生模型通過指數移動平均更新教師模型,這有助於識別新的困難實例用於後續訓練迭代,並穩定優化過程。在癌症診斷、亞型分類、生存分析任務以及12個基準測試上的實驗結果表明,MHIM-MIL在性能和效率上均優於最新方法。代碼可在以下網址獲取:https://github.com/DearCaat/MHIM-MIL。
差分隱私(DP)合成數據生成是一項頗具前景的技術,它能夠利用那些原本無法公開用於模型訓練或其他分析的私有數據集。儘管大量研究文獻聚焦於生成私有的非結構化文本和圖像數據,但在企業環境中,結構化數據(如表格數據)更為常見,且往往包含自然語言字段或組件。現有的合成數據評估技術(如FID)難以捕捉此類數據集的結構特性與關聯性。在本研究中,我們提出了Struct-Bench,這是一個用於評估源自包含自然語言數據的結構化數據集的合成數據的框架與基準。Struct-Bench框架要求用戶提供其數據集結構的表示,即上下文無關文法(CFG)。我們的基準包含5個真實世界數據集和2個合成生成的數據集,每個數據集均附有CFG註釋。我們展示這些數據集即使對於最先進的DP合成數據生成方法也構成了顯著挑戰。Struct-Bench還囊括了不同指標的參考實現和一個排行榜,從而為研究人員提供了一個標準化的評估平台,用以對比和研究隱私保護的合成數據生成方法。此外,我們還展示了一個案例研究,說明如何利用Struct-Bench來提升Private Evolution(PE)在結構化數據上的合成數據質量。該基準及排行榜已公開於https://struct-bench.github.io。
透過數位信號處理算法實現的自動微分技術在虛擬類比建模領域近期備受關注。這些算法通常比依賴密集矩陣乘法的黑箱神經網絡更具計算效率。由於其可微分的特性,它們能夠與神經網絡整合,並利用梯度下降算法進行聯合訓練,從而構建出更高效的系統。此外,信號處理算法的參數量遠少於神經網絡,這使得牛頓-拉夫森方法的應用成為可能。該方法以二次存儲為代價,提供了比梯度下降更快且更穩健的收斂性能。本文提出了一種方法,利用前饋數位壓縮器模擬類比電平放大器,並通過牛頓-拉夫森方法優化其參數。我們展示了數位壓縮器能夠成功近似目標設備Teletronix LA-2A的行為。文中對計算海森矩陣的不同策略進行了基準測試。我們利用遞歸濾波器的並行算法,在現代GPU上實現了高效的訓練。最終模型被製作成VST插件,並在https://github.com/aim-qmul/4a2a開源。