每日精選AI研究論文及翻譯
語言代理的長期目標是通過自身經驗進行學習與改進,最終在複雜的現實任務中超越人類。然而,在許多環境中,利用強化學習從經驗數據中訓練代理仍然面臨挑戰,這些環境要么缺乏可驗證的獎勵(例如網站),要么需要低效的長時序展開(例如多輪工具使用)。因此,當前大多數代理依賴於對專家數據的監督微調,這種方法難以擴展且泛化能力較差。這一限制源於專家示範的本質:它們僅捕捉了狹窄的場景範圍,並使代理暴露於有限的環境多樣性中。我們提出了一種折衷範式,稱之為早期經驗:由代理自身行為生成的交互數據,其中未來的狀態作為監督信號,而無需獎勵信號。在此範式下,我們研究了兩種利用此類數據的策略:(1)隱式世界建模,利用收集的狀態將策略基於環境動態進行錨定;(2)自我反思,代理從其次優行為中學習,以提升推理與決策能力。我們在八個多樣化的環境和多個模型家族中進行了評估。我們的方法持續提升了效能與跨域泛化能力,彰顯了早期經驗的價值。此外,在具有可驗證獎勵的環境中,我們的結果提供了積極信號,表明早期經驗為後續的強化學習奠定了堅實基礎,使其成為模仿學習與完全經驗驅動代理之間的實用橋樑。
儘管當前的多模態大型語言模型(MLLMs)在數學和邏輯等推理任務中展現出熟練能力,但其長鏈條反思推理的能力——解決複雜現實問題的先決條件——仍大多未被充分探索。在本研究中,我們首先進行了廣泛的實證調查以評估這一能力。利用精心設計的數據合成引擎,我們構建了MM-HELIX,這是一個包含1,260個樣本、涵蓋42項需要迭代思考和回溯的挑戰性合成任務的多模態基準。在該基準上的實證結果顯示,現有的MLLMs在長鏈條反思推理方面表現出顯著的性能缺陷。為解決這一限制,我們生成了後訓練數據,並進一步探索了利用此類數據的學習範式。我們首先開發了步驟引導響應生成管道,創建了MM-HELIX-100K,這是一個包含10萬條高質量反思推理軌跡的大規模數據集,用於指令微調階段。考慮到標準強化學習在複雜任務上因稀疏獎勵信號和監督微調後的災難性遺忘而失效,我們提出了自適應混合策略優化(AHPO),這是一種新穎的訓練策略,動態地將離線監督和在線優化統一為單一階段。此策略使模型能在獎勵稀疏時從專家數據中學習,並在熟練後進行獨立探索。當應用於Qwen2.5-VL-7B基線時,我們的方法在MM-HELIX基準上實現了+18.6%的準確率提升,並在一般數學和邏輯任務上展現出強勁的泛化能力,平均性能增益達+5.7%。我們的工作證明,MLLMs中的反思推理可以被有效學習和泛化,為開發更強大的MLLMs鋪平了道路。
随着数据的爆炸性增长,长序列建模在自然语言处理和生物信息学等任务中变得愈发重要。然而,现有方法在效率与内存之间面临固有的权衡。循环神经网络因梯度消失和爆炸问题而难以扩展。Transformer虽能建模全局依赖关系,却受限于二次方复杂度。近期,如Mamba等选择性状态空间模型展示了O(n)时间复杂度和O(1)循环推理的高效性,但其长程记忆呈指数衰减。本研究通过数学推导与信息论分析,系统揭示了Mamba的记忆衰减机制,解答了一个根本性问题:Mamba的长程记忆本质为何,以及它如何保留信息?为量化关键信息损失,我们进一步引入了水平-垂直记忆保真度指标,捕捉层内与层间的退化现象。受人类在阅读长文档时提炼与保留关键信息的方式启发,我们提出了MemMamba,一种新颖的架构框架,它整合了状态摘要机制与跨层跨令牌注意力,在保持线性复杂度的同时缓解了长程遗忘问题。MemMamba在PG19和Passkey Retrieval等长序列基准测试上较现有Mamba变体及Transformer取得了显著提升,推理效率提升了48%。理论与实证结果均表明,MemMamba在复杂度与记忆的权衡上实现了突破,为超长序列建模提供了新范式。
統一的多模態模型在多模態內容生成與編輯方面已展現出令人期待的成果,但這些成果主要侷限於圖像領域。在本研究中,我們提出了UniVideo,這是一個將統一建模擴展至視頻領域的通用框架。UniVideo採用了雙流設計,結合了用於指令理解的多模態大型語言模型(MLLM)和用於視頻生成的多模態DiT(MMDiT)。這一設計使得複雜多模態指令能夠被精確解讀,同時保持視覺一致性。基於此架構,UniVideo將多樣的視頻生成與編輯任務統一在單一的多模態指令範式下,並對這些任務進行聯合訓練。大量實驗表明,UniVideo在文本/圖像到視頻生成、上下文視頻生成及上下文視頻編輯等任務上,匹配甚至超越了特定任務的最新基準。值得注意的是,UniVideo的統一設計促進了兩種形式的泛化能力。首先,UniVideo支持任務組合,例如將編輯與風格轉換結合,通過單一指令整合多種能力。其次,即便未經自由形式視頻編輯的專門訓練,UniVideo也能將其從大規模圖像編輯數據中習得的編輯能力遷移至此場景,處理如綠幕摳像或視頻內材質變換等未見指令。除了這些核心能力,UniVideo還支持基於視覺提示的視頻生成,其中MLLM解讀視覺提示並在合成過程中指導MMDiT。為促進未來研究,我們將公開我們的模型與代碼。
我們提出了任意時空視頻補全任務,該任務從用戶指定的任意空間位置和時間戳的補丁生成視頻,類似於在視頻畫布上繪畫。這種靈活的表述自然統一了許多現有的可控視頻生成任務——包括首幀圖像到視頻、修復、擴展和插值——在一個統一、連貫的範式下。然而,實現這一願景面臨現代潛在視頻擴散模型中的一個基本障礙:因果變分自編碼器(VAE)引入的時間模糊性,其中多個像素幀被壓縮為單一的潛在表示,使得精確的幀級條件控制在結構上變得困難。我們通過VideoCanvas這一新框架應對這一挑戰,該框架將上下文條件(ICC)範式適應於這一精細控制任務,且無需新增參數。我們提出了一種混合條件策略,將空間和時間控制解耦:空間放置通過零填充處理,而時間對齊則通過時間RoPE插值實現,該方法為每個條件分配潛在序列中的連續分數位置。這解決了VAE的時間模糊性,並在凍結的骨幹上實現了像素幀感知控制。為了評估這一新能力,我們開發了VideoCanvasBench,這是第一個用於任意時空視頻補全的基準測試,涵蓋了場景內保真度和場景間創造力。實驗表明,VideoCanvas顯著優於現有的條件範式,在靈活和統一的視頻生成領域建立了新的技術水平。
化学反应条件的推荐旨在为化学反应选取适宜的反应条件参数,这对加速化学科学的发展至关重要。随着大语言模型(LLMs)的迅速发展,利用其推理与规划能力进行反应条件推荐引起了越来越多的关注。尽管现有方法已取得一定成功,但它们鲜少解释推荐反应条件背后的逻辑,这限制了其在高风险科学工作流程中的应用。在本研究中,我们提出了ChemMAS,一个将条件预测重构为基于证据推理任务的多智能体系统。ChemMAS将该任务分解为机制基础、多通道回忆、约束感知的智能体辩论及理由聚合四个部分。每一项决策均基于化学知识与检索到的先例,提供可解释的论证。实验表明,ChemMAS在Top-1准确率上较领域特定基线提升了20-35%,并优于通用LLMs 10-15%,同时提供了可证伪、可信赖的人类理解理由,为科学发现中的可解释人工智能确立了新范式。
近期發展的長上下文語言模型(LCLMs)能夠在單一提示中處理數十萬個標記,這為知識密集型的多跳推理開闢了新機會,通過整合大量檢索到的文件,或在某些情況下直接包含所有必要資訊。然而,僅僅將更多文件輸入上下文窗口並未能捕捉證據應如何連接。我們通過思維模板來解決這一差距,這些模板將推理重新構建為可重用的思維緩存,源自先前的問題解決軌跡,結構化證據的結合方式,並以事實文件指導多跳推理。為了保持這些模板的有效性,我們提出了一種更新策略,通過自然語言反饋迭代地從訓練數據中精煉模板。在多樣化的基準測試和LCLM家族中,我們的方法在基於檢索和非檢索的設置下均展現出對強基線的持續提升。此外,我們展示了優化後的模板可以被蒸餾到更小的開源模型中,證明了其廣泛的適用性和透明的推理重用。我們將此框架稱為思維模板增強型長上下文語言模型(ToTAL)。
近期关于推理模型的研究探讨了语言模型的元认知能力,即模型自身知晓如何思考的能力。我们通过证明真实展开与预测元信息之间的严重不对齐,论证了大型推理模型缺乏这一元认知特性。我们提出,将元预测与真实展开对齐将带来显著的性能提升。为验证这一假设,我们设计了一种通过自我对齐增强元认知(MASA)的训练流程,并证明增强的元认知直接转化为准确率的提升。与现有的元认知推理模型不同,我们的方法无需外部训练资源,而是利用自我生成的信号来训练元认知。此外,我们的方法通过以下两点实现了高效训练:一是过滤掉那些要么过于简单要么无法解决的零方差提示;二是在展开过程不太可能导向正确答案时及时终止。实验结果令人鼓舞:我们的策略在领域内任务上显著提升了准确率和训练效率,并在领域外基准测试中展现出强大的泛化能力。具体而言,我们的方法能将GRPO训练速度提升超过1.28倍以达到同等性能,并在AIME25上实现19.3%的准确率提升,在六个数学基准测试中平均提升6.2%。采用元认知指导的训练增强了领域外泛化能力,在GPQA-Diamond上提升了3.87%,在涵盖逻辑、科学和编程领域的13个基准测试中整体准确率提升了2.08%。
駕馭大型語言模型(LLMs)的力量,需要在提供幫助與保持無害之間進行精妙的平衡。這在兩大相互競爭的挑戰間形成了根本性的張力:一是易受對抗性攻擊誘導出不安全內容的脆弱性,二是對良性但敏感提示過度拒絕的傾向。現有方法通常依賴於安全防護模型,這些模型會完全拒絕任何包含不安全部分的內容。這種做法如同徹底切斷了音樂——它可能加劇過度拒絕,並未能為其拒絕的查詢提供細緻的指導。為了教會模型更協調的“舞步”,我們提出了WaltzRL,這是一種新穎的多智能體強化學習框架,將安全對齊構建為一種協作、正和博弈。WaltzRL聯合訓練一個對話智能體和一個反饋智能體,後者被激勵提供有用的建議,以提升對話智能體回應的安全性和幫助性。WaltzRL的核心是動態改進獎勵(DIR),它根據對話智能體整合反饋的效果隨時間演進。在推理階段,對話智能體的不安全或過度拒絕的回應會被改進而非直接丟棄。反饋智能體與對話智能體一同部署,僅在需要時自適應地介入,確保在安全查詢上保持幫助性和低延遲。我們在五個多樣化數據集上的實驗表明,與多種基線相比,WaltzRL顯著減少了不安全回應(例如,在WildJailbreak上從39.0%降至4.6%)和過度拒絕(在OR-Bench上從45.3%降至9.9%)。通過促使對話與反饋智能體共同進化並自適應地應用反饋,WaltzRL在不削弱通用能力的前提下增強了LLM的安全性,從而推動了幫助性與無害性之間的帕累托前沿。
基於指令的圖像編輯和主體驅動生成技術的最新進展已引起廣泛關注,但這兩項任務在滿足實際用戶需求方面仍存在侷限。基於指令的編輯僅依賴語言指令,往往難以捕捉具體的編輯細節,因此需要參考圖像。而主體驅動生成則侷限於結合具體物體或人物,忽略了更廣泛的抽象概念。為應對這些挑戰,我們提出了兩項新任務:多模態基於指令的編輯和生成。這些任務支持文本和圖像指令,並將範圍擴展至包含具體和抽象概念,極大提升了其實際應用價值。我們推出了DreamOmni2,主要解決數據創建和模型框架設計兩大難題。我們的數據合成流程包含三個步驟:(1) 使用特徵混合方法創建抽象和具體概念的提取數據,(2) 利用編輯和提取模型生成多模態基於指令的編輯訓練數據,(3) 進一步應用提取模型創建多模態基於指令的編輯訓練數據。在框架設計上,為處理多圖像輸入,我們提出了索引編碼和位置編碼偏移方案,幫助模型區分圖像並避免像素混淆。此外,我們引入了與視覺語言模型(VLM)及生成/編輯模型的聯合訓練,以更好地處理複雜指令。同時,我們為這兩項新任務提出了全面的基準測試,以推動其發展。實驗表明,DreamOmni2已取得令人矚目的成果。模型和代碼將對外發布。
大型語言模型正逐漸成為科學定律發現的強大工具,這是AI驅動科學中的一項基礎性挑戰。然而,現有的基準測試在這一任務上存在著根本性的方法論三難困境,迫使在科學相關性、可擴展性和抗記憶化之間做出取捨。此外,這些基準測試將發現過程過度簡化為靜態函數擬合,未能捕捉到通過對複雜模型系統進行互動探索來揭示內嵌定律的真實科學過程。為解決這些關鍵缺陷,我們引入了NewtonBench,這是一個包含12個物理領域中324項科學定律發現任務的基準測試。我們的設計通過使用形而上學轉變——對經典定律進行系統性修改——來生成大量既具可擴展性、科學相關性又抗記憶化的問題,從而緩解了評估三難困境。此外,我們將評估從靜態函數擬合提升至互動模型發現,要求代理通過實驗探測模擬的複雜系統來揭示隱藏原理。我們的大量實驗揭示了前沿大型語言模型在發現能力上存在明顯但脆弱的特性:這一能力隨著系統複雜性的增加而急劇下降,並對觀測噪聲表現出極端敏感性。值得注意的是,我們發現了工具輔助的悖論效應:提供代碼解釋器可能會阻礙更有能力的模型,因為它誘導了從探索到利用的過早轉變,導致它們滿足於次優解。這些結果表明,在複雜的互動環境中實現穩健、可泛化的發現仍然是核心挑戰。通過提供一個可擴展、穩健且科學真實的測試平台,NewtonBench為衡量真正的進展和指導能夠實現真正科學發現的下一代AI代理的開發提供了關鍵工具。
大型語言模型(LLMs)的推理後訓練日益依賴可驗證的獎勵:提供0-1正確性信號的確定性檢查器。雖然可靠,但這種二元反饋是脆弱的——許多任務允許部分正確或替代答案,而驗證器往往低估了這些答案,由此產生的全有或全無的監督限制了學習。獎勵模型提供了更豐富、連續的反饋,可以作為驗證器的補充監督信號。我們引入了HERO(混合集成獎勵優化),這是一個強化學習框架,它以結構化的方式整合了驗證器信號與獎勵模型分數。HERO採用分層歸一化,將獎勵模型分數限制在驗證器定義的組內,在保持正確性的同時細化質量區分,並使用方差感知加權來強調密集信號最為關鍵的挑戰性提示。在各種數學推理基準測試中,HERO始終優於僅使用獎勵模型和僅使用驗證器的基線,無論是在可驗證還是難以驗證的任務上都取得了顯著的提升。我們的結果表明,混合獎勵設計在保持驗證器穩定性的同時,利用獎勵模型的細微差別來推進推理。
從單目圖像序列進行即時3D重建是計算機視覺領域長期以來的挑戰,對於實境到虛擬(real-to-sim)、增強現實/虛擬現實(AR/VR)以及機器人等應用至關重要。現有方法面臨一個主要權衡:針對單一場景的優化能帶來高保真度,但計算成本高昂;而前饋式基礎模型雖能實現實時推理,卻在準確性和魯棒性上表現欠佳。在本研究中,我們提出了ARTDECO,一個統一框架,它結合了前饋模型的高效性與基於SLAM管道的可靠性。ARTDECO利用3D基礎模型進行姿態估計和點雲預測,並配備一個高斯解碼器,將多尺度特徵轉化為結構化的3D高斯分佈。為了在保持大規模場景下保真度和效率的平衡,我們設計了一種分層高斯表示法,結合細節層次(LoD)感知的渲染策略,從而提升渲染保真度的同時減少冗餘。在八個多樣化的室內外基準測試中,ARTDECO展現了與SLAM相當的交互性能、接近前饋系統的魯棒性,以及逼近單場景優化的重建質量,為實現兼具精確幾何與高視覺保真度的現實世界環境即時數字化提供了一條實用路徑。更多演示請訪問我們的項目頁面:https://city-super.github.io/artdeco/。
近年來,大型語言模型(LLM)代理的進展展現了其廣泛的通用能力。然而,在專業的現實領域中,其表現往往因有效整合外部工具和特定提示策略的挑戰而下降。雖然已提出如代理強化學習等方法來應對這一問題,但這些方法通常依賴於成本高昂的參數更新,例如通過監督微調(SFT)後接使用群組相對策略優化(GRPO)的強化學習(RL)階段來改變輸出分佈。然而,我們認為LLM可以通過學習經驗知識作為令牌先驗來實現對輸出分佈的類似效果,這是一種更為輕量級的方法,不僅解決了實際數據稀缺的問題,還避免了常見的過擬合問題。為此,我們提出了無訓練群組相對策略優化(Training-Free GRPO),這是一種無需參數更新的成本效益解決方案,能夠提升LLM代理的表現。我們的方法利用群組相對語義優勢而非數值優勢,在最小真實數據上進行多輪學習,迭代提煉高質量的經驗知識。這些知識作為學習到的令牌先驗,在LLM API調用期間無縫整合,以指導模型行為。在數學推理和網絡搜索任務上的實驗表明,當應用於DeepSeek-V3.1-Terminus時,Training-Free GRPO顯著提升了域外表現。僅需幾十個訓練樣本,Training-Free GRPO便超越了使用少量訓練數據和成本進行微調的小型LLM。
平行擴展已成為提升大型語言模型(LLMs)推理能力的一種強大範式,它通過同時生成多條思維鏈(CoT)軌跡來實現。然而,這種方法由於軌跡間的冗餘性帶來了顯著的計算效率問題——我們的分析顯示,超過80%的平行推理軌跡會產生相同的最終答案,這意味著大量的計算資源被浪費。為了解決這一關鍵的效率瓶頸,我們提出了DeepPrune,這是一個通過動態剪枝實現高效平行擴展的新框架。我們的方法包括一個專門訓練的判斷模型,該模型採用焦點損失和過採樣技術,能夠從部分推理軌跡中準確預測答案的等價性,在等價性預測上實現了0.87的AUROC,並結合一個在線貪心聚類算法,動態剪除冗餘路徑,同時保持答案的多樣性。在三個具有挑戰性的基準測試(AIME 2024、AIME 2025和GPQA)以及多種推理模型上的全面評估表明,DeepPrune在大多數情況下相比傳統的共識採樣實現了超過80%的token減少,同時保持了在3個百分點以內的競爭性準確率。我們的工作為高效的平行推理設立了新標準,使高性能推理更加高效。我們的代碼和數據可在這裡找到:https://deepprune.github.io/
近期,大型語言模型在推理能力上展現了顯著的進步,這通常歸因於其能夠生成更長的思維鏈並進行反思性推理。然而,反思對性能提升的具體貢獻仍不明確。在本論文中,我們系統地分析了八個推理模型在五個數學數據集上的運行過程。我們特別關注模型在已經生成答案後仍繼續反思的行為,直至最終確定輸出。我們的分析顯示,反思主要起到確認作用,很少改變模型的初始答案,這一模式在模型和數據集之間具有一致性。為了理解反思在訓練中的作用,我們構建了包含不同反思步數的監督微調(SFT)數據集。我們觀察到,在包含更多反思步數的運行數據上訓練模型,主要提升了首次答案的正確性,而非通過反思修正初始錯誤答案的能力。這促使我們提出了一種基於問題的早期停止方法,該方法在推理過程中一旦生成幾個合理的候選答案便停止,從而減少不必要的反思步數,提升推理時的令牌效率。基於此,我們進一步提出在生成過程中候選答案出現後動態截斷反思,這在五個數學數據集上減少了24.5%的推理令牌,而準確率僅下降2.9%。
先前的研究表明,在特定狹窄領域(例如不安全的程式碼或錯誤的醫療建議)中,針對惡意或不正確的完成進行微調的大型語言模型(LLMs)可能會廣泛地出現偏差,表現出有害行為,這種現象被稱為「突發性偏差」。在本研究中,我們探討這一現象是否能夠超越安全行為,延伸至高風險情境下的更廣泛不誠實與欺騙行為(例如在壓力下說謊和欺騙行為)。為此,我們在多個領域中對開源的大型語言模型進行了偏差完成的微調。實驗結果顯示,大型語言模型在不誠實行為上表現出廣泛的偏差。此外,我們進一步在下游混合微調的設定中探索這一現象,發現即使在標準下游任務中引入僅1%的偏差數據,也足以使誠實行為減少超過20%。更進一步,我們考慮了一個更實際的人機互動環境,模擬了良性與偏見用戶與助手型大型語言模型的互動。值得注意的是,我們發現,僅需10%的偏見用戶群體,助手型模型就可能無意中被偏差化,從而加劇其不誠實行為。總之,我們將突發性偏差的研究延伸至高風險情境下的不誠實與欺騙領域,並證明這種風險不僅通過直接微調產生,也在下游混合任務和實際的人機互動中顯現。
可驗證獎勵的強化學習(RLVR)已推動大型語言模型在複雜推理中的應用,但其可擴展性常因訓練瓶頸而受限,即當策略熵崩潰時,性能趨於平穩,這表明探索能力的喪失。以往的方法通常通過保持高策略熵來應對這一問題,然而,控制有意義探索的精確機制仍未得到充分探討。我們的分析表明,對熵的無選擇性關注可能會放大不相關的標記並使訓練不穩定。本文研究了RLVR內的探索動態,並發現了一個關鍵問題:有價值的低概率探索性標記(我們稱之為\textit{推理火花})的逐漸消失。我們發現,這些火花在預訓練模型中雖然豐富,但在RLVR過程中由於過度懲罰而被系統性地消除,導致探索的退化。為解決這一問題,我們引入了低概率正則化(Lp-Reg)。其核心機制是將策略正則化到一個啟發式代理分佈上。該代理分佈通過過濾掉假定的噪聲標記並對剩餘候選進行重新歸一化來構建。結果是一個噪聲較少的代理分佈,其中推理火花的概率被放大,然後作為一個軟正則化目標,通過KL散度保護這些有價值的標記不被消除。實驗表明,Lp-Reg能夠在約1,000步的範圍內實現穩定的在線訓練,而基線的熵控制方法在此範圍內會崩潰。這種持續的探索帶來了最先進的性能,在五個數學基準測試中達到了60.17%的平均準確率,比之前的方法提高了2.66%。代碼可在https://github.com/CarlanLark/Lp-Reg獲取。
級聯視頻超分辨率技術已成為一種頗具前景的方法,用於解耦使用大型基礎模型生成高分辨率視頻所帶來的計算負擔。然而,現有研究主要局限於文本到視頻任務,未能充分利用文本之外的其他生成條件,而這些條件對於確保多模態視頻生成的保真度至關重要。我們通過提出UniMMVSR來解決這一限制,這是首個統一生成視頻超分辨率框架,能夠整合包括文本、圖像和視頻在內的混合模態條件。我們在潛在視頻擴散模型中全面探索了條件注入策略、訓練方案和數據混合技術。一個關鍵挑戰在於設計不同的數據構建和條件利用方法,使模型能夠精確利用所有條件類型,考慮到它們與目標視頻之間的不同關聯性。我們的實驗表明,UniMMVSR顯著優於現有方法,生成的視頻具有更豐富的細節和更高的多模態條件一致性。我們還驗證了將UniMMVSR與基礎模型結合以實現多模態引導的4K視頻生成的可行性,這一成就是現有技術之前無法實現的。
组合式训练已成为现有多模态大语言模型(MLLMs)中的默认范式,其中预训练的视觉编码器通过连续的多模态预训练与预训练的大语言模型相连接。然而,由于这种分离式训练,该范式的多模态扩展特性仍难以探索。本文聚焦于以端到端方式对MLLMs进行原生训练,并在数据受限的实际设置下系统研究其设计空间和扩展特性。通过对MLLM中各种选择的细致研究,我们获得了在性能与训练成本之间最佳平衡的元架构。随后,我们进一步探索了原生MLLM的扩展特性,并指出了视觉编码器与大语言模型之间正相关的扩展关系。基于这些发现,我们提出了一个名为NaViL的原生MLLM,并配以简单且成本效益高的训练方案。在14个多模态基准上的实验结果证实了NaViL相较于现有MLLMs的竞争优势。此外,我们的发现和结果为未来原生MLLMs的研究提供了深入的见解。
自我演化是促使基於大型語言模型(LLM)的代理在預訓練後持續提升能力的核心研究課題。近期研究見證了從無強化學習(RL)方法向基於RL方法的轉變。當前的基於RL的方法,或依賴於密集的外部獎勵信號,或從LLM自身提取內在獎勵信號。然而,這些方法與人類智能中觀察到的自我演化機制相悖,在人類智能中,個體通過相互討論與協作來學習與進步。本研究中,我們引入了共演化多代理系統(CoMAS),這是一種新穎的框架,使代理能夠在無外部監督的情況下,通過代理間互動自主學習並提升。CoMAS從豐富的討論動態中生成內在獎勵,採用LLM作為裁判的機制來制定這些獎勵,並通過RL優化每個代理的策略,從而實現去中心化且可擴展的共演化。實驗結果表明,CoMAS在大多數評估設定中均優於未經訓練的代理,並達到了最先進的性能。消融研究證實了基於互動的獎勵信號的必要性,並揭示了隨著代理數量與多樣性的增加,其可擴展性前景廣闊。這些發現確立了CoMAS作為LLM基代理自我演化的一種新穎且有效的範式。
我們針對視頻風格遷移任務,採用擴散模型進行研究,其目標是在保持輸入視頻內容的同時,根據文本提示指定的目標風格進行渲染。此任務面臨的主要挑戰是缺乏配對的視頻數據以供監督。我們提出了PickStyle,這是一個視頻到視頻的風格遷移框架,它通過風格適配器增強了預訓練的視頻擴散模型骨幹,並利用具有源風格對應關係的配對靜態圖像數據進行訓練。PickStyle在條件模塊的自注意力層中插入了低秩適配器,從而實現了對運動風格遷移的高效專門化,同時保持了視頻內容與風格之間的強對齊。為了彌補靜態圖像監督與動態視頻之間的差距,我們通過應用模擬相機運動的共享增強來從配對圖像構建合成訓練片段,確保時間先驗得以保留。此外,我們引入了上下文風格無分類器指導(CS-CFG),這是一種將無分類器指導新穎地分解為獨立文本(風格)和視頻(上下文)方向的方法。CS-CFG確保了生成視頻中上下文的保留,同時有效地轉移了風格。跨基準測試的實驗表明,我們的方法實現了時間上連貫、風格忠實且內容保留的視頻轉換,在質量和數量上均優於現有的基線方法。
随着多模态大语言模型(MLLMs)在视觉理解与推理方面取得显著进展,利用其提升扩散模型编辑性能的兴趣日益增长。尽管进展迅速,但多数研究缺乏对MLLM设计选择的深入分析。此外,在某些复杂任务如视频编辑中,MLLMs与扩散模型的整合仍面临挑战。本文提出InstructX,一个统一的图像与视频编辑框架。具体而言,我们全面研究了如何将MLLMs与扩散模型结合,以执行跨多样任务的指令驱动编辑。基于此研究,我们分析了统一建模中图像与视频的协作与差异。(1)我们展示,在图像数据上的训练能够无需显式监督即涌现出视频编辑能力,从而缓解了视频训练数据稀缺带来的限制。(2)通过融入模态特定的MLLM特征,我们的方法有效将图像与视频编辑任务统一于单一模型之内。大量实验证明,我们的方法能处理广泛的图像与视频编辑任务,并达到业界领先的性能水平。
獎勵模型(Reward Model, RM)在對齊大型語言模型(LLM)與人類偏好方面扮演著關鍵角色。隨著現實世界應用日益涉及長歷史軌跡,例如LLM代理,評估模型回應是否不僅高質量,而且基於並與提供的上下文保持一致,變得不可或缺。然而,當前的RM仍局限於短上下文設置,主要關注回應層面的屬性(如安全性或幫助性),而很大程度上忽略了長上下文與回應一致性的關鍵維度。在本研究中,我們引入了Long-RewardBench,這是一個專為長上下文RM評估設計的基準,包含成對比較和最佳N選取任務。我們的初步研究顯示,即使是頂尖的生成式RM在長上下文場景中也表現出顯著的脆弱性,無法維持上下文感知的偏好判斷。基於對模型輸出中觀察到的失敗模式的分析,我們提出了一種通用的多階段訓練策略,能夠有效地將任意模型擴展為強大的長上下文RM(LongRMs)。實驗表明,我們的方法不僅在長上下文評估中大幅提升了性能,還保持了強大的短上下文能力。值得注意的是,我們的8B LongRM超越了規模大得多的70B基線模型,並與專有的Gemini 2.5 Pro模型的性能相匹配。
多模態檢索增強生成(MM-RAG)是將大型語言模型(LLMs)與代理應用於現實世界知識庫的關鍵方法,然而目前的評估較為零散,僅專注於單獨的文本或圖像,或是簡化的多模態設置,未能涵蓋以文檔為中心的多模態使用場景。本文介紹了UniDoc-Bench,這是首個基於70,000頁真實世界PDF文件、涵蓋八個領域的大規模、現實的多模態檢索增強生成基準。我們的流程從文本、表格和圖像中提取並鏈接證據,隨後生成1,600個多模態問答對,涵蓋事實檢索、比較、摘要和邏輯推理查詢。為確保可靠性,20%的問答對經過多位註釋者和專家裁決的驗證。UniDoc-Bench支持在四種範式下進行公平比較:(1)僅文本,(2)僅圖像,(3)多模態文本-圖像融合,以及(4)多模態聯合檢索——在統一的協議下,使用標準化的候選池、提示和評估指標。我們的實驗表明,多模態文本-圖像融合的RAG系統始終優於單模態和基於聯合多模態嵌入的檢索,這表明僅靠文本或圖像都不足夠,且當前的多模態嵌入仍顯不足。除了基準測試,我們的分析揭示了視覺上下文何時以及如何補充文本證據,揭示了系統性的失敗模式,並為開發更健壯的MM-RAG流程提供了可操作的指導。
大型語言模型在多個領域展現了卓越的能力,然而在將其部署為執行現實世界長期任務的AI代理時,仍面臨重大挑戰。現有的LLM代理存在一個關鍵限制:它們在測試時是靜態的,無法從經驗中學習,缺乏積累知識和在工作中持續改進的能力。為應對這一挑戰,我們提出了MUSE,這是一種新穎的代理框架,它引入了一個以分層記憶模塊為核心的經驗驅動、自我進化系統。MUSE組織了多層次的經驗,並利用這些經驗來規劃和執行跨多個應用的長期任務。在每個子任務執行後,代理會自主反思其執行軌跡,將原始軌跡轉化為結構化經驗,並將其整合回記憶模塊中。這一機制使代理能夠超越其靜態預訓練參數,促進持續學習和自我進化。我們在長期生產力基準TAC上評估了MUSE。僅使用輕量級的Gemini-2.5 Flash模型,MUSE就以顯著優勢達到了新的SOTA性能。充分的實驗表明,隨著代理自主積累經驗,它展現出越來越優越的任務完成能力,以及強大的持續學習和自我進化能力。此外,MUSE積累的經驗展現出強烈的泛化特性,能夠在新任務上實現零樣本改進。MUSE為能夠自動化現實世界生產力任務的AI代理建立了一個新範式。
本研究聚焦於一項具挑戰性且前景廣闊的任務——文本至聲畫視頻(Text-to-Sounding-Video, T2SV)生成,其目標是根據文本條件生成包含同步音頻的視頻,同時確保兩種模態均與文本保持一致。儘管在音視頻聯合訓練方面已取得進展,仍有兩大關鍵挑戰亟待解決:(1)單一共享的文本描述,即視頻與音頻共用同一文本,往往會造成模態干擾,混淆預訓練骨幹網絡;(2)跨模態特徵交互的最佳機制尚不明確。為應對這些挑戰,我們首先提出了層次化視覺引導描述生成(Hierarchical Visual-Grounded Captioning, HVGC)框架,該框架生成解耦的視頻描述與音頻描述對,從而在條件設定階段消除干擾。基於HVGC,我們進一步引入了BridgeDiT,一種新穎的雙塔擴散變壓器,它採用雙重交叉注意力(Dual CrossAttention, DCA)機制作為強健的“橋樑”,實現了對稱的雙向信息交換,達成了語義與時間上的同步。在三個基準數據集上的廣泛實驗,輔以人工評估,證明了我們的方法在多數指標上達到了業界領先水平。全面的消融研究進一步驗證了我們貢獻的有效性,為未來T2SV任務提供了關鍵見解。所有代碼與檢查點將公開發布。
尽管如群组相对偏好优化(GRPO)等强化学习方法已显著提升了大型语言模型的性能,但将其应用于扩散模型仍面临挑战。特别是,GRPO要求采用随机策略,而最具成本效益的扩散采样器却基于确定性常微分方程(ODE)。近期研究通过使用效率较低的基于随机微分方程(SDE)的采样器来引入随机性,但这种方法依赖于模型无关的高斯噪声,导致收敛速度缓慢。为解决这一矛盾,我们提出了直接群组偏好优化(DGPO),这是一种全新的在线强化学习算法,完全摒弃了策略梯度框架。DGPO直接从群组层面的偏好中学习,这些偏好利用了群组内样本的相对信息。这一设计消除了对低效随机策略的需求,从而能够使用高效的确定性ODE采样器,并加速训练过程。大量实验结果表明,DGPO的训练速度比现有最先进方法快约20倍,并在域内和域外奖励指标上均取得了更优的性能。代码可在https://github.com/Luo-Yihong/DGPO获取。
大型多模態模型(LMMs)在各項能力上取得了顯著進展;然而,科學領域中的複雜視頻推理仍然是一個重要且具有挑戰性的前沿課題。目前的視頻基準主要針對依賴於感知/識別的通用場景,而推理任務相對簡單,導致性能飽和,無法有效評估高級多模態認知技能。為解決這一關鍵缺口,我們引入了SciVideoBench,這是一個專門設計用於評估科學背景下高級視頻推理的嚴格基準。SciVideoBench包含1000道精心設計的多選題,這些題目源自涵蓋25個以上專業學術領域的前沿科學實驗視頻,並通過半自動系統驗證。每道題目都需要深入的領域特定知識、精確的時空感知以及複雜的邏輯推理,有效挑戰模型的高階認知能力。我們的評估顯示,包括Gemini 2.5 Pro和Qwen2.5-VL在內的頂尖專有和開源LMMs在性能上存在顯著不足,表明視頻推理能力仍有很大的提升空間。對推理複雜性和視覺基礎等關鍵因素的詳細分析,為LMMs的未來發展提供了寶貴的見解和明確的方向,推動真正具備能力的多模態AI共同科學家的演進。我們希望SciVideoBench能夠契合社區的興趣,並幫助推動前沿AI在更廣泛科學領域的邊界拓展。
本研究首次将连续时间一致性蒸馏技术扩展至通用应用级别的图像和视频扩散模型。尽管连续时间一致性模型(sCM)在理论上具有原则性,并在加速学术规模扩散方面展现出实证效力,但由于雅可比向量积(JVP)计算的基础设施挑战及标准评估基准的局限性,其在大规模文本到图像和视频任务中的适用性仍不明确。我们首先开发了一种兼容并行计算的FlashAttention-2 JVP内核,使得sCM能够在超过100亿参数的模型及高维视频任务上进行训练。我们的研究揭示了sCM在精细细节生成方面的根本质量限制,这归因于误差累积及其前向散度目标的“模式覆盖”特性。为弥补此缺陷,我们提出了分数正则化的连续时间一致性模型(rCM),该模型通过引入分数蒸馏作为长跳正则化器,将“模式寻求”的反向散度与sCM相结合,有效提升了视觉质量,同时保持了高生成多样性。在参数高达140亿的Cosmos-Predict2、Wan2.1等大规模模型及5秒视频上的验证表明,rCM在质量指标上匹配或超越了最先进的蒸馏方法DMD2,并在多样性方面展现出显著优势,且无需GAN调优或大量超参数搜索。蒸馏后的模型仅需1至4步即可生成高保真样本,将扩散采样速度提升了15至50倍。这些成果确立了rCM作为一个实用且理论扎实的框架,用于推进大规模扩散蒸馏技术的发展。
尽管近期推理模型的进展通过强化学习展示了认知行为,现有方法在多轮交互的长时程智能体上仍难以激发深层推理能力。我们提出DeepMiner,一个新颖的框架,通过引入高难度训练任务和动态上下文窗口来激发此类能力。DeepMiner采用逆向构建方法,从真实网络资源生成复杂但可验证的问答对,这确保了训练数据的挑战性和可靠性,同时将认知能力注入多轮推理场景。我们进一步设计了一种简洁而有效的动态上下文管理策略,适用于训练和推理,利用滑动窗口机制,同时消除了对外部摘要模型的依赖,从而高效地赋能模型处理持续扩展的长时程上下文。通过在Qwen3-32B上进行强化学习,我们开发了DeepMiner-32B,在多个搜索智能体基准测试中实现了显著的性能提升。DeepMiner在BrowseComp-en上达到了33.5%的准确率,比之前最佳的开源智能体高出近20个百分点,并在BrowseComp-zh、XBench-DeepSearch和GAIA上展示了一致的改进。值得注意的是,我们的动态上下文管理使得在标准的32k上下文长度内能够维持近100轮的持续交互,有效解决了现有多轮交互系统所面临的上下文限制问题。
獎勵建模位於從人類反饋中進行強化學習(RLHF)的核心,然而現有的大多數獎勵模型依賴於標量或成對判斷,未能捕捉到人類偏好的多面性。近期的研究探索了使用結構化自然語言標準來捕捉回應質量多個維度的“評分標準即獎勵”(RaR)方法。然而,生成既可靠又可擴展的評分標準仍是一個關鍵挑戰。在本研究中,我們引入了OpenRubrics,這是一個多樣化、大規模的(提示,評分標準)對集合,用於訓練評分標準生成及基於評分標準的獎勵模型。為了引出具有區分性和全面性的評估信號,我們提出了對比評分標準生成(CRG),該方法通過對比偏好與被拒回應,推導出硬性規則(明確約束)和原則(隱含品質)。我們進一步通過拒絕採樣來強制偏好標籤一致性,以去除噪聲評分標準,從而提高可靠性。在多個獎勵建模基準測試中,我們基於評分標準的獎勵模型Rubric-RM超越了同等規模的強基線模型6.8%。這些增益轉化為指令遵循和生物醫學基準測試中的策略模型。我們的結果表明,評分標準提供了可擴展的對齊信號,縮小了昂貴的人類評估與自動化獎勵建模之間的差距,為大語言模型(LLM)對齊開闢了一條新的原則驅動範式。
我們提出了ERA這一新範式,通過對模型輸出施加特別設計的激活函數,將採樣熵限制在給定閾值之上。我們的方法在多個領域展現了廣泛的有效性:1) 對於大型語言模型(LLMs),將Qwen2.5-Math-7B在AIME 2025上的得分提升了37.4%;2) 對於連續控制強化學習代理,在HumanoidBench等挑戰性任務上,相較於SAC等強基線,性能提升超過30%;3) 在圖像分類任務中,將ResNet-50在ImageNet上的top-1準確率提高了0.69%。這些增益的實現僅伴隨著不到7%的計算開銷。我們的工作驗證了輸出激活作為熵控制的有力工具,為設計更簡單、更魯棒的算法開闢了新的方向。
大型語言模型(LLMs)的顯著成功,源於其在預訓練期間將大量知識整合至記憶中,並在推理過程中從記憶中檢索這些知識的能力,從而實現了知識記憶、指令遵循及推理等高級功能。然而,LLMs中記憶檢索與整合的機制仍鮮為人知。本文提出功能詞假說以解釋LLMs的運作原理:在推理階段,功能詞從上下文中激活最具預測性的特徵,並主導下一個詞的預測(記憶檢索)。在預訓練階段,預測緊隨功能詞之後的下一個詞(通常為內容詞),增加了LLMs所學習特徵的數量,並更新了模型參數(記憶整合)。此處的功能詞大致對應於語言學中的功能詞,包括標點符號、冠詞、介詞及連詞,與內容詞形成對比。我們提供了大量實驗證據支持這一假說。通過二分圖分析,我們展示了少數功能詞激活了大部分特徵。案例研究進一步揭示了功能詞如何從上下文中激活最具預測性的特徵,以指導下一個詞的預測。我們還發現,在預訓練期間,訓練損失主要由預測功能詞之後的內容詞所主導,這迫使功能詞從上下文中選擇最具預測性的特徵。
大型語言模型預訓練的計算成本快速攀升,亟需更高效的解決方案。現有已訓練好的檢查點已投入大量計算資源,但由於工程限制或模型容量不足,許多檢查點並未得到充分利用。為有效重複利用這些「沉沒」成本,我們提出通過擴展參數數量並繼續訓練來回收預訓練檢查點。我們針對已收斂的專家混合模型,提出了正交增長方法:通過層間複製實現深度增長,以及通過注入噪聲的專家複製實現寬度增長。為確定檢查點序列中此類增長的最佳時機,我們進行了全面的擴展實驗,結果顯示最終準確率與沉沒成本量呈強正相關,表明前期投入越多,性能越佳。我們將該方法擴展至擁有700億參數和超過1萬億訓練標記的模型,在相同額外計算預算下,相比從頭訓練獲得了10.66%的準確率提升。我們的檢查點回收方法為經濟高效的大型語言模型預訓練奠定了基礎。
我們推出UP2You,首個無需調參即可從極度不受約束的野外二維照片中重建高保真三維穿衣人像的解決方案。與以往需要“乾淨”輸入(如全身圖像且遮擋最少,或校準良好的跨視角捕捉)的方法不同,UP2You直接處理原始、非結構化的照片,這些照片在姿態、視角、裁剪和遮擋方面可能存在顯著差異。我們不將數據壓縮為標記以進行緩慢的在線文本到三維優化,而是引入了一種數據校正範式,能在單次前向傳播中高效地將不受約束的輸入轉換為乾淨、正交的多視圖圖像,簡化三維重建過程。UP2You的核心是一個姿態相關特徵聚合模塊(PCFA),它根據目標姿態有選擇地融合來自多個參考圖像的信息,實現更好的身份保持,並在更多觀測下保持幾乎恆定的內存佔用。我們還引入了一種基於感知器的多參考形狀預測器,消除了對預先捕捉身體模板的需求。在4D-Dress、PuzzleIOI及野外捕捉數據上的廣泛實驗表明,UP2You在幾何精度(PuzzleIOI上Chamfer降低15%,P2S降低18%)和紋理保真度(4D-Dress上PSNR提升21%,LPIPS降低46%)上均持續超越先前方法。UP2You高效(每人1.5分鐘),且功能多樣(支持任意姿態控制及無需訓練的多服裝三維虛擬試穿),使其在人類被隨意捕捉的現實場景中具有實用性。我們將發布模型與代碼,以促進這一未充分探索任務的未來研究。項目頁面:https://zcai0612.github.io/UP2You
實現通用的手內物體旋轉仍然是機器人領域的一個重大挑戰,這主要源於將策略從模擬環境轉移到現實世界的困難。靈巧操作中複雜且接觸密集的動力學特性造成了「現實差距」,這使得先前的研究僅限於涉及簡單幾何形狀、有限物體尺寸和長寬比、受限手腕姿勢或定制化機械手的約束場景。我們提出了一種新穎的框架來應對這一模擬到現實的挑戰,該框架使在模擬中訓練的單一策略能夠泛化到現實世界中的多種物體和條件。我們方法的核心是一個關節級別的動力學模型,該模型通過有效擬合有限的現實世界收集數據來學習彌合現實差距,並據此調整模擬策略的行動。該模型具有高度的數據效率,並通過將動力學分解到各個關節、將系統範圍的影響壓縮到低維變量中,以及從每個關節自身的動態特性中學習其演化,從而隱式地捕捉這些淨效應,實現了跨不同全手交互分佈的泛化能力。我們將此與一種完全自主的數據收集策略相結合,該策略以最少的人為干預收集多樣化的現實世界交互數據。我們的完整流程展示了前所未有的通用性:單一策略成功旋轉了具有複雜形狀(如動物)、高長寬比(高達5.33)和小尺寸的挑戰性物體,同時處理了多樣的手腕方向和旋轉軸。全面的現實世界評估和用於複雜任務的遙操作應用驗證了我們方法的有效性和魯棒性。網站:https://meowuu7.github.io/DexNDM/
大型語言模型(LLMs)與強化學習(RL)的最新進展,已在開放領域問答(QA)任務中展現出卓越性能。然而,現有模型在面對允許多種有效答案的問題時仍顯吃力。標準的QA基準測試通常假設存在單一正確答案,忽視了這一現實,從而產生了不恰當的訓練信號。現有處理模糊性的嘗試多依賴於成本高昂的手動標註,這在擴展至如HotpotQA和MuSiQue等多跳數據集時面臨挑戰。本文中,我們提出了A^2Search,這是一個無需標註、端到端的訓練框架,旨在識別並處理模糊性。其核心是一個自動化流程,通過軌跡採樣和證據驗證來檢測模糊問題並收集替代答案。模型隨後利用精心設計的AnsF1獎勵進行RL優化,該獎勵自然適應多種答案。在八個開放領域QA基準測試上的實驗表明,A^2Search達到了新的最優性能。僅需一次滾動,A^2Search-7B在四個多跳基準測試上的平均AnsF1@1得分為48.4%,超越了所有強基線,包括規模大得多的ReSearch-32B(46.2%)。深入分析進一步顯示,A^2Search能夠解決模糊性並在基準測試間泛化,強調了擁抱模糊性對於構建更可靠QA系統的重要性。我們的代碼、數據及模型權重可於https://github.com/zfj1998/A2Search 獲取。
強化學習已被廣泛應用於提升大型語言模型的推理能力。擴展較小模型的推理限制已成為一個重要的研究焦點。然而,諸如群組相對策略優化(GRPO)等算法存在一個明顯的缺點:模型生成回應的上限完全由模型自身決定,這阻礙了從全部錯誤或全部正確的樣本中獲取知識。本文介紹了一種引入外部標準參考答案的方法——群組對比策略優化(GCPO)。當模型無法解決問題時,參考答案提供正確回應,引導模型朝向明確的更新方向。這種方法具有兩大優勢:(1)通過充分利用每個樣本提高訓練效率;(2)使模型在訓練過程中能夠模仿參考答案的解決策略,從而增強推理的泛化能力。GCPO在多個基準數據集上取得了優異的結果,相較於基線模型有顯著提升。我們的代碼已公開於:https://github.com/AchoWu/GCPO。
高效利用大型語言模型(LLMs)對於大規模部署至關重要:若無自適應路由,系統要么為強模型支付過高成本,要么面臨弱模型性能不佳的風險。為每個查詢選擇合適的LLM本質上是一個在線決策問題:模型各有所長,價格波動不定,且用戶對準確性和成本的看重程度不一。然而,大多數路由器的訓練都是離線進行的,依賴於所有候選模型的標籤,這一假設在實際部署中並不成立,因為部署時只能觀察到所選模型的結果。我們通過BaRP(基於偏好與Bandit反饋的路由方法)來彌合這一差距,該方法在與部署相同的部分反饋限制下進行訓練,同時支持偏好可調的推理:操作者可以在測試時調整性能/成本權衡,而無需重新訓練。將問題框架化為基於提示特徵和用戶偏好向量的上下文Bandit,我們的方法在訓練期間模擬在線反饋環境,並根據每個新提示調整其路由決策,而非依賴於全信息的離線監督。全面的實驗表明,我們的方法始終比強大的離線路由器至少高出12.46%,比最大的LLM至少高出2.45%,並且對未見任務展現出良好的泛化能力。
尽管大型语言模型(LLMs)在自然语言理解方面展现出卓越的能力,但在检索任务中的应用却相对不足。我们提出了Search-R3这一创新框架,通过调整LLMs使其在推理过程中直接生成搜索嵌入,从而克服了这一局限。我们的方法充分利用了LLMs的思维链能力,使其能够通过逐步进行复杂的语义分析,产生更为有效的嵌入。这一目标通过三种互补机制实现:(1)监督学习阶段赋予模型生成高质量嵌入的能力;(2)强化学习(RL)方法在优化推理的同时优化嵌入生成;(3)专门的RL环境,无需在每次训练迭代时重新编码整个语料库,即可高效处理不断演变的嵌入表示。我们在多种基准测试上的广泛评估表明,Search-R3通过统一推理与嵌入生成过程,显著超越了以往的方法。这种集成的训练后处理方式,在处理既需要复杂推理又需高效信息检索的知识密集型任务上,标志着一次重大的进步。项目页面:https://github.com/ytgui/Search-R3
生成模型的最新進展為自動駕駛領域帶來了令人振奮的新可能性。特別是,視頻生成模型正被探索作為可控的虛擬測試環境。同時,端到端(E2E)駕駛模型作為傳統模塊化自動駕駛系統的簡化替代方案,因其簡單性和可擴展性而受到歡迎。然而,這些技術在模擬和規劃中的應用引發了重要問題。首先,雖然視頻生成模型能夠生成越來越逼真的視頻,但這些視頻能否忠實地遵循指定條件,並足夠真實以用於E2E自動規劃器的評估?其次,考慮到數據對於理解和控制E2E規劃器至關重要,我們如何更深入地了解其偏見並提高其在分佈外場景中的泛化能力?在本研究中,我們通過將駕駛模型與生成世界模型(Drive&Gen)相結合來解決這些問題。我們提出了利用E2E駕駛器來評估生成視頻真實性的新統計方法。通過利用視頻生成模型的可控性,我們進行了有針對性的實驗,以研究影響E2E規劃器性能的分佈差距。最後,我們展示了由視頻生成模型產生的合成數據作為現實世界數據收集的成本效益替代方案。這些合成數據有效地提高了E2E模型在現有操作設計域之外的泛化能力,促進了自動駕駛服務向新操作環境的擴展。
目前,教導人形機器人掌握複雜技能的主流方法是將人類動作重新定位為運動學參考,用以訓練強化學習(RL)策略。然而,現有的重新定位流程往往難以應對人類與機器人之間顯著的形體差異,導致產生如腳部滑動和穿透等物理上不合理的現象。更重要的是,常見的重新定位方法忽略了豐富的人-物和人-環境互動,這些互動對於表達性移動和移動操作至關重要。為解決這一問題,我們引入了OmniRetarget,這是一個基於互動網格的數據生成引擎,它能夠明確建模並保留代理、地形及操作對象之間關鍵的空間和接觸關係。通過最小化人體與機器人網格之間的拉普拉斯變形,同時施加運動學約束,OmniRetarget生成運動學上可行的軌跡。此外,保留任務相關的互動使得從單一示範到不同機器人形體、地形和物體配置的高效數據擴增成為可能。我們全面評估了OmniRetarget,通過重新定位來自OMOMO、LAFAN1及我們內部MoCap數據集的動作,生成了超過8小時的軌跡,這些軌跡在運動學約束滿足度和接觸保持方面均優於廣泛使用的基準方法。如此高質量的數據使得本體感知RL策略能夠在Unitree G1人形機器人上成功執行長時限(長達30秒)的跑酷和移動操作技能,僅使用5個獎勵項和所有任務共享的簡單領域隨機化進行訓練,無需任何學習課程。
随着新型优化器的广泛应用和模型量化成为高效部署的标准,一个关键问题随之浮现:在量化存在的情况下,优化器的选择如何影响模型性能?尽管这两个领域都取得了进展,但关于优化器与量化相互作用的系统性证据仍然有限。为填补这一空白,我们研究了在量化条件下优化器选择对模型鲁棒性的影响,同时考虑了训练后量化(PTQ)和量化感知训练(QAT)。我们首先使用六种优化器训练了参数规模从50M到1.5B的全精度模型,以探索超参数空间,并建立经过良好调校的基线。随后,我们应用PTQ来评估不同优化器训练下模型性能的下降情况。我们发现,诸如最大均值比(MMR)和峰度等与异常值相关的指标,无法预测不同优化器下的PTQ性能。我们通过分析表明,这是由于MMR仅捕捉了孤立层的误差,而忽略了量化误差如何在网络中累积和传播。为了研究QAT下的性能下降,我们从零开始训练量化模型,并将其与原始精度基线进行比较。我们发现,在原始预训练设置中表现良好的优化器在QAT下可能不再是最优选择,而使用Shampoo训练的模型显示出最低的精度下降。最后,我们推导了不同优化器下量化感知训练的缩放定律,表明Shampoo在所有测试的优化器中实现了最高的参数效率。
为实现广义机器人操作的目标,空间泛化是最基本的能力,要求策略在不同物体、环境及机器人自身空间分布下均能稳健工作。为此,需收集大量人类示范数据,涵盖多种空间配置,以通过模仿学习训练出泛化的视觉运动策略。先前研究探索了一条有前景的路径,即利用数据生成技术从少量源示范中获取丰富的空间多样性数据。然而,多数方法面临显著的仿真到现实的差距,且常局限于固定基座场景和预设相机视角等约束条件下。本文提出了一种真实到真实的三维数据生成框架(R2RGen),直接增强点云观测-动作对以生成现实世界数据。R2RGen无需仿真器和渲染,因此高效且即插即用。具体而言,给定单一源示范,我们引入了一种细粒度场景与轨迹解析的标注机制,并提出了一种分组增强策略,以处理复杂的多物体组合及多样任务约束。此外,我们还提出了相机感知处理,使生成数据的分布与真实世界三维传感器对齐。实验表明,R2RGen在广泛实验中显著提升了数据效率,并展现了在移动操作中扩展与应用的强大潜力。
我們提出了穩定視頻材質3D(SViM3D)框架,該框架能夠基於單張圖像預測多視角一致的物理基於渲染(PBR)材質。近年來,視頻擴散模型已成功用於從單張圖像高效重建3D物體。然而,反射特性仍由簡單的材質模型表示,或需通過額外步驟估算,以實現重新打光及可控的外觀編輯。我們擴展了一種潛在視頻擴散模型,使其能夠基於顯式相機控制,聯合輸出空間變化的PBR參數和表面法線與每個生成的視圖。這一獨特設置允許使用我們的模型作為神經先驗進行重新打光並生成3D資產。我們在這一不適定設置中引入了多種機制來提升質量。我們在多個以物體為中心的數據集上展示了最先進的重新打光和新視角合成性能。我們的方法能夠泛化到多樣化的輸入,從而生成可用於AR/VR、電影、遊戲及其他視覺媒體的可重新打光的3D資產。
核聚變在追求可靠且可持續的能源生產中扮演著關鍵角色。實現可行核聚變能源的一個主要障礙是理解等離子體湍流,它嚴重影響等離子體的約束,並對下一代反應堆設計至關重要。等離子體湍流由非線性迴旋動力學方程控制,該方程隨時間演化一個五維分佈函數。由於其高昂的計算成本,實際中常採用降階模型來近似湍流能量輸運。然而,這些模型忽略了完整五維動力學特有的非線性效應。為解決這一問題,我們提出了GyroSwin,這是首個可擴展的五維神經代理模型,能夠模擬五維非線性迴旋動力學,從而捕捉降階模型所忽略的物理現象,同時提供湍流熱輸運的精確估計。GyroSwin(i)將分層視覺變換器擴展至五維,(ii)引入了交叉注意力與整合模塊,用於靜電勢場與分佈函數之間的潛在三維↔五維交互,(iii)基於非線性物理學啟發,執行通道模式分離。我們證明,GyroSwin在熱流預測上優於廣泛使用的降階數值方法,捕捉了湍流能量級聯,並將完全解析的非線性迴旋動力學成本降低了三個數量級,同時保持物理可驗證性。GyroSwin展現出有前景的擴展規律,測試參數高達十億,為等離子體湍流迴旋動力學模擬的可擴展神經代理模型鋪平了道路。
三維編輯——即對三維資產的幾何形狀或外觀進行局部修改的任務——在沉浸式內容創作、數字娛樂以及增強現實/虛擬現實(AR/VR)領域具有廣泛應用。然而,與二維編輯不同,三維編輯因需保持跨視圖一致性、結構保真度及細粒度可控性而面臨挑戰。現有方法往往速度緩慢,易產生幾何失真,或依賴於手動且精確的三維遮罩,這些遮罩既易出錯又不實用。為應對這些挑戰,我們在數據與模型兩方面均取得了進展。在數據方面,我們推出了3DEditVerse,這是迄今為止最大的配對三維編輯基準,包含116,309對高質量訓練樣本和1,500對精心挑選的測試樣本。通過姿態驅動的幾何編輯與基礎模型引導的外觀編輯相結合的管道構建,3DEditVerse確保了編輯的局部性、多視圖一致性及語義對齊。在模型方面,我們提出了3DEditFormer,這是一種保持三維結構的條件變換器。通過雙重引導注意力機制和時間自適應門控增強圖像到三維的生成過程,3DEditFormer將可編輯區域與保留結構分離,實現了無需輔助三維遮罩的精確且一致的編輯。大量實驗表明,我們的框架在定量與定性評估上均優於現有最先進的基準,為實用且可擴展的三維編輯設立了新標準。數據集與代碼將對外發布。項目詳情請訪問:https://www.lv-lab.org/3DEditFormer/
在深度強化學習(RL)中,使用目標網絡是估計價值函數的一種流行方法。雖然有效,但目標網絡仍是一種折衷方案,它通過保持目標的緩慢移動來維持穩定性,從而延緩了學習進程。相反,使用在線網絡作為自舉目標在直觀上更具吸引力,儘管眾所周知這會導致學習不穩定。在本研究中,我們旨在通過引入一種新穎的更新規則來兼顧兩者之長,該規則利用目標網絡和在線網絡之間的最小估計值來計算目標,由此產生了我們的方法——MINTO。通過這一簡單而有效的修改,我們展示了MINTO能夠通過減輕使用在線網絡進行自舉可能帶來的過高估計偏差,實現更快且穩定的價值函數學習。值得注意的是,MINTO可以無縫集成到多種基於價值和演員-評論家算法中,且成本極低。我們在多樣化的基準測試中廣泛評估了MINTO,涵蓋了在線和離線RL,以及離散和連續動作空間。在所有基準測試中,MINTO均一致提升了性能,證明了其廣泛的適用性和有效性。
基於大規模、視覺同質化數據集訓練的通用機器人策略,易受捷徑學習影響,從而削弱其分佈外(OOD)泛化能力。雖然生成式數據增強是引入多樣性的常見方法,但它帶來了一個微妙的挑戰:數據組合。簡單地混合真實與合成數據可能會破壞學習信號,因為這一過程往往優先考慮視覺多樣性而犧牲信息保真度。本文提出,穩健的泛化依賴於基於原則、保真度感知的數據組合。我們引入了信息保真度一致性調優(CIFT)框架,將數據組合視為一個優化問題。CIFT利用數據集特徵空間幾何作為信息保真度的實用代理,從而識別出訓練穩定性下降的相變點,即“退相干點”。該框架包含一個生成引擎——多視角視頻增強(MVAug),用於合成因果解耦的數據譜以支持這一調優過程。將CIFT應用於如pi_0和擴散策略等策略架構,使OOD成功率提升超過54%。這些結果表明,超越單純數據合成,保真度感知的組合是開發穩健、通用機器人的重要組成部分。