每日精選AI研究論文及翻譯
本文提出NeoVerse——一個多功能的4維世界模型,能實現4維重建、新軌跡影片生成及豐富的下游應用。我們首先指出當前4維世界建模方法普遍存在的可擴展性局限,其根源在於依賴昂貴且專業的多視角4維數據,或繁瑣的訓練預處理流程。與之相對,NeoVerse的核心設計理念在於使完整流程能靈活適應各類真實世界單目影片。具體而言,NeoVerse具備無需姿態估計的前饋式4維重建、在線單目退化模式模擬等高度協同的技術方案。這些設計使NeoVerse在跨領域應用中展現出卓越的通用性與泛化能力。同時,NeoVerse在標準重建與生成基準測試中達到了最先進的性能。項目頁面請訪問:https://neoverse-4d.github.io
現有的大型語言模型(LLM)智能體框架面臨兩大挑戰:高配置成本與靜態能力瓶頸。構建高質量智能體通常需要耗費大量人力進行工具整合與提示詞工程,而已部署的智能體若缺乏昂貴的微調過程,則難以適應動態環境。為解決這些問題,我們提出Youtu-Agent——一個專注於LLM智能體自動化生成與持續演進的模組化框架。該框架採用結構化配置系統,將執行環境、工具組與上下文管理解耦,實現靈活複用與自動化合成。我們引入兩種生成模式:針對標準任務的工作流模式,以及應對複雜非標準需求的元智能體模式,可自動生成工具代碼、提示詞及配置。此外,Youtu-Agent建立了混合策略優化系統:(1)智能體實踐模組通過情境內優化使智能體無需參數更新即可積累經驗提升性能;(2)智能體強化學習模組整合分散式訓練框架,以大規模端到端方式實現任意Youtu-Agent的可擴展穩定強化學習。實驗表明,Youtu-Agent在WebWalkerQA(71.47%)和GAIA(72.8%)基準測試中採用開源權重模型達到頂尖水平。其自動生成管線工具合成成功率超過81%,實踐模組更將AIME 2024/2025任務性能分別提升2.7%與5.4%。此外,智能體強化學習訓練在7B參數LLM上實現40%加速且性能穩步提升,於數學與通用/多跳問答基準測試中分別將代碼推理與搜索能力最高提升35%和21%。
頭像生成技術能將靜態肖像轉化為生動的虛擬形象,應用於虛擬交流與內容創作。然而現有模型尚無法實現真正具互動感的交流,常生成單向回應而缺乏情感共鳴。我們發現實現真正互動式虛擬形象的兩大核心挑戰:在因果約束下實現即時動作生成,以及無需標註數據即可學習富有表現力的生動反應。為此,我們提出「頭像驅動」框架,通過擴散驅動技術建模用戶與虛擬形象的即時互動。該設計使虛擬形象能低延遲處理多模態輸入(包括用戶語音與動作),即時響應言語與非言語線索(如對話、點頭、笑聲)。此外,我們引入直接偏好優化方法,利用刪減用戶條件構建的合成負樣本,實現無標註的表現力互動學習。實驗結果表明,本框架可實現低延遲(約500毫秒)的即時互動,較基準模型提速6.8倍,生成的反應式虛擬形象動作表現力出眾,在超過80%的對比評估中優於基準模型。
儘管視覺語言模型(VLMs)能透過智能推理解決複雜任務,但其能力仍主要受限於文本導向的思維鏈或孤立的工具調用。它們無法展現出類人的流暢性,將動態工具操作與連續推理無縫交織,尤其在需要協調外部工具(如搜尋與影像裁剪)的知識密集型與視覺複雜場景中。本研究提出SenseNova-MARS——一種新型多模態智能推理與搜尋框架,透過強化學習(RL)賦予VLMs交錯式視覺推理與工具使用能力。具體而言,SenseNova-MARS動態整合影像搜尋、文本搜尋與影像裁剪工具,以應對細粒度與知識密集型的視覺理解挑戰。在強化學習階段,我們提出批次歸一化群組序列策略優化(BN-GSPO)算法,以提升訓練穩定性,並增強模型調用工具與有效推理的能力。為全面評估智能VLMs在複雜視覺任務上的表現,我們建立HR-MMSearch基準數據集——首個由高解析度影像組成、包含知識密集型與搜尋驅動問題的搜尋導向基準。實驗表明,SenseNova-MARS在開源搜尋與細粒度影像理解基準上實現了最先進的性能。具體而言,在搜尋導向基準中,SenseNova-MARS-8B於MMSearch獲得67.84分,於HR-MMSearch獲得41.64分,超越Gemini-3-Flash與GPT-5等專有模型。SenseNova-MARS透過提供高效且穩健的工具使用能力,為智能VLMs的發展邁出關鍵一步。為推動相關研究,我們將公開所有程式碼、模型與數據集。
多模態大型語言模型(MLLMs)在影片理解領域取得了顯著進展,然而其存在關鍵弱點:過度依賴語言先驗,這可能導致視覺基礎缺失的幻覺現象,尤其在處理違反常識的反事實影片時更為明顯。此侷限性源於文本與影片資料間的固有失衡,且因反事實資料收集與標註成本高昂而難以解決。為此,我們提出DualityForke——一種創新的反事實資料合成框架,透過可控的擴散式影片編輯技術將真實影片轉化為反事實情境。該框架透過將結構化上下文資訊嵌入影片編輯與問答生成流程,自動產出高品質的問答對及原始-編輯影片對,用於對比訓練。基於此,我們構建了DualityVidQA大規模影片資料集,旨在降低MLLMs的幻覺生成。此外,為充分發揮配對資料的對比特性,我們提出對偶歸一化優勢訓練(DNA-Train)——採用監督微調與強化學習的兩階段訓練機制,其中強化學習階段應用配對間ℓ₁優勢歸一化,從而實現更穩定高效的策略優化。在DualityVidQA測試集上的實驗表明,我們的方法能顯著降低模型對反事實影片的幻覺生成,相比Qwen2.5-VL-7B基線模型獲得24.0%的相對提升。更重要的是,本方法在幻覺檢測與通用能力基準測試中均取得顯著進步,展現出強大的泛化能力。我們將開源資料集與程式碼。
基於單目影片重建動態三維場景需同時捕捉高頻外觀細節與時間連續運動。現有採用單一高斯基元的方法受其低通濾波特性限制,而標準Gabor函數會引入能量不穩定性。此外,時間連續性約束的缺失常導致插值過程出現運動偽影。我們提出AdaGaR——一個在顯式動態場景建模中同時解決頻率自適應性與時間連續性的統一框架。我們引入自適應Gabor表徵,通過可學習頻率權重與自適應能量補償擴展高斯模型,以平衡細節捕捉與穩定性。針對時間連續性,我們採用帶時間曲率正則化的三次埃爾米特樣條來確保平滑運動演化。結合深度估計、點追蹤與前景遮罩的自適應初始化機制,在訓練初期建立穩定的點雲分佈。在Tap-Vid DAVIS上的實驗顯示出最先進的性能(PSNR 35.49、SSIM 0.9433、LPIPS 0.0723),並在幀插值、深度一致性、影片編輯與立體視圖合成等任務中展現強泛化能力。項目頁面:https://jiewenchan.github.io/AdaGaR/
儘管近期在語言模型開發方面取得了進展,但關於此類模型如何實現持續學習/記憶、自我改進及尋找有效解決方案,仍存在根本性挑戰與未解之謎。本文提出一種稱為「嵌套學習」(Nested Learning, NL)的新型學習範式,它能以一套具有嵌套結構、多層級和/或並行化的優化問題來連貫地表徵機器學習模型,每個問題皆擁有獨特的上下文流。透過NL的視角,現有深度學習方法實際上是通過壓縮自身上下文流從數據中學習,而情境學習(in-context learning)在大模型中自然湧現。NL提出一種設計哲學:通過增加層級構建更具表現力的學習算法,從而實現高階情境學習,並有望釋放持續學習的潛力。我們通過三項核心貢獻闡述NL的價值:(1)表達性優化器:揭示傳統基於梯度的優化器(如Adam、動量SGD等)本質上是關聯記憶模塊,其目標是通過梯度下降壓縮梯度信息。基於此洞見,我們提出具備深度記憶和/或更強學習規則的增強型優化器;(2)自修改學習模塊:運用NL對學習算法的見解,我們設計了一種通過學習自身更新算法來實現自我調整的序列模型;(3)連續記憶系統:提出一種泛化傳統長/短期記憶觀點的新記憶系統框架。將自修改序列模型與連續記憶系統結合,我們構建出名為「Hope」的持續學習模塊,在語言建模、知識融合、少樣本泛化任務、持續學習及長上下文推理任務中展現出優異性能。
深度殘差網絡的有效性根本上建基於恆等捷徑連接。雖然此機制能有效緩解梯度消失問題,但卻對特徵轉換施加了嚴格加性的歸納偏置,從而限制網絡建模複雜狀態轉換的能力。本文提出深度增量學習(DDL),這種新穎架構通過可學習的數據依賴型幾何變換來調製恆等捷徑,從而推廣標準殘差連接。該變換稱為增量算子,構成單位矩陣的秩-1擾動,由反射方向向量k(X)和門控標量β(X)參數化。我們對此算子進行譜分析,證明門控β(X)能實現恆等映射、正交投影與幾何反射之間的動態插值。此外,我們將殘差更新重構為同步秩-1注入,其中門控作為動態步長,同時控制舊資訊的擦除與新特徵的寫入。這種統一架構使網絡能顯式控制其層間轉移算子的譜,在保持門控殘差架構穩定訓練特性的同時,實現對複雜非單調動力學的建模能力。
當今最先進的大型語言模型(LLM)管線依賴於自舉式推理循環:通過採樣多樣化的思維鏈並強化得分最高的路徑,主要優化方向為正確性。我們分析此設計選擇如何導致模型在推理路徑上的分佈崩潰,大幅降低語義熵並削弱創造性問題解決能力。為解析此缺陷,我們提出分佈式創造性推理(DCR)——一種將訓練視為解題軌跡機率測度梯度流的統一變分目標。STaR、GRPO、DPO以及熵獎勵等技術均為此損失函數的特例。該框架產生三項核心成果:(i)多樣性衰減定理,闡釋基於正確性的目標如何導致STaR、GRPO與DPO出現不同模式的多樣性衰減;(ii)確保收斂至穩定且多樣化策略的設計方案,有效預防分佈崩潰;(iii)實踐中可操作的簡易實現方法。DCR由此為LLM提供了首個兼顧正確性與創造性的理論實踐框架。
近期研究表明,強化學習(RL)能顯著提升大型語言模型(LLM)的推理能力。然而,這類RL訓練的有效性關鍵取決於預訓練模型詞元輸出分佈所定義的探索空間。本文重新審視標準交叉熵損失函數,將其解讀為應用於單步情境的策略梯度優化特例。為系統性研究預訓練分佈如何影響後續RL的探索潛力,我們提出一種廣義預訓練目標,將同策略RL原理適配至監督學習。通過將下一詞元預測構建為隨機決策過程,我們引入能顯著平衡多樣性與精確度的獎勵塑形策略。該方法採用正向獎勵縮放因子控制真實詞元的概率集中度,並結合區分高低排名負向詞元的秩感知機制,從而重塑預訓練詞元輸出分佈,探究如何為RL提供更有利的探索空間以提升端到端推理性能。與高分佈熵有助探索的直覺相反,我們發現施加以精確度為導向的先驗分佈能為RL創造更優的探索空間。
现代语言模型中的序列建模层通常面临存储容量与计算效率之间的权衡。虽然Softmax注意力机制能以二次方的惊人计算成本提供无限存储,但线性变体虽效率较高却受限于固定大小的有限存储。我们提出快速权重乘积键记忆(FwPKM),这一新颖架构通过将稀疏的乘积键记忆(PKM)从静态模块转化为动态的"快速权重"情景记忆,从而化解了这一矛盾。与PKM不同,FwPKM在训练和推理阶段通过局部块级梯度下降动态更新参数,使模型能够快速记忆并检索输入序列中的新键值对。实验表明,FwPKM作为有效的情景记忆机制,可与标准模块的语义记忆形成互补,在长上下文数据集上实现显著困惑度降低。值得注意的是,在"大海捞针"评估中,FwPKM仅通过4K词元序列训练就能泛化至128K词元的上下文场景。
大型语言模型(LLMs)在推理和代码生成方面展现出显著进步,但如何高效创建评估这些能力的新基准仍具挑战。传统基准创建依赖人工劳动,这一过程既昂贵又耗时。此外,现有基准常会污染LLM训练数据,因此需要新颖多样的基准来准确评估其真实能力。本研究提出InfoSynth——一种基于信息论原理自动生成和评估推理基准的创新框架。我们提出基于KL散度和熵的指标,无需依赖昂贵的模型评估即可量化基准的新颖性与多样性。基于该框架,我们开发出端到端流程,通过遗传算法和迭代式代码反馈从种子数据集合成稳健的Python编程题目。我们的方法在97%的情况下能为新问题生成准确的测试用例与解决方案,且合成基准相较于种子数据集持续展现出更高新颖性与多样性。此外,该算法提供了控制生成题目新颖性/多样性与难度的方法。InfoSynth为构建高质量、新颖多样的LLM基准提供了可扩展的自验证流程。项目页面:https://ishirgarg.github.io/infosynth_web/
由於難以生成語義一致且時序平滑的變形效果(尤其在跨類別場景下),三維形變技術仍面臨挑戰。本文提出MorphAny3D——一種基於結構化潛在表示(SLAT)的免訓練框架,可實現高質量三維形變。我們的核心發現是:通過在三維生成器的注意力機制中智能融合源目標SLAT特徵,能夠自然產生逼真的形變序列。為此,我們創新性地設計了形變交叉注意力(MCA)模塊以融合源目標結構信息確保連貫性,並提出時序融合自注意力(TFSA)模塊通過引入前一幀特徵來增強時序一致性。此外,定向校正策略有效緩解了形變過程中的姿態模糊問題。大量實驗表明,本方法生成的形變序列達到業界最優水平,即使對於極具挑戰性的跨類別案例亦然。MorphAny3D進一步支持解耦形變與三維風格遷移等高級應用,並可泛化至其他基於SLAT的生成模型。項目頁面:https://xiaokunsun.github.io/MorphAny3D.github.io/