每日精選AI研究論文及翻譯
我们提出原生并行推理器(NPR),一种无需教师指导的框架,使大语言模型能够自主演化出真正的并行推理能力。该框架通过三大创新实现从序列仿真正向原生并行认知的转变:1)自蒸馏渐进式训练范式,在无外部监督条件下实现从"冷启动"格式发现到严格拓扑约束的过渡;2)新颖的并行感知策略优化(PAPO)算法,直接在执行图中优化分支策略,使模型通过试错学习自适应分解;3)稳健的NPR引擎,重构SGLang的内存管理与流程控制,实现大规模并行强化学习的稳定训练。在八大推理基准测试中,基于Qwen3-4B训练的NPR模型性能提升最高达24.5%,推理加速比达4.6倍。与常退化为自回归解码的基线方法不同,NPR展现出100%的真实并行执行能力,为自演进、高效且可扩展的智能体推理树立了新标杆。
旋轉式位置編碼(RoPE)已成為大型語言模型中序列順序編碼的標準方法,其透過在複數平面上對查詢向量和鍵向量施加旋轉來實現。然而,標準實現方案僅使用複數點積的實部計算注意力分數,此簡化過程捨棄了包含寶貴相位訊息的虛部,導致可能損失對長上下文依賴建模至關重要的關聯細節。本文提出一種擴展方法,重新整合被捨棄的虛部成分。我們的技術利用完整複數表徵來建立雙分量注意力分數,並從理論與實證層面證明,此方法能透過保留更多位置訊息來增強長上下文依賴的建模能力。此外,在系列長上下文語言建模基準測試中的評估顯示,相較於標準RoPE,我們的方法能持續提升效能,且隨著上下文長度增加,效益愈發顯著。相關程式碼已公開於 https://github.com/OpenMOSS/rope_pp。
現有的影片編輯方法面臨關鍵的取捨困境:專家模型能提供精確編輯效果,但依賴於任務特定的先驗資訊(如遮罩),阻礙了統一化進程;反之,統一的時序上下文學習模型雖無需遮罩,卻缺乏顯式空間線索,導致指令與區域映射關係薄弱,造成局部編輯定位不精準。為解決此矛盾,我們受思維鏈推理啟發,提出創新性的幀間推理鏈方法VideoCoF。該方法通過強制影片擴散模型在生成目標影片標記前先預測推理標記(編輯區域潛在表示),實現「先觀察、再推理、後編輯」的流程。這種顯式推理步驟既無需使用者提供遮罩,又能達成精準的指令-區域對齊與細粒度影片編輯。此外,我們提出RoPE對齊策略,利用推理標記確保運動軌跡一致性,並實現超越訓練時長的長度外推能力。實驗證明,VideoCoF僅需5萬組影片對的極低數據成本,即在VideoCoF-Bench基準上達到最先進性能,驗證了本方法的高效性與有效性。相關代碼、權重及數據已開源於:https://github.com/knightyxp/VideoCoF。
體素藝術作為遊戲與數位媒體中廣泛應用的獨特風格化形式,其從3D網格的自動生成仍面臨挑戰,原因在於幾何抽象化、語意保留與離散色彩一致性這三項需求存在內在矛盾。現有方法要麼過度簡化幾何結構,要麼難以實現體素藝術所需的像素級精確、調色板受限的美學效果。我們提出Voxify3D——一個連接3D網格優化與2D像素藝術監督的可微分兩階段框架。核心創新在於三項組件的協同整合:(1) 正交像素藝術監督機制,消除透視畸變以實現體素-像素精確對齊;(2) 基於圖塊的CLIP對齊技術,在離散化過程中保持跨層級語意連貫性;(3) 調色板約束的Gumbel-Softmax量化器,通過可控調色板策略實現離散色彩空間的可微分優化。該整合方案從根本上解決了三大難題:極端離散化下的語意保留、通過體積渲染實現的像素藝術美學,以及端到端的離散優化。實驗結果顯示,該方法在多樣化角色模型和可控抽象程度(2-8色、20倍-50倍解析度)下均表現卓越(CLIP-IQA得分37.12,用戶偏好率77.90%)。項目頁面:https://yichuanh.github.io/Voxify-3D/
參考到視頻(R2V)生成技術旨在根據文本提示合成視頻,同時保持參考圖像中的主體身份特徵。然而,現有R2V方法依賴於需要顯式構建的「參考圖像-視頻-文本」三元組數據,此類數據集的構建成本極高且難以規模化。為突破此瓶頸,我們提出Saber——一種無需顯式R2V數據即可實現的可擴展零樣本框架。該框架僅需視頻-文本對進行訓練,通過掩碼訓練策略與定制的基於注意力機制的模型設計,學習身份一致性與參考感知的表徵能力。我們進一步整合掩碼增強技術,以緩解參考到視頻生成中常見的複製貼上偽影問題。值得注意的是,Saber在面對不同數量參考圖像時展現出卓越的泛化能力,並在OpenS2V-Eval基準測試中表現優於依賴R2V數據訓練的方法。
基於大型語言模型的多智能體系統在除錯方面面臨挑戰,因為故障往往源自冗長且分支繁多的互動軌跡。當前主流做法是運用LLM進行基於日誌的故障定位,將錯誤歸因於特定智能體及步驟。然而此範式存在兩大侷限性:(i)僅依賴日誌的除錯缺乏驗證機制,只能產生未經檢驗的假設;(ii)單步驟或單智能體歸因往往不具適切性,我們發現多種獨立干預措施均可單獨修復失敗任務。針對首項侷限,我們提出DoVer——一種干預驅動的除錯框架,透過定向干預(如編輯訊息、調整計畫)將假設生成與主動驗證相結合。對於第二項侷限,我們不側重歸因準確性評估,而是聚焦於衡量系統能否解決故障或實現任務成功的量化進展,體現更以結果為導向的除錯視角。在Magnetic-One智能體框架中,基於GAIA與AssistantBench的數據集實驗顯示,DoVer能將18-28%的失敗案例轉為成功,達成最高16%的里程碑進度,並能驗證或推翻30-60%的故障假設。在GSMPlus數據集與AG2智能體框架的跨場景測試中,DoVer亦成功恢復49%的失敗案例。這些成果凸顯干預機制對提升智能體系統可靠性的實用價值,為LLM多智能體系統開拓了更強健、可擴展的除錯方法。項目網站與程式碼將發佈於https://aka.ms/DoVer。
我們研究以指令引導的自我中心視角影片編輯技術,專注於互動式擴增實境應用。儘管現有AI影片編輯器在第三人稱視角素材上表現良好,但自我中心視角存在獨特挑戰——包括快速的自身運動和頻繁的手物互動——這些因素造成了顯著的領域差異。此外,現有的離線編輯流程存在高延遲問題,限制了即時互動能力。為解決這些問題,我們提出了一套完整的自我中心影片編輯生態系統。首先,我們構建了EgoEditData——一個專為自我中心編輯場景精心設計並手動校準的數據集,其特點在於包含豐富的手物互動場景,同時明確保留手部資訊。其次,我們開發了EgoEdit這款遵循指令的自我中心影片編輯器,支援在單張GPU上進行即時串流推理。最後,我們推出EgoEditBench評估套件,針對指令遵循度、手部與互動保留效果,以及自身運動下的時間穩定性進行專門評估。無論在自我中心或通用編輯任務中,EgoEdit皆能產生具時間穩定性、嚴格遵循指令的結果,並保持互動級別的低延遲。它在現有方法表現欠佳的自我中心編輯基準測試中取得明顯提升,同時在通用編輯任務上保持與最強基線模型相當的性能。EgoEditData與EgoEditBench將公開提供給研究社群。詳情請參閱我們的網站:https://snap-research.github.io/EgoEdit
近期強化學習(RL)技術雖在語言模型的推理能力上帶來顯著提升,但後訓練是否真能擴展模型超越預訓練所得的推理能力,目前尚不明確。核心挑戰在於現代訓練流程缺乏可控性:大規模預訓練語料庫不透明,中期訓練常被忽視,且RL目標會與未知的先驗知識產生複雜交互。為釐清此模糊性,我們建立了一個全受控的實驗框架,分離預訓練、中期訓練與RL後訓練的因果貢獻。我們採用具明確原子操作、可解析逐步推理軌跡的合成推理任務,並系統性操控訓練資料分佈。從兩個維度評估模型:對更複雜組合的外推泛化能力,以及跨表面語境的上下文泛化能力。透過此框架,我們調和了關於RL效能的對立觀點。研究發現:1)僅當預訓練留有足夠提升空間,且RL資料針對模型能力邊界(處於困難但尚未無法觸及的任務)時,RL才能產生真實的能力增益(pass@128);2)上下文泛化只需最少但充分的預訓練接觸,此後RL即可實現可靠遷移;3)在固定計算量下,中期訓練相比純RL能顯著提升效能,彰顯其在訓練流程中關鍵卻未被充分探索的角色;4)過程級獎勵能降低獎勵破解現象並提升推理保真度。這些結果共同闡明了預訓練、中期訓練與RL間的相互作用,為理解與改進推理型語言模型的訓練策略奠定基礎。
目前大多數視覺生成模型會先將圖像壓縮至潛在空間,再應用擴散或自回歸建模。然而,現有方法(如VAE和基礎模型對齊編碼器)僅隱性約束潛在空間,未顯式塑造其分佈,導致最適合建模的分佈類型尚不明確。我們提出分佈匹配變分自編碼器(DMVAE),通過分佈匹配約束顯式將編碼器的潛在分佈與任意參考分佈對齊。該方法突破了傳統VAE的高斯先驗限制,可實現與自監督特徵、擴散噪聲或其他先驗分佈的對齊。基於DMVAE,我們能系統性探究何種潛在分佈更有利於建模,並發現自監督學習衍生的分佈能在重構保真度與建模效率間取得絕佳平衡——僅需64個訓練週期即可在ImageNet上達到gFID=3.2。實驗結果表明:選擇合適的潛在分佈結構(通過分佈層級對齊實現),而非依賴固定先驗,是彌合易建模潛變量與高保真圖像合成間差距的關鍵。程式碼已開源於https://github.com/sen-ye/dmvae。
人類不僅能感知屬性相似性——我們同樣能察覺關係相似性。蘋果與桃子相似是因為兩者都是紅色水果,但地球也與桃子相似:其地殼、地幔和地核分別對應桃子的表皮、果肉和果核。這種感知與識別關係相似性的能力,被認知科學家認為是人類有別於其他物種的關鍵特徵。然而,當前所有廣泛使用的視覺相似度度量標準(如LPIPS、CLIP、DINO)僅聚焦於感知屬性的相似性,未能捕捉人類所感知的豐富且常令人驚奇的關係相似性。我們該如何超越圖像的可見內容,捕捉其關係特性?如何讓具有相同關係邏輯的圖像在表徵空間中更接近?為解答這些問題,我們首先將關係性圖像相似度定義為可量化的問題:當兩張圖像的視覺元素之間的內部關係或功能相對應時,即便其視覺屬性不同,即具有關係相似性。接著我們策劃了一個包含11.4萬張圖像-文字說明的數據集,其中文字說明經過匿名化處理——描述場景底層的關係邏輯而非表面內容。利用此數據集,我們對視覺-語言模型進行微調,以測量圖像間的關係相似度。該模型成為透過底層關係結構(而非可見外觀)連結圖像的第一步。我們的研究表明,雖然關係相似性在現實世界有廣泛應用,現有圖像相似度模型卻無法捕捉它——這揭示了視覺計算領域的關鍵空白。
我們提出多視角金字塔轉換器(MVP),這是一種可擴展的多視角轉換器架構,能夠在單次前向傳遞中直接從數十至數百張圖像重建大規模3D場景。基於「觀全局以見全貌,察細微以辨細節」的理念,MVP建立在兩大核心設計原則之上:1)局部到全局的視間層級結構,使模型視角從局部視圖逐步擴展至群組,最終覆蓋完整場景;2)細粒度到粗粒度的視內層級結構,從精細的空間表徵出發,逐步聚合為緊湊且信息密集的標記。這種雙重層級結構兼具計算效率與表徵豐富性,能實現大型複雜場景的快速重建。我們在多個數據集上驗證了MVP的性能,結果表明當其與3D高斯潑濺作為底層3D表徵相結合時,不僅在通用化重建品質上達到最先進水平,還能在多種視角配置下保持高效性與可擴展性。
我們推出 LongCat-Image,這是一款開創性的開源雙語(中英)圖像生成基礎模型,旨在解決當前主流模型在多語言文字渲染、照片真實感、部署效率及開發者易用性方面的核心挑戰。1)我們通過在預訓練、中期訓練與 SFT 階段實施嚴格的數據策劃策略,並在強化學習階段配合使用精選獎勵模型,使該模型成為新一代技術標杆,具備卓越的文字渲染能力與驚人的照片真實感,同時顯著提升美學品質。2)值得注意的是,該模型為漢字渲染樹立了新的行業標準。即使面對複雜生僻字,其覆蓋範圍與準確性均超越主流開源及商業解決方案。3)憑藉緊湊型設計,模型實現了顯著效能優化。核心擴散模型僅需 60 億參數,遠小於領域內常見的近 200 億或更大規模的混合專家架構,這確保了顯存佔用最小化與推理高速化,大幅降低部署成本。除生成任務外,LongCat-Image 在圖像編輯領域同樣表現卓越,在標準基準測試中取得技術標杆級成果,其編輯一致性優於其他開源方案。4)為全面賦能開發社群,我們構建了迄今最完整的開源生態系統:不僅發布涵蓋文本生成圖像與圖像編輯的多個模型版本(包括中期訓練與完整訓練後的檢查點),更公開完整訓練工具鏈。我們相信 LongCat-Image 的開放性將為開發者與研究者提供強力支持,推動視覺內容創作的前沿發展。
近期影片生成模型展現出令人印象深刻的合成能力,但受限於單模態條件輸入,制約了其對整體世界的理解能力。此問題根源在於跨模態互動不足,以及用於全面世界知識表徵的模態多樣性有限。為突破這些限制,我們提出UnityVideo——一個具備世界感知能力的統一影片生成框架,能跨越多種模態(分割遮罩、人體骨架、DensePose、光流和深度圖)與訓練範式進行聯合學習。我們的方法包含兩大核心組件:(1)動態噪聲注入技術,用於統一異質性訓練範式;(2)具備情境學習能力的模態切換器,透過模組化參數與上下文學習實現統一處理。我們構建了包含130萬樣本的大規模統一數據集。經由聯合優化,UnityVideo能加速收斂並顯著提升對未見數據的零樣本泛化能力。實驗證明,UnityVideo在影片品質、連貫性以及與物理世界約束的契合度方面均實現優異表現。程式碼與數據請參見:https://github.com/dvlab-research/UnityVideo
大型視覺語言模型(VLMs)通過大規模預訓練有效彌合了模態鴻溝,獲得了與語言對齊的複雜視覺表徵。然而,這些為多模態理解任務優化的表徵是否蘊藏視覺生成的內在潛能,目前仍缺乏深入探索。本文提出視覺生成調優(VGT)這一新範式,旨在激發任意視覺語言模型中潛在的視覺生成能力。通過對預訓練良好的VLMs進行高效視覺生成調優,我們顯著降低了對齊成本,並在連續空間中實現了自迴歸建模的加速收斂(提速20倍)。具體而言,我們摒棄了為擴散轉換器設計的複雜像素級VAE,通過將預訓練VLMs的語義編碼器與像素解碼器的潛在表徵對齊,構建了VGT-AE架構。在圖像重建任務中,我們以28倍壓縮比達成26.67 PSNR和0.50 rFID,超越專業VAE模型;在視覺生成任務中,我們在自迴歸模型中取得最先進成果——GenEval評分0.77,DPG-Bench評分78.73。此外,VGT展現出顯著的擴展潛力,能靈活賦予任何針對多模態理解訓練的VLMs以視覺生成能力,為探索下一代統一多模態基礎模型開闢了新路徑。模型與程式碼已開源於:https://github.com/hustvl/VGT。
雖然能提供密集步驟級回饋的流程獎勵模型(PRM)已展現強化學習潛力,但其應用仍受限於昂貴的步驟級標註或標準答案需求。我們提出SPARK三階段框架:第一階段由生成模型產生多樣化解法,驗證模型透過平行擴展(自我一致性)與序列擴展(元批判)進行評估;第二階段將驗證輸出作為合成訓練資料,微調生成式流程獎勵模型,使其在訓練時擔任獎勵信號。我們證明在步驟層級聚合多重獨立驗證所產生的訓練資料,其效果超越標準答案監督機制——在數學推理錯誤步驟識別基準ProcessBench上達到67.5 F1分數,優於參考指導訓練的66.4與GPT-4o的61.9。最終階段將帶有思維鏈驗證的生成式PRM(PRM-CoT)作為數學推理強化學習實驗的獎勵模型,並引入格式約束防範獎勵破解。基於Qwen2.5-Math-7B模型,我們在六項數學推理基準中達成47.4%平均準確率,勝過基於標準答案的RLVR方法(43.9%)。本研究實現了無需參考答案卻能超越標準答案方法的強化學習訓練,為缺乏可驗證答案或難以取得標準答案的領域開拓新可能。
工具整合視覺推理(TiVR)在增強多模態問題解決能力方面展現出巨大潛力。然而,現有的TiVR範式主要聚焦於通過強化學習整合各類視覺工具,卻未能設計有效的響應機制來處理不可靠或錯誤的工具輸出。這一侷限性在指代與定位任務中尤為明顯——不準確的檢測工具預測常會誤導TiVR模型產生虛幻推理。為解決此問題,我們提出VG-Refiner框架,這是首個專注於工具精煉指代定位推理的架構。技術層面,我們引入雙階段「思考-再思考」機制,使模型能顯式分析並響應工具反饋,同時設計精煉獎勵機制以激勵模型針對不良工具結果進行有效修正。此外,我們提出兩項新指標並建立公平評估協議,系統性衡量現有模型的精煉能力。通過採用少量任務特定數據增強VG-Refiner的精煉能力,我們在指代與推理定位基準測試中實現了準確率和修正能力的顯著提升,同時保持了預訓練模型的通用能力。
我們提出ReCamDriving——一個純基於視覺、相機控制的新型軌跡影片生成框架。相較於修復式方法難以還原複雜偽影,以及雷射雷達方法依賴稀疏且不完整的線索,ReCamDriving利用稠密且場景完整的3DGS渲染結果提供顯式幾何引導,實現精確的相機可控生成。為緩解基於3DGS渲染條件訓練時對修復行為的過擬合問題,本框架採用兩階段訓練範式:第一階段使用相機姿態進行粗略控制,第二階段則引入3DGS渲染實現細粒度視角與幾何引導。此外,我們提出基於3DGS的跨軌跡資料構建策略,消除相機變換模式在訓練與測試階段的差異,從而實現單目影片的可擴展多軌跡監督。基於此策略,我們構建了包含超過11萬組平行軌跡影片對的ParaDrive資料集。大量實驗表明,ReCamDriving在相機控制精度與結構一致性方面均達到最先進水準。
近年來,多模態大型語言模型(MLLMs)的快速發展實現了統一的感知-推理能力,然而這些系統仍極易受到越獄攻擊的影響,導致安全防護機制被繞過並誘發有害行為。現有基準如JailBreakV-28K、MM-SafetyBench和HADES雖為多模態漏洞研究提供了重要參考,但普遍存在攻擊場景覆蓋有限、缺乏標準化防禦評估框架,且未提供統一可重現的工具箱等問題。為此,我們推出OmniSafeBench-MM——一個面向多模態越獄攻防評估的綜合工具箱。該平台整合了13種代表性攻擊方法、15種防禦策略,以及涵蓋9大風險領域與50個細分類別的多元化數據集,並通過諮詢式、指令式與陳述式三類查詢結構模擬真實用戶意圖。除數據覆蓋度外,我們建立三維評估協議,量化衡量:(1)危害程度,採用從低影響個體危害到災難性社會威脅的多級細粒度標度;(2)回應與查詢的意圖對齊度;(3)回應詳盡度,從而實現安全-效用的細緻平衡分析。我們對10個開源與8個閉源MLLMs進行大規模實驗,揭示其對多模態越獄的脆弱性。通過將數據、方法與評估整合為開源可重現平台,OmniSafeBench-MM為未來研究建立了標準化基礎。程式碼已發佈於:https://github.com/jiaxiaojunQAQ/OmniSafeBench-MM。
儘管主題驅動影像生成技術取得了顯著進展,現有模型仍常偏離參考主體特徵,並在處理多主體複雜場景時面臨挑戰。為解決此問題,我們推出OpenSubject——一個基於影片構建的大規模數據集,包含250萬個樣本和435萬張影像,專注於主題驅動生成與編輯任務。該數據集通過四階段流程構建,充分利用跨幀身份先驗:(i)影片篩選:通過解析度與美學過濾獲取高質量片段;(ii)跨幀主體挖掘與配對:採用基於視覺語言模型(VLM)的類別共識、局部定位及多樣性感知配對策略篩選影像對;(iii)身份保持參考影像合成:通過分割圖引導外繪技術生成主題驅動生成的輸入影像,並採用框引導內繪技術生成主題驅動編輯的輸入影像,結合幾何感知增強與不規則邊界侵蝕處理;(iv)驗證與標註:利用VLM驗證合成樣本,對失敗樣本重新執行第三階段合成流程,最終構建簡短與詳細描述標註。此外,我們建立涵蓋主題驅動生成與編輯的基準測試體系,通過VLM評判指標評估身份保真度、提示語遵循度、編輯一致性與背景一致性。大量實驗表明,採用OpenSubject訓練能有效提升生成與編輯效能,尤其在複雜場景中表現尤為突出。
基於解碼的迴歸方法將迴歸任務重構為序列生成任務,已成為應用大型語言模型進行數值預測的重要範式。然而,離散化的詞元級目標(如交叉熵)與連續數值之間的錯位問題制約了其發展。現有依賴詞元級約束的方法往往難以捕捉目標值的整體量級,限制了預測精度與泛化能力。本文提出透過強化學習釋放解碼式迴歸潛力的新路徑。我們將生成過程建模為馬可夫決策過程,利用序列級獎勵機制保障全局數值連貫性。在表格迴歸與代碼度量迴歸上的大量實驗表明,我們的方法(特別是結合ReMax與GRPO策略時)持續優於最先進的詞元級基線方法與傳統迴歸頭,彰顯了引入序列級信號的優越性。進一步分析揭示,強化學習能顯著提升採樣效率與預測精度,從而確立解碼式迴歸作為通用數值預測任務中兼具魯棒性與準確性的新範式。
视觉生成模型(如扩散模型)通常运行在压缩潜空间中以平衡训练效率与样本质量。与此同时,利用高质量预训练视觉表征的研究日益受到关注,无论是通过将其对齐在VAE内部,还是直接整合进生成模型。然而,由于理解导向的特征与生成友好的潜空间之间存在根本性错配,适配这类表征仍具挑战性:表征编码器受益于能捕捉掩码区域多元假设的高维潜变量,而生成模型则青睐能忠实保留注入噪声的低维潜变量。这种差异导致先前研究不得不依赖复杂的目标函数和架构。本文提出FAE(特征自编码器),该框架通过仅需单个注意力层的极简设计,将预训练视觉表征适配为适用于生成的低维潜变量,同时保留足够信息以支持重建和理解任务。其核心在于耦合两个独立的深度解码器:一个经训练重建原始特征空间,另一个则以重建特征作为输入进行图像生成。FAE具有通用性,可与多种自监督编码器(如DINO、SigLIP)结合实例化,并嵌入两类不同的生成模型家族:扩散模型与标准化流。在类别条件生成和文生图基准测试中,FAE均表现出强劲性能。以ImageNet 256×256为例,我们搭载分类器引导的扩散模型取得了接近最优的FID指标(800轮训练1.29,80轮训练1.70);无分类器引导时,FAE更达到当前最优FID(800轮1.48,80轮2.08),展现出高质量与快速学习的双重优势。
我們提出GRAPE(群表示位置編碼),這是一個基於群作用的統一位置編碼框架。該框架整合了兩類機制:(i) SO(d) 群中的乘法旋轉(乘法型GRAPE),以及(ii) 源自一般線性群GL中冪么作用的加法logit偏置(加法型GRAPE)。在乘法型GRAPE中,Z中的位置n(或R中的t)通過G(n)=exp(n,ω,L)作用,其中L為R^{d×d}中的二秩斜對稱生成元,產生具有閉式矩陣指數的相對性、組合性、保範映射。當d/2個平面為具有對數均勻譜的標準坐標對時,可精確還原RoPE。通過學習的交換子空間與緊緻非交換混合結構,可將此幾何嚴格擴展至O(d)和O(r d)的每頭計算成本,分別捕獲跨子空間的特徵耦合關係。在加法型GRAPE中,加法logit源自一秩(或低秩)冪么作用,精確還原ALiBi與遺忘變換器(FoX)為特例,同時保持精確的相對律與流式緩存能力。總體而言,GRAPE為長上下文模型中的位置幾何提供了原則性設計空間,將RoPE與ALiBi涵蓋為特例。項目頁面:https://github.com/model-architectures/GRAPE。
自回归生成模型的最新进展催生了日益强大的媒体合成系统。其中,多尺度预测已成为流行范式,模型通过由粗到细的方式生成图像。然而,尺度自回归模型存在曝光偏差问题,影响生成质量。我们识别出该问题的两个主要原因:(1) 训练-测试不匹配,即模型在推理过程中必须依赖自身不完美的预测;(2) 尺度学习难度不平衡,某些尺度表现出过高的优化复杂度。通过全面分析训练动态,我们提出自回归优化方法(SAR)来解决这些局限。该方法引入交错尺度展开机制(SSR),通过轻量级自回归展开使模型接触其中间预测,从而对齐训练-测试模式;同时设计互补的对比性强制学习损失函数(CSFL),为自生成内容提供充分监督以确保训练稳定性。实验结果表明,将SAR应用于预训练的自回归模型能以最小计算开销持续提升生成质量。例如在ImageNet 256数据集上,FlexVAR-d16模型经过10轮训练(32xA100 GPU耗时5小时)即可实现FID指标5.2%的降低。基于其高效性、可扩展性和有效性,我们预期SAR能成为视觉自回归生成领域可靠的训练后优化方法。
近期,視覺語言模型(VLM)透過強化學習(RL)實現了卓越的推理能力,這為在經驗時代實現持續自我演化的大型視覺語言模型(LVLM)提供了可行方案。然而,VLM的強化學習需要大量高品質多模態數據,尤其在化學、地球科學和多模態數學等專業領域面臨挑戰。現有策略如合成數據和自我獎勵機制存在分佈侷限性和對齊困難,最終導致獎勵破解:模型利用高獎勵模式,使策略熵崩潰並破壞訓練穩定性。我們提出DoGe(解耦以泛化)框架,透過雙重解耦引導模型首先從上下文學習而非直接解決問題,重新聚焦於合成數據方法所忽略的問題情境場景。通過將學習過程解耦為雙組件(思考者與解決者),我們合理量化此過程的獎勵信號,並提出從自由探索上下文到實際解決任務的兩階段RL後訓練方法。其次,為提升訓練數據多樣性,DoGe建構了演化課程學習流程:擴展的原始領域知識庫與迭代演化的種子問題池。實驗表明,我們的方法在各類基準測試中持續超越基線,為實現自我演化LVLM提供了可擴展路徑。
机器人操作中的泛化能力对于在开放世界环境中部署机器人及实现通用人工智能至关重要。虽然当前视觉-语言-动作模型利用大规模预训练理解模型实现感知和指令跟随,但其在新任务、新物体和新环境中的泛化能力仍显不足。本研究提出VideoVLA创新方案,探索将大型视频生成模型转化为机器人操作器的潜力。该系统基于语言指令和初始图像,可同步预测动作序列及未来视觉结果。通过构建多模态扩散变换器架构,VideoVLA融合视频、语言与动作模态的联合建模,并借助预训练视频生成模型实现视觉与动作的协同预测。实验表明,高质量的未来场景想象与可靠的动作预测及任务成功率呈正相关,印证了视觉想象力在操作中的关键作用。VideoVLA展现出卓越的泛化性能,包括跨实体技能模仿和新物体操作能力。这种动作与视觉结果双重预测的策略,开创了机器人学习新范式,为操作系统解锁了泛化能力的新维度。
长上下文对话系统普遍存在状态惯性问题,即静态约束会阻碍模型在动态演变的用户意图与既定历史语境之间实现有效调和。为此,我们提出非破坏性对齐框架DZ-TDPO,通过融合冲突感知的动态KL约束与校准时序注意力偏置实现协同优化。在Multi-Session Chat(MSC)数据集上的实验表明,DZ-TDPO在Phi-3.5模型上达到55.4%的胜率,刷新当前最优纪录,同时保持强劲的零样本泛化能力。缩放分析揭示出"容量-稳定性权衡"规律:小规模模型需承担困惑度激增的"对齐税"来克服历史惯性,而Qwen2.5-7B大模型仅以可忽略的困惑度代价实现50.8%胜率。这证实通过精确的注意力调控(而非破坏性权重更新)可缓解状态惯性,且能保持不同规模模型的通用能力(MMLU指标)。代码与数据已开源:https://github.com/lyj20071013/DZ-TDPO
随着机器人进入人类工作空间,亟需使其能够理解具身化的人类指令,从而实现直观流畅的人机交互。然而,由于缺乏能够捕捉多样化人机交互场景中自然具身互动的大规模数据集,精确理解仍面临挑战。现有数据集普遍存在视角偏差、单视角采集、非语言手势覆盖不足以及主要聚焦室内环境等问题。为解决这些局限性,我们提出Refer360数据集——一个在室内外多场景下通过多视角采集的大规模具身化语言与非语言交互数据集。此外,我们设计了多模态引导残差模块MuRes,该模块通过构建信息瓶颈提取显著的模态特异性信号,并将其强化注入预训练表征,从而为下游任务构建互补特征。我们在包括Refer360在内的四个人机交互数据集上进行了广泛实验,结果表明当前多模态模型难以全面捕捉具身互动,但通过MuRes增强后能持续提升性能。这些发现确立了Refer360作为重要基准数据集的价值,同时展现出引导残差学习在提升人类环境中机器人的具身指代表达理解能力方面的潜力。
基于梯度的学习在博弈中的经典收敛性保证要求伪梯度在欧几里得几何下满足(强)单调性条件(如Rosen(1965)所示),但该条件即使在具有强跨玩家耦合的简单博弈中也常不成立。我们提出了一种自定义块加权几何中的块小增益条件——小增益纳什(SGN)方法。SGN将局部曲率和跨玩家Lipschitz耦合边界转化为可处理的收缩证明,通过构建加权块度量,使得伪梯度在这些边界成立的任意区域内具有强单调性(即使其在欧几里得意义下非单调)。连续流在此设计的几何中呈指数收缩,且投影欧拉法与RK4离散化在由SGN裕度和局部Lipschitz常数导出的显式步长范围内收敛。我们的分析揭示了一个经过认证的“时间尺度带”——一种非渐近的、基于度量的证明,其作用类似于TTUR:SGN不是通过 vanishing 的不等步长强制实现渐近时间尺度分离,而是识别出一个相对度量权重的有限带,使得单步长动力学可证明具有收缩性。我们在二次博弈中验证了该框架(欧几里得单调性分析在此类博弈中无法预测收敛,但SGN成功实现了认证),并将该构造扩展至马尔可夫博弈中熵正则化策略梯度的镜像/费希尔几何。最终形成离线认证流程:在紧致区域上估计曲率、耦合及Lipschitz参数,优化块权重以扩大SGN裕度,并返回一个包含度量、收缩率及安全步长的结构化可计算收敛证明,适用于非单调博弈。
向量量化变分自编码器(VQ-VAE)是一种将图像压缩为离散标记的离散自编码器,其离散化特性导致模型训练困难。本文提出了一种名为高斯量化(GQ)的简洁有效技术,可将满足特定约束的高斯VAE无需训练即可转换为VQ-VAE。该方法通过生成随机高斯噪声构建码本,并寻找与后验均值最接近的噪声向量。理论分析证明,当码本对数规模超过高斯VAE的比特回传编码速率时,可确保较小的量化误差。实践层面,我们提出了目标散度约束(TDC)启发式算法来训练高斯VAE以优化GQ效果。实验表明,在UNet和ViT架构上,GQ在性能上超越了VQGAN、FSQ、LFQ和BSQ等现有VQ-VAE模型。此外,TDC方法也显著改进了TokenBridge等传统高斯VAE离散化方法。源代码已发布于https://github.com/tongdaxu/VQ-VAE-from-Gaussian-VAE。
近期關於結構化文本翻譯的研究仍侷限於句子層級,因其難以有效處理複雜的文件級XML或HTML結構。為解決此問題,我們提出格式強化學習(FormatRL),該方法在監督式微調模型基礎上採用群組相對策略優化,直接針對兩種新型結構感知獎勵函數進行優化:1) TreeSim——衡量預測XML樹與參考XML樹的結構相似度;2) Node-chrF——在XML節點層級評估翻譯品質。此外,我們採用能區分輕微錯誤與嚴重結構失誤的細粒度指標StrucAUC。在SAP軟體文件基準測試中的實驗表明,該方法在六項指標上均有提升,進一步分析揭示了不同獎勵函數如何共同促進結構完整性與翻譯品質的改善。
我們提出一個兩階段自監督框架,結合聯合嵌入預測架構(JEPA)與密度自適應注意力機制(DAAM),用於學習魯棒的語音表徵。第一階段採用搭載DAAM的JEPA架構,透過潛在空間中的遮罩預測來學習語義音頻特徵,完全脫離波形重建任務。第二階段利用這些表徵,透過有限標量量化(FSQ)與混合進制打包方案實現高效符記化,再以HiFi-GAN解碼器進行高保真波形重建。通過將基於高斯混合模型的密度自適應門控整合至JEPA編碼器,該模型能以2.5赫茲的低幀率執行自適應時序特徵選擇,並發現層級化語音結構。最終生成的符記(每秒47.5個符記)具備可逆性、高壓縮度及語言模型友好性,其性能不僅可與現有神經音頻編解碼器競爭,且往往更具效率優勢。
本文深入探討了最新兩代分割萬物模型(SAM2與SAM3)之間的根本性斷層。我們闡釋了為何SAM2基於提示的分割專業知識無法遷移至SAM3的多模態概念驅動範式。SAM2通過空間提示(點、框、掩碼)進行操作,產生純幾何與時序的分割結果;而SAM3則引入了統一的視覺-語言架構,具備開放詞彙推理、語義接地、對比對齊及範例驅動的概念理解能力。本文通過五大核心組件展開分析:(1)提示驅動與概念驅動分割的理論斷層,對比SAM2的空間提示語義與SAM3的多模態融合及文本條件掩碼生成;(2)架構分歧,詳述SAM2的純視覺-時序設計與SAM3整合視覺-語言編碼器、幾何與範例編碼器、融合模塊、DETR風格解碼器、物件查詢及專家混合機制的模糊處理能力;(3)數據集與標註差異,對比SAM2的SA-V視頻掩碼與SAM3的多模態概念標註語料庫;(4)訓練與超參數區別,揭示SAM2優化知識為何不適用於SAM3;(5)評估指標與失效模式,勾勒從幾何IoU指標到語義化開放詞彙評估的轉變。這些分析共同確立SAM3作為新一代分割基礎模型的地位,並為新興的概念驅動分割時代規劃未來發展路徑。