每日精選AI研究論文及翻譯
近期推理模型的進展大幅推進了長程數學與科學問題求解的能力,目前已有數個系統在國際數學奧林匹亞(IMO)與國際物理奧林匹亞(IPhO)問題上達到金牌等級的表現。在本文中,我們提出一個簡單且統一的配方,將一個後訓練推理骨架轉化為嚴謹的奧林匹亞等級解題者。該配方首先利用反向困惑度課程進行監督式微調(SFT),以灌輸嚴謹的證明搜尋與自我檢查行為;接著透過一個兩階段強化學習(RL)流程來擴展這些行為,從可驗證獎勵的強化學習進展到更精細的證明層級強化學習;最後再透過測試時擴展來提升解題表現。應用此配方,我們訓練了一個30B-A3B骨架,使用約34萬條長度不超過8K token的軌跡進行監督式微調,接著進行200步強化學習。最終得到的模型SU-01能夠在困難問題上進行穩定的推理,軌跡長度超過10萬token,同時在數學與物理奧林匹亞競賽中達到金牌等級的表現,包括IMO 2025/USAMO 2026與IPhO 2024/2025。此外,該模型也展現出科學推理能力在數學與物理領域之外具有強大的泛化性。
即時互動式影片生成需要低延遲、串流及可控的滾動式生成。現有的自回歸擴散蒸餾方法透過將雙向基礎模型蒸餾為少步數自回歸學生模型,在分塊式4步推論框架中取得了優異成果,但其仍受限於粗糙的回應粒度與不可忽略的取樣延遲。本研究探討更具挑戰性的設定:以僅1至2步取樣實現逐幀自回歸。在此框架下,我們發現少步數自回歸學生模型的初始化是關鍵瓶頸:既有策略若非目標不對齊、無法支援少步生成,便是擴充成本過高。我們提出因果強制++(Causal Forcing++),這套具原則性且可擴充的管線利用因果一致性蒸餾(causal CD)進行少步數自回歸初始化。核心概念在於因果CD能學習與因果ODE蒸餾相同的自回歸條件流映射,但僅需從相鄰時間步間的單一線上教師ODE步驟取得監督訊號,無需預先計算並儲存完整的PF-ODE軌跡。這使得初始化既更有效率也更容易最佳化。最終管線 \ours 在**逐幀2步設定**下,VBench總分提升0.1、VBench品質分數提升0.3、VisionReward提升0.335,同時將首幀延遲降低50%,第二階段訓練成本減少約4倍。我們進一步擴展此管線至具動作條件的世界模型生成,遵循Genie3的精神。專案頁面:https://github.com/thu-ml/Causal-Forcing 及 https://github.com/shengshu-ai/minWM。
強化學習(RL)已成為後續訓練大型語言模型代理的核心範式,但其軌跡層級的獎勵訊號僅為長期互動提供粗略的監督。在線策略自蒸餾(OPSD)透過引入來自具備特權上下文增強的教師分支的密集詞元層級引導,來補充強化學習。然而,將OPSD遷移至多輪代理卻產生問題:多輪互動的不穩定性加劇,導致監督不穩定;而技能條件化的特權引導則需要不對稱的處理,因為教師的拒絕訊號(可能源於不完善的技能擷取或運用)需要被適當地對待。我們提出SDAR(自蒸餾代理強化學習),將OPSD視為門控輔助目標,同時保持RL作為主要優化骨幹。SDAR將分離的詞元層級訊號映射至sigmoid門控,強化對教師認可的正向差距詞元的蒸餾,並柔和衰減教師的拒絕訊號。在ALFWorld、WebShop及Search-QA基準上,基於Qwen2.5與Qwen3系列模型,SDAR相較於GRPO有顯著提升(ALFWorld提升9.4%,Search-QA提升7.0%,WebShop-Acc提升10.2%),避免單純GRPO+OPSD的不穩定性,且在各模型規模下持續優於混合RL-OPSD基線。
記憶對於大型視覺語言模型(LVLMs)處理長篇多模態互動至關重要,兩類方法方向提供了此能力:長語境LVLMs與記憶增強型代理。然而,現有基準測試尚未針對真正需要多模態證據的問題對兩者進行系統性比較。為填補此空白,我們提出MEMLENS,一個針對多模態多輪對話記憶的綜合性基準,包含789個問題,涵蓋五項記憶能力(資訊提取、多輪推理、時間推理、知識更新與拒絕回答),並在跨模態token計數方案下設置四個標準語境長度(32K-256K tokens)。影像消融實驗證實,解決MEMLENS需要視覺證據:對於80.4%包含影像證據的問題,移除證據影像會使兩個前沿LVLMs的準確率降至2%以下。評估27個LVLMs與7個記憶增強型代理後發現,長語境LVLMs透過直接視覺定位實現高短語境準確率,但隨著對話增長效能下降;記憶代理則具有長度穩定性,但在儲存時壓縮下損失視覺真實性。多輪推理將多數系統限制在30%以下,僅靠單一方法無法解決任務。這些結果激勵了結合長語境注意力與結構化多模態檢索的混合架構。我們的程式碼已公開在 https://github.com/xrenaf/MEMLENS。
我們介紹 SANA-WM,這是一個高效的 26 億參數開源世界模型,原生訓練用於生成一分鐘長度的影片,能夠合成高保真、720p、分鐘級影片並實現精確的相機控制。SANA-WM 在視覺品質上可與 LingBot-World 和 HY-WorldPlay 等大規模工業基準相媲美,同時顯著提升效率。其架構由四項核心設計驅動:(1) 混合線性注意力結合逐幀門控 DeltaNet (GDN) 與 softmax 注意力,實現記憶體高效的長上下文建模。(2) 雙分支相機控制確保精確的六自由度軌跡遵循。(3) 兩階段生成流程對第一階段輸出應用長影片精煉器,提升序列的品質與一致性。(4) 穩健的標註流程從公開影片中提取精確的度量尺度六自由度相機姿態,生成高品質、時空一致的行動標籤。在這些設計的驅動下,SANA-WM 在資料、訓練計算與推理硬體方面展現出卓越效率:僅使用 21.3 萬個帶有度量尺度姿態監督的公開影片片段,在 64 塊 H100 上 15 天完成訓練,並在單一 GPU 上生成每段 60 秒的剪輯;其蒸餾版本可部署於單張 RTX 5090 上,透過 NVFP4 量化以 34 秒去噪生成一段 60 秒的 720p 影片。在我們的一分鐘世界模型基準測試中,SANA-WM 展現出比先前開源基準更強的行動跟隨精度,並以 36 倍更高的吞吐量達到可比較的視覺品質,實現可擴展的世界建模。
長期代理人記憶日益多模態,然而現有評測鮮少測試代理人是否能保留後續推理所需的視覺證據。在先前的相關研究中,許多基於視覺訊息的問題可僅透過圖說或文字軌跡作答,使答案無需保留細粒度視覺證據即可推得。與此同時,需要對變化中的視覺狀態進行推理的較難案例則幾乎付之闕如。為此,我們提出MemEye,這是一個從兩個面向評估記憶能力的框架:其一衡量關鍵視覺證據的粒度(從場景層級到像素層級證據),另一衡量所擷取證據必須如何運用(從單一證據到演化式綜合)。在此框架下,我們構建了一個橫跨八項生活場景任務的新基準,並設置基於消融分析的驗證閘門,用以評估可回答性、捷徑規避性、視覺必要性及推理結構。透過對四種視覺語言模型骨幹中的十三種記憶方法進行評估,我們顯示現有架構在保存細粒度視覺細節及隨時間推理狀態變化方面仍顯吃力。我們的研究發現表明,長期多模態記憶依賴於證據路由、時間追蹤及細節萃取。
我們提出Darwin Family,這是一個透過無梯度權重空間重組、無需訓練即可演化合併大型語言模型的框架。我們探討是否能在不進行額外訓練的情況下,透過重新組織現有檢查點中已編碼的潛在能力,來提升前沿級推理表現。Darwin引入三個關鍵概念:(i) 一個14維的自適應合併基因組,能實現細粒度的組件與區塊級重組;(ii) MRI-Trust Fusion,透過可學習的信任參數,自適應地平衡診斷性層重要性訊號與演化搜索;以及 (iii) 架構映射器 (Architecture Mapper),能實現異質模型家族之間的跨架構培育。實驗上,旗艦模型Darwin-27B-Opus在GPQA Diamond上達到86.9%的準確率,在1,252個受評模型中排名第6,且在不使用任何梯度訓練的情況下,表現超越其經過完整訓練的基礎模型。在4B到35B參數的規模範圍內,Darwin模型持續優於其父代,支援遞迴多世代演化,並能實現結合Transformer與Mamba元件的免訓練演化合併。整體而言,Darwin Family證明,對於以推理為中心的語言模型,診斷引導的演化合併是一種可實作且可重現的替代方案,可取代成本高昂的後訓練流程。
基於大型語言模型的自主智能體已在推理、規劃與工具使用方面展現出強大能力,然而在需要角色、工具與環境間持續協調的任務中仍有所局限。多智能體系統透過專業化智能體間的結構化協作來應對此問題,但更緊密的協調也擴大了一個相對未被充分探討的風險:錯誤可能跨智能體與互動回合傳播,產生難以診斷的失敗,且這些失敗極少轉化為結構性的自我改進。現有綜述分別涵蓋個別智能體能力、多智能體協作或智能體自我演化,卻未探討其間的因果依賴關係。本調查報告以四個因果相連的階段為基礎提供統一綜述,我們稱之為LIFE進程:奠定能力基礎(Lay the capability foundation)、透過協作整合智能體(Integrate agents through collaboration)、透過歸因發現故障(Find faults through attribution)、以及透過自主自我改進演化(Evolve through autonomous self-improvement)。針對每個階段,我們提供系統性分類,並正式刻畫相鄰階段間的依賴關係,揭示每個階段如何既依賴又制約下一階段。除綜合現有研究外,我們還識別出階段邊界上的開放性挑戰,並提出一個跨階段的研究議程,目標是實現具備持續診斷失敗、重組結構與優化智能體行為能力的閉環多智能體系統,從而將現有協調框架擴展至更趨向自組織形式的集體智能。透過串聯這些先前分散的研究脈絡,本調查報告旨在提供一份系統性參考,同時為邁向自主且能自我改進的多智能體智能提供概念性路線圖。
大型語言模型(LLM)智能體日益被期望能維持一致且長期的個人化記憶,然而現有的評測基準主要側重於靜態事實檢索,忽略了當新證據出現時修正儲存信念的能力。我們發現一個關鍵且尚未充分探討的失效模式——隱含衝突:後續的觀測在沒有明確否定的情況下,使先前的記憶失效,需要依賴語境推論與常識推理才能加以偵測。為嚴謹評估此能力,我們提出 STALE 基準——包含 400 個經專家驗證的衝突場景(涵蓋三個探測維度共 1,200 個評估查詢),橫跨超過 100 個日常主題,語境長度可達 150K 個 token。我們提出一個三維探測框架,分別測試:狀態解析(偵測先前的信念已過時)、前提抵抗(拒絕基於虛假舊狀態的查詢),以及隱含策略適應(在下游行為中主動應用更新後的狀態)。對前緣 LLM 及專門的記憶框架進行系統性評估後,發現從檢索到更新證據,再到基於證據行動之間存在普遍差距,即使表現最佳的模型總體準確率也僅達 55.2%。模型往往接受使用者查詢中的過時假設,且難以認知到使用者狀態某一層面的改變應如何使相關記憶失效。為建立狀態感知記憶的初步基準,我們進一步提出 CUPMem 原型,透過結構化狀態整合與傳播感知搜尋強化寫入時的修正機制,顯示明確的狀態裁決是邁向穩健智能體記憶的一個具前景的方向。
大型語言與視覺語言模型日益驅動代理程式透過命令列介面(CLI)框架代表使用者執行任務。然而,多數代理程式基準測試仍依賴合成沙盒、短時程任務、模擬服務API及最終答案檢查,未能驗證代理程式能否在其實際部署的運行環境中完成真實的長時程工作。本研究提出 WildClawBench,一個原生運行環境基準測試,包含60項由人工撰寫、雙語、多模態的任務,涵蓋六大主題類別。每項任務平均耗費約8分鐘實際時間及超過20次工具呼叫,並在可重現的Docker容器內執行,該容器搭載真正的CLI代理框架(OpenClaw、Claude Code、Codex 或 Hermes Agent),使用真實工具而非模擬服務。評分方式為混合制,結合確定性規則檢查、環境狀態副作用審計,以及用於語義驗證的LLM/VLM評判器。在19個前沿模型中,最佳模型Claude Opus 4.7在OpenClaw框架下總體得分僅達62.2%,其他所有模型均低於60%;而僅是切換框架就使單一模型得分變動高達18個百分點。這些結果顯示,對於當前前沿模型而言,長時程、原生運行環境的代理評估仍是遠未解決的課題。我們釋出任務、程式碼與容器化工具,以支援可重現的評估。
相機控制下的影片生成技術已取得顯著進展,能讓生成的影片遵循指定的視角軌跡。然而,現有方法通常透過相機編碼器、控制分支或注意力機制與位置編碼調整來學習特定相機條件,這往往需要在具大規模相機標註的影片上進行後訓練。無需訓練的替代方案能避免此類後訓練,但常將成本轉移至測試時優化或額外的去噪階段引導。我們提出「扭曲即歷史」(Warp-as-History)方法,這是一個簡潔的介面,能將相機引起的扭曲轉換為具目標幀位置對齊與可見令牌選擇的相機扭曲偽歷史。給定目標相機軌跡後,我們根據過往觀測建構相機扭曲偽歷史,並將其饋入模型的視覺歷史路徑。關鍵在於,我們將其位置編碼與正被去噪的目標幀對齊,並移除缺乏有效來源觀測的扭曲歷史令牌。無需任何訓練、架構修改或測試時優化,此介面即可釋放出凍結影片生成模型遵循相機軌跡的非平凡零樣本能力。此外,僅需對單一具相機標註的影片進行輕量級離線LoRA微調,即可進一步提升此能力,並泛化至未見影片,在無需測試時優化或目標影片自適應的條件下,增強相機遵循度、視覺品質與運動動態。在多重資料集上的廣泛實驗證實了我們方法的有效性。
隨著大型語言模型生態系統的擴展,各模型在查詢、基準測試及領域上的能力表現各異,促使了LLM路由機制的發展。雖然先前的研究主要聚焦於路由器機制設計,但用以捕捉模型能力的LLM配置文件仍未受到充分探討。本研究提出問題:LLM配置檔案的設計如何在不同路由器之間影響路由效能?釐清此問題有助於明確配置文件在路由中的角色,將配置文件設計與路由器設計脫鉤,並促進路由系統更公平的比較與更有原則的發展。為此,我們將LLM配置視為一個結構化資訊整合問題,涉及異質互動歷史。我們發展了一個通用的LLM配置文件設計空間,稱為RouteProfile,其包含四個關鍵維度:組織形式、表示類型、聚合深度與學習配置。透過在三個具代表性的路由器上(涵蓋標準設定與新型LLM泛化設定)進行系統性評估,我們發現:(1)結構化配置檔案一致優於扁平式配置;(2)查詢層級信號比粗粒度的領域層級信號更可靠;(3)對於新引入模型的泛化,在可訓練設定下,結構化配置檔案受益最大。總體而言,我們的研究凸顯了LLM配置文件設計作為未來路由研究的重要方向。
智能體的記憶通常透過離線的策展示範或在線的部署後互動來建構。然而,無論如何構建,當智能體首次進入一個沒有任何任務特定經驗可用之新環境時,都會面臨冷啟動差距。本文研究任務前記憶建構:智能體能否在觀察任何目標環境任務之前,僅透過自身生成的合成練習來建立程序性記憶。然而,僅有合成互動是不夠的,因為若未控制要練習的內容與要儲存的內容,合成任務將變得冗餘、不可行且最終缺乏資訊性,而記憶更會因未經篩選的軌跡而迅速退化。為克服此問題,我們提出Preping,一個由提議者引導的記憶建構框架。其核心是提議者記憶,這是一種結構化的控制狀態,用以塑造未來的練習。提議者根據此狀態生成合成任務,求解者執行這些任務,而驗證者則決定哪些軌跡有資格插入記憶,同時提供反饋以引導未來的提議。在AppWorld、BFCL v3與MCP-Universe上的實驗顯示,Preping顯著優於無記憶基線,並達到與基於離線或線上經驗之強力腳本方法相當的性能,且在AppWorld上部署成本比線上記憶建構低2.99倍,在BFCL v3上低2.23倍。進一步分析揭示,其主要效益並非來自合成資料的數量,而是來自提議者端對可行性、冗餘性與覆蓋率的控制,結合選擇性的記憶更新。
长期记忆对于跨会话运行的LLM代理至关重要,然而现有记忆系统将检索基础设施视为固定不变:存储内容会演化,但评分函数、融合策略和答案生成策略在部署后始终保持冻结。我们认为,真正的自适应记忆需要在两个层面实现协同演化:存储的知识与查询该知识的检索机制。我们提出EvolveMem——一种自我演化的记忆架构,它将完整的检索配置暴露为结构化动作空间,并由LLM驱动的诊断模块进行优化。在每轮演化中,该模块读取每个问题的失败日志,识别根本原因,并提出针对性的配置调整方案;受保护的元分析器在应用这些调整时,配备自动回滚与停滞探索的防护机制。这种闭环自演化实现了一种自动研究过程:系统自主对其自身架构进行迭代研究循环,取代了手动配置调优。从最小基线出发,该过程自主收敛,发现了有效的检索策略,其中包括原始动作空间中不存在的新配置维度。在LoCoMo数据集上,EvolveMem相比最强基线相对提升25.7%,相比最小基线相对提升78.0%。在MemBench数据集上,EvolveMem相比最强基线相对提升18.9%。演化后的配置可在不同基准测试间实现正迁移而非灾难性迁移,这表明自演化过程捕获了通用的检索原理而非基准测试特定的启发式规则。代码开源地址:https://github.com/aiming-lab/SimpleMem。
我們通常希望生成既具照片級真實感又具3D一致性的圖像,並遵循精確的幾何、材質和視角控制。通常,這是通過使用合成3D資產的渲染圖(其中包含控制信號的註釋)對預訓練於數十億張真實圖像的圖像生成器進行微調來實現的。雖然這種方法可以學習所需的控制,但由於照片與渲染圖之間的領域差距,往往會損害圖像的真實感。我們觀察到,這個問題主要源於模型學習了控制信號的存在與圖像合成外觀之間的意外關聯。為了解決這個問題,我們提出了Realiz3D,一個輕量級的擴散模型訓練框架,它將控制信號與視覺領域解耦。關鍵思想是通過引入一個協變量,將其輸入到小型殘差適配器中以改變領域,從而將視覺領域(真實或合成)與其他控制信號分開學習。這樣,生成器可以在不擬合特定視覺領域的情況下訓練以獲得可控性。透過這種方式,即使施加控制信號,模型也能被引導生成逼真的圖像。我們利用對擴散生成器中不同層次和去噪步驟角色的見解,增強了控制向真實領域的遷移能力,並提出了新的訓練和推理策略以進一步縮小差距。我們展示了Realiz3D在文本到多視圖生成和從3D輸入進行紋理貼圖等任務中的優勢,其輸出具有3D一致性和照片級真實感。
視覺推理經常交織著中間視覺狀態,已成為該領域一個有前景的方向。一個直接的方法是透過統一模型在推理過程中直接生成圖像,但這樣計算成本高昂且在架構上並不簡單。近期的替代方案包括透過程式碼或工具呼叫進行代理推理,以及使用可學習的隱藏嵌入進行潛在推理。然而,代理方法會因外部執行而產生上下文切換延遲,而潛在方法則缺乏任務泛化能力,且難以與自回歸並行化訓練結合。為了結合兩者優勢並減輕其限制,我們提出ATLAS框架,其中單一離散的「詞」(稱為功能標記)同時扮演代理操作與潛在視覺推理單元的角色。每個功能標記都關聯一個內化的視覺操作,但無需視覺監督,同時仍是標記器詞彙中的標準標記,可透過下一個標記預測生成。這種設計避免了冗長的中間視覺內容生成,同時保留了與原始可擴展SFT和RL訓練的相容性,無需修改架構或方法。為進一步解決RL中功能標記的稀疏性問題,我們引入潛在錨點GRPO(LA-GRPO),透過靜態加權輔助目標將功能標記錨定,提供更強的梯度更新,從而穩定訓練。大量實驗與分析表明,ATLAS在具挑戰性的基準測試上達到優越性能,同時保持清晰的解釋性。我們希望ATLAS能提供一個新範式,啟發未來視覺推理研究。
多智能体路径规划(MAPF)是多机器人轨迹规划问题中广泛使用的抽象模型,其中多个同质智能体在共享环境中同时移动。尽管最优MAPF求解问题属于NP难问题,但可扩展且高效的求解器对物流、搜索救援等实际应用至关重要。为此,研究界提出了多种利用机器学习的去中心化次优MAPF求解方法。这些方法将MAPF(从单一智能体视角)建模为去中心化部分可观测马尔可夫决策过程(Dec-POMDP),每个时间步智能体需基于局部观测选择动作,并通常通过强化学习或模仿学习求解。我们遵循相同的方法,但额外引入了可学习的通信模块,旨在通过高效特征共享增强智能体间的协作。我们提出局部通信多智能体路径规划(LC-MAPF)——一种可泛化的预训练模型,通过相邻智能体间的多轮通信交换信息以提升协调能力。实验表明,在多样化的(未见过的)测试场景中,所提方法在多个指标上优于现有基于学习的MAPF求解器(包括模仿学习与强化学习方法)。值得注意的是,该通信机制并未牺牲LC-MAPF的可扩展性——这是基于通信的MAPF求解器常见的瓶颈问题。
许多现实世界中的编程挑战具有开放性,且目前尚无已知的最优解决方案。然而,近年来大语言模型(LLM)编码方面的进展主要集中在定义明确的任务上,例如功能实现、错误修复和竞赛编程。开放式编码仍然是LLM的薄弱环节,这主要是因为开放式训练问题既稀缺又构建成本高昂。我们的目标是大规模合成开放式编码问题,以训练更强大的LLM编码器。我们提出了FrontierSmith,这是一个自动化系统,能够从现有封闭式编码任务中迭代演化出开放式问题。从竞赛编程问题出发,FrontierSmith通过改变问题目标、限制输出和泛化输入,生成候选的开放式变体。然后,它使用定量化的思路分歧度量来筛选那些能够引发不同求解者采用真正多样化方法的问题。随后,智能体为幸存下来的候选问题生成测试用例和验证器。在两个开放式编码基准测试中,在我们合成的数据上训练,相较于基础模型获得了实质性提升:Qwen3.5-9B在FrontierCS上提高了+8.82分,在ALE-bench上提高了+306.36分(基于Elo评分的性能);Qwen3.5-27B则分别提高了+12.12分和+309.12分。合成的模型问题还使得智能体需要更多的交互轮次和令牌消耗,这与人工策划的问题相似,表明封闭式种子问题可以作为长周期编码数据的实用起点。
在極端序列長度下訓練因果變換器時,縮放點積注意力(SDPA)的二次方時間與記憶體複雜度會成為效能瓶頸。本研究提出「燈塔注意力」(Lighthouse Attention),這是一種僅用於訓練階段的對稱式分層選擇型注意力演算法,能包覆標準SDPA運算,並在訓練後期輕鬆移除。我們的分層選擇機制亦屬於無梯度方法,因此無需處理複雜且可能低效率的反向傳播內核。本研究的貢獻有三:(i) 亞二次方複雜度的分層預處理與後處理步驟,可對序列進行自適應壓縮與解壓縮;(ii) 對稱式壓縮策略,能在保留從左到右因果性的同時,同步池化查詢、鍵與值,大幅提升平行化效率;(iii) 二階段訓練方法:前期主要使用燈塔注意力進行預訓練,後期則透過短時間訓練恢復為完整注意力模型。我們進行初步小規模大型語言模型預訓練實驗,在所有其他設定匹配的條件下,與完整注意力訓練相比,本方法能實現更快的總訓練時間,並在恢復階段後達到更低的最終損失。完整程式碼請見:https://github.com/ighoshsubho/lighthouse-attention
機器人模仿數據常呈多模態:相似視覺語言觀測可能對應不同動作片段,原因在於人類示範者會因短期視野意圖、任務階段或近期情境而採取不同行為。現有的基於幀條件的VLA策略僅從當前觀測與指令推斷各片段,因此在部分可觀測情況下,跨相鄰重規劃步驟時可能重新採樣不同意圖,導致跨片段衝突與執行不穩定。我們提出IntentVLA——一種歷史條件驅動的VLA框架,將近期視覺觀測編碼為緊湊的短期視野意圖表示,並以此條件化片段生成。我們進一步引入AliasBench——基於RoboTwin2的12任務模糊感知基準測試,配備匹配的訓練數據與評估環境,以隔離短期視野觀測混淆。在AliasBench、SimplerEnv、LIBERO及RoboCasa上,IntentVLA提升了滾動執行穩定性,並優於強基線VLA方法。
强化学习已成为改进基于扩散的文本到图像模型的有力工具,但现有方法大多局限于单任务优化。将强化学习扩展到多任务具有挑战性:联合优化存在跨任务干扰和不平衡问题,而级联强化学习则繁琐且容易发生灾难性遗忘。我们提出DiffusionOPD,一种基于在线策略蒸馏(OPD)的扩散模型多任务训练新范式。DiffusionOPD首先独立训练任务特定的教师模型,然后沿着学生自身的轨迹将其能力蒸馏到统一的学生模型中。这实现了单任务探索与多任务集成的解耦,避免了从零开始联合求解所有任务的优化负担。理论上,我们将OPD框架从离散令牌扩展到连续状态马尔可夫过程,推导出闭式逐步KL目标函数,通过均值匹配统一了随机SDE和确定性ODE的精化。我们通过理论和实验证明,与传统PPO风格的策略梯度相比,这种解析梯度具有更低的方差和更好的泛化性。大量实验表明,DiffusionOPD在训练效率和最终性能上持续超越多奖励RL和级联RL基线,并在所有评估基准上取得了最先进的结果。
高品質三維場景重建近期已朝向可泛化的前饋式架構發展,使得複雜場景能夠在一次前向傳遞中生成。然而,儘管這類模型在靜態場景感知方面表現強勁,其在回應動態人類指令時仍有限制,因而限制了互動式應用的可能性。現有編輯方法通常依賴於二維抬升策略,即先獨立編輯各個視角,再將其抬升回三維空間。這種間接流程常導致紋理模糊與幾何不一致,因為二維編輯器缺乏跨視角保持結構所需的空間感知能力。為解決這些限制,我們提出VGGT-Edit,這是一個基於文字條件的前饋式原生三維場景編輯框架。VGGT-Edit引入深度同步文本注入,將語義引導與骨幹模型的空間姿態對齊,確保穩定的指令賦予。該語義信號隨後由殘差變換頭處理,直接預測三維幾何位移以變形場景,同時保持背景穩定性。為確保高保真結果,我們以多項目標函數監督該框架,強制執行幾何準確性與跨視角一致性。我們亦建構DeltaScene資料集,這是一個透過自動化流程生成的大規模資料集,並採用三維一致性過濾以確保真實標註品質。實驗顯示,VGGT-Edit大幅優於二維抬升基準方法,產生更清晰的物件細節、更強的多視角一致性,且推理速度近乎即時。
代理建模旨在將大型語言模型轉化為能夠透過規劃、推理、工具使用以及與環境進行多輪互動來解決複雜任務的自主代理。儘管投入了大量資源,開源研究仍受制於基礎設施與訓練流程方面的不足。許多高效能系統依賴專有程式碼庫、模型或服務,而大多數開源框架則側重於編排與評估,而非可規模化的代理訓練。我們提出 Orchard,一個用於可規模化代理建模的開源框架。其核心為 Orchard Env,這是一個輕量級環境服務,提供可重複使用的基本元件,以管理跨任務領域、代理框架與流程階段的沙箱生命週期。在 Orchard Env 之上,我們建構了三種代理建模方案。Orchard-SWE 專注於程式碼撰寫代理。我們從 MiniMax-M2.5 與 Qwen3.5-397B 中提煉出 107K 條軌跡,引入信用分配監督式微調以從未解決軌跡的有效片段中學習,並在強化學習中採用平衡自適應展開。從 Qwen3-30B-A3B-Thinking 出發,Orchard-SWE 在監督式微調後於 SWE-bench Verified 達到 64.3%,在監督式微調加強化學習後達到 67.5%,在同等規模的開源模型中創下新的最佳成績。Orchard-GUI 僅使用 0.4K 條提煉軌跡與 2.2K 個開放式任務,訓練出一個 4B 參數的視覺語言電腦操作代理。它在 WebVoyager、Online-Mind2Web 與 DeepShop 上分別達到 74.1%、67.0% 與 64.0% 的成功率,成為最強的開源模型,同時能與專有系統競爭。Orchard-Claw 則針對個人助理代理。僅使用 0.2K 個合成任務進行訓練,它在 Claw-Eval 上達到 59.6% 的 pass@3,而與更強的 ZeroClaw 框架搭配時更達到 73.9%。這些結果共同顯示,一個輕量級、開放且與框架無關的環境層,能實現跨領域的可重複使用代理資料、訓練方案與評估。
任何新媒體一旦出現,其用途便不僅止於傳遞顯性內容。它所承載的資訊通常運作於兩個層次:一是直接呈現的內容,二是其下的潛臺詞——創作者試圖透過媒體傳達的隱含意念與意圖。同樣地,自影像技術普及以來,影片不僅作為記錄與傳遞視覺資訊的強大工具,更成為承載情感、態度及社會意義的載體,而這些往往難以明確言說。因此,許多影片的真正意義並非僅存於畫面上呈現的內容,而常蘊含於脈絡、表達風格以及觀者的社會經驗之中。此類影片潛臺詞的部分形式帶有幽默色彩,也有些則蘊含諷刺、嘲弄或批判。這些隱含意義在不同文化背景與社會群體間,更可能產生迥異的詮釋。然而,現有大多數影片理解模型仍主要專注於字面視覺理解,例如辨識物件、動作或時間關係,缺乏系統化理解影片中隱喻、諷刺及社會含義的能力。為填補此一缺口,我們提出 ViMU,這是首個系統性評估前沿模型理解影片潛臺詞能力的基準。ViMU 旨在評測影片理解模型是否能超越字面感知,推斷隱含意義,同時將其詮釋奠基於多模態證據,並回答開放式與選擇題。重要的是,所有問題均設計為不提供提示,確保模型在作答前無法獲知關鍵證據。
自回歸(AR)視頻擴散模型採用串流生成框架,可實現長時程視頻生成並具備即時回應能力,如Self Forcing訓練範式所示。然而,現有的自回歸視頻擴散模型仍面臨顯著的注意力複雜度問題,且因歷史幀間存在冗餘的鍵值(KV)緩存導致嚴重的記憶體開銷,從而限制了可擴展性。本文針對此挑戰,將KV緩存壓縮引入自回歸視頻擴散中。我們觀察到,主流自回歸擴散模型中的注意力頭在樣本與去噪步驟間呈現出顯著不同的注意力模式與功能角色,且這些特徵保持穩定。基於對注意力頭功能特化性的實證研究,我們將其分為兩類:靜態頭,專注於自回歸區塊間的轉換與幀內保真度;動態頭,負責幀間運動與一致性。隨後提出Forcing-KV,一種混合KV緩存壓縮策略,對靜態頭採用結構化靜態剪枝,對動態頭則基於片段相似度進行動態剪枝。在維持輸出品質的前提下,本方法在單張NVIDIA H200 GPU上可實現超過每秒29幀的生成速度,並減少30%的緩存記憶體,在480P解析度下為LongLive與Self Forcing分別帶來1.35倍與1.50倍的加速,並進一步擴展至1080P解析度下的2.82倍加速。程式碼與示範影片已提供於 https://zju-jiyicheng.github.io/Forcing-KV-Page。
最近在图像生成领域的进展使得生成高质量图像变得容易。然而,这些输出本质上呈扁平化状态,将前景元素、背景和文字混杂在固定的画布中。因此,灵活的后生成编辑仍具挑战性,暴露出通往实际可用性的明显「最后一哩」差距。现有方法要么依赖稀缺的专有分层资产,要么从有限的结构性先验知识中构建部分合成数据。然而,这两种策略在可扩展性上都面临根本性挑战。本研究探讨纯粹合成分层数据是否能改善图形设计分解。我们假设,在图形设计中,有效的分解不需要像自然图像合成那样精确建模层间依赖关系,因为设计元素通常被有意安排为模块化且语义上可分离的组件。具体而言,我们基于当前最先进的图层分解框架 CLD 基线进行一项以数据为中心的研究。在此基线上,我们构建自己的合成数据集 SynLayers,利用视觉语言模型生成文本监督信息,并使用 VLM 预测的边界框自动生成推理输入。我们的研究揭示三项关键发现:(1)即使仅使用纯合成数据训练,也能超越不可扩展的替代方案(如广泛使用的 PrismLayersPro 数据集),证明其作为可扩展且有效的替代方案的可行性;(2)性能随训练数据规模增加而持续提升,但在约 5 万个样本时增益开始趋于饱和;(3)合成数据能实现对图层数量分布的均衡控制,避免真实数据集中常见的图层数量失衡问题。我们希望这项以数据为中心的研究能够鼓励更广泛地采用合成数据,作为分层设计编辑系统的实用基础。
因果自回归视频扩散模型通過從先前生成的內容外推未來片段,支援即時串流生成。從高保真雙向教師模型中蒸餾此類生成器,可得到具競爭力的少步模型,但訓練過程中遇到的歷史分佈與推理時產生的分佈之間存在持續差距,限制了長時段內的生成品質。我們提出即時自回歸視頻外推網絡(RAVEN),這是一種訓練時測試框架,將每次自我展開重組為由乾淨歷史端點與帶噪去噪狀態交錯組成的序列。此表述使訓練注意力與推論時的外推過程對齊,並允許後續片段損失監督未來預測所依賴的歷史表徵。我們進一步提出一致性模型群體相對策略優化(CM-GRPO),將一致性取樣步驟重新表述為條件高斯轉移,並直接對此核應用線上強化學習(RL),避免了先前流模型RL公式中採用的歐拉-丸山輔助過程。實驗表明,RAVEN在品質、語義及動態程度評估上超越近期因果視頻蒸餾基線,且結合RAVEN使用時,CM-GRPO能進一步提升效能。
多模态大型实验室模型(MLLMs)在主流透视图像范式下仍难以实现空间理解,该范式继承了类似人类感知的狭窄视野。对于导航、机器人搜索和3D场景理解,360度全景感测通过一次性捕获整个周围环境,提供了一种超感测形式。然而,现有的MLLM流程通常将全景图分解为多个透视视图,使得等距柱状投影(ERP)的球面结构在很大程度上处于隐含状态。在本文中,我们研究全景原生理解,这要求MLLM将ERP全景图作为一个连续的、以观察者为中心的空间进行推理。为此,我们首先定义了全景原生理解所需的关键能力,包括语义锚定、球面定位、参考系变换以及深度感知的三维空间推理。我们随后构建了一个大规模元数据构建管道,将混合来源的ERP全景图转换为几何感知、语言基础和深度感知的监督信号,并将这些信号实例化为与能力对齐的指令微调数据。在模型方面,我们引入了带有球面空间交叉注意力的PanoWorld,将球面几何注入视觉流中。我们进一步构建了PanoSpace-Bench,这是一个用于评估ERP原生空间推理的诊断性基准测试。实验表明,PanoWorld在PanoSpace-Bench、H* Bench和R2R-CE Val-Unseen基准测试上显著优于专有和开源基线。这些结果表明,稳健的全景推理需要专用的全景原生监督和几何感知的模型适配。所有源代码和提出的数据将公开发布。
记忆系统对于角色扮演代理(RPA)维持长期一致性至关重要。然而,现有的RPA记忆方法(如特征刻画)主要依赖循环摘要,其压缩过程不可避免地丢弃了重要细节。为解决此问题,我们提出一种基于搜索的记忆框架——BOOKMARKS,该框架主动为当前任务(如角色扮演)初始化、维护并更新任务相关的书签片段。书签被结构化为故事线中特定时间点上某个问题的答案。针对每个当前任务,BOOKMARKS会选择可复用的现有书签,或通过有用问题初始化新书签(在故事起始处)。随后将这些书签同步至当前故事节点,并相应更新其答案,从而使其在未来的定位轮次中高效复用。与循环摘要相比,BOOKMARKS具备以下优势:(1)主动定位以捕捉任务特定细节;(2)被动更新以避免不必要的计算。在实现层面,BOOKMARKS支持概念搜索、行为搜索和状态搜索,每种搜索均由高效的同步方法驱动。基于来自16个作品中的85个角色,BOOKMARKS显著优于现有RPA记忆基线方法,验证了基于搜索的记忆框架对RPA的有效性。
我們追求的自我改進語言模型願景,並非僅讓模型生成問題或軌跡以供模仿,而是讓它建構訓練自身的環境。在零數據推理強化學習中,這將自我改進從數據生成循環重新定義為環境建構循環,過程中每個產物都是可重複執行的物件,能取樣實例、計算參考答案,並評分回應。此願景能否持續改進,關鍵在於一項特性:環境必須展現穩定的「求解-驗證不對稱性」,亦即模型必須能一次性地撰寫一個「預言機」,但無法在自然語言中可靠地對新實例執行。這種不對稱性有兩種互補形式。有些任務在演算法上難以推理,但作為程式碼卻微不足道:例如動態規劃或圖形遍歷,只要編譯一次,就能無限產生經過校準的實例。其他任務則本質上難以求解但易於驗證,像是內建的子集和問題或約束滿足問題。兩者都在提出與求解之間創造了持久的差距,而策略無法透過欺騙驗證器來縮小此差距;正是這個差距,讓獎勵在學習者進步時持續保持資訊量。我們在 EvoEnv 中實現了此觀點,這是一種單一策略的生成器求解方法,從十個種子合成 Python 環境,並在分階段驗證、語義自我審查、求解器相對難度校準及新穎性檢查後才予以採納。最有力的證據來自於已經很強大的模型:在 Qwen3-4B-Thinking 上,固定公開數據的 RLVR 與固定手工環境的 RLVR 都使平均表現下降,而 EvoEnv 則將其從 72.4 提升至 74.8,相對增益 3.3%。我們認為,穩定的自我改進並非仰賴產生更多合成數據,而是取決於模型學會建構一個難度在結構上始終超越自身能力的世界。
生成逼真的人体运动是视频生成领域核心但尚未解决的挑战。尽管基于强化学习的后训练技术近期提升了视频整体质量,但将其扩展至人体运动仍受限于奖励信号——现有方法无法可靠评估运动真实性。当前视频奖励主要依赖二维感知信号,未能显式建模关节化人体运动所需的三维体态、接触与动力学特征,常对漂浮身体或物理不合理动作赋予高分。为此,本文提出PhyMotion——一种结构化细粒度运动奖励机制,通过将恢复的三维人体轨迹定锚于物理模拟器,沿物理可行性多维度评估运动质量。具体而言,我们从生成视频中恢复SMPL人体网格,将其重定向至MuJoCo物理模拟器中的类人模型,沿三个维度评估运动:运动学合理性、接触与平衡一致性、动态可行性。每个组件提供与运动质量特定方面关联的连续可解释信号,使得奖励能够捕捉运动在物理层面正确或违规的具体表现。实验表明,PhyMotion与人类判断的相关性优于现有奖励方案。这些优势延伸至基于强化学习的后训练环节:相较于优化现有奖励,优化PhyMotion能带来更大且更一致的提升,在自回归与双向视频生成器上均显著改善运动真实性(自动指标与盲人机评估中Elo评分提升+68)。消融实验显示,三个维度提供互补监督信号,而该奖励仅需适度训练开销即可保持视频整体生成质量。
在线策略自蒸馏已成为大型语言模型(LLM)推理任务中的一种强力方法,其核心在于特权教师模型在参考解的条件下监督学生自身生成的轨迹。然而,几乎所有此类方法共有的一个设计选择却鲜少被质疑:教师始终能观察到完整的参考推理过程。我们认为,这种默认设置本身就是问题的一部分,并识别出一种教师侧的曝光不匹配现象:当教师所依据的推理过程远超学生当前能力时,其生成的令牌目标会因过强而使学生难以吸收。通过一次受控的固定曝光量扫描实验,这一现象在两个维度上得到具体验证:1)完全曝光并非始终是最优选择;2)随着教师看到的特权推理内容增多,学生-教师之间的不匹配程度单调递增。这促使我们将教师曝光量从固定的超参数重新定位为一种可学习的训练时控制变量。为此,我们提出了自适应教师曝光自蒸馏方法(ATESD)。ATESD 利用一个轻量级的 Beta 策略控制器来建模揭示率,该控制器以紧凑的训练状态统计量为输入,并在一个较短的学生更新时间窗口内采用单次采样曝光。为使该曝光控制器可学习,我们采用一种折扣学习进度奖励对其进行优化:该奖励根据每次决策对学生未来改进的影响(而非其造成的即时损失变化)进行评分,从而解决了在线策略蒸馏中存在的延迟信用分配问题。在 AIME 24、AIME 25 和 HMMT 25 基准上,针对 Qwen3-{1.7B、4B、8B} 模型的实验表明,ATESD 持续优于竞争性的自蒸馏方法和强化学习基线,相较于 OPSD,其 Average@12 得分分别提升了 +0.95、+2.05 和 +2.33 分,从而将自适应教师曝光确立为推理自蒸馏领域中一个有效的新维度。
使用多模态基础模型分析表格图像,在消费和企业场景中是一项高价值但具挑战性的应用。尽管其重要性显著,但当前的评估主要依赖于结构化文本表格或干净渲染图像,忽略了真实场景中表格图像的视觉复杂性。这些图像呈现多样化布局和跨领域特征,需要复杂的结构感知与数值推理能力。为弥补这一空白,我们提出了WildTableBench——首个针对真实场景中自然出现的表格图像的问答基准。该基准包含从跨领域在线论坛和网站收集的402张高信息密度表格图像,以及928个经人工标注与验证的问题,涵盖五个大类的17个子类型。我们在该基准上评估了21个前沿专有和开源多模态基础模型。仅有一个模型准确率超过50%,其余模型准确率范围在4.1%至49.9%之间。我们进一步开展诊断分析,以刻画模型失败模式,揭示其在结构感知和推理方面持续存在的弱点。这些结果与分析为当前模型能力提供了有价值的见解,并将WildTableBench确立为评估表格图像理解能力的重要诊断基准。
文字影像超解析度(Text-SR)不僅需要視覺上合理的細節合成:筆畫拓撲的細微錯誤可能改變字符身分並破壞可讀性。現有方法透過更強的辨識基礎或生成先驗來提升文字保真度,但在嚴重退化情況下仍面臨兩項未解決的挑戰:從低品質輸入提取的文字條件本身可能不可靠,且合理的全局先驗無法完全決定細粒度的筆畫邊界。我們提出PRISM,這是一個基於單步擴散的文字超解析度框架,透過流匹配先驗修正(FMPR)與結構引導不確定性感知殘差編碼器(SURE)來應對上述挑戰。FMPR從配對的低/高品質潛變量中建構具有特權的訓練階段先驗,並學習將退化嵌入向量朝向此還原導向先驗空間的流匹配,從而產生更準確且可靠的全局文字引導。SURE進一步預測不確定性感知的結構殘差,以選擇性地吸收可靠的局部邊界證據,同時抑制模糊的筆畫線索。透過這些元件,可在單一擴散還原過程中實現明確的全局先驗修正與局部結構精煉。在合成與真實世界基準上的實驗顯示,PRISM以毫秒級推論速度達到了最先進的表現。我們的資料集與程式碼將於 https://github.com/faithxuz/PRISM 公開。
本文從函數空間的視角,探討幾何網格上物理場方程的解算子。我們揭示出,霍奇正交性透過將不可學習的拓撲自由度從可學習的幾何動力學中分離,從根本上解決了譜干擾問題,從而實現局限於結構保持子空間的加性近似。基於霍奇理論與算子分裂,我們推導出一個基於原則的算子層級分解。其成果是一種混合歐拉-拉格朗日架構,內含我們稱之為霍奇譜對偶(HSD)的代數層級歸納偏置。在我們的框架中,我們利用離散微分形式捕捉拓撲主導的分量,並透過一個正交的輔助環境空間來表示複雜的局部動力學。我們的方法在幾何圖形上實現了卓越的準確性與效率,同時對物理不變量具有更高的忠實度。我們的程式碼可於 https://github.com/ContinuumCoder/Hodge-Spectral-Duality 取得。
潛在流匹配在影像生成中通常沿線性路徑將高斯噪聲轉換為變分自編碼器的潛在向量。然而,兩個端點均集中於薄球殼中,即便透過預處理對齊其半徑,歐幾里得弦仍會偏離這些球殼。藉由將每個潛在標記分解為徑向與角分量,我們透過分量交換探測實驗顯示,解碼後的感知與語義內容主要由方向承載,而半徑貢獻甚微。因此,我們將資料潛在向量投影至固定標記半徑,使用高斯噪聲的徑向投影作為球形先驗,凍結編碼器並微化解碼器,並以球面線性內插取代線性內插。由此產生的測地線路徑在每個時間步長均維持在球面上,且其速度目標依結構設計純為角向。在匹配訓練條件下,該方法在不同影像標記器中一致改善了類別條件式ImageNet-256的FID值,不變更擴散架構,亦無需輔助編碼器或表徵對齊目標。
評估指令引導的圖像編輯需要能反映細微人類偏好的獎勵機制,然而現行獎勵模型通常依賴大規模偏好標註及額外模型訓練。這造成了數據效率落差:人類往往能僅從少數範例推斷出目標評估標準,而模型卻需藉由數十萬筆比較數據進行訓練。我們提出RewardHarness——一種自我演化代理人獎勵框架,將獎勵建模重新定義為情境演化而非權重優化。此框架不從大規模標註中學習,而是透過僅100個偏好示範案例,迭代演化工具與技能函式庫,進而與人類偏好對齊。給定原始圖像、候選編輯圖像及編輯指令後,由協調器從維護的函式庫中選取最相關的工具與技能子集,再由凍結的子代理人運用這些元素構建推理鏈條,產出偏好判斷。透過比對預測判斷與真實偏好,並分析推理過程中的成功與失敗案例,協調器能自動優化其工具與技能函式庫,無需額外人工標註。僅使用EditReward偏好數據中0.05%的資料,RewardHarness在圖像編輯評估基準上達成47.4%的平均準確率,超越GPT-5達5.3個百分點。當作為GRPO微調的獎勵訊號時,經強化學習調整的模型在ImgEdit-Bench上獲得3.52分。專案頁面:https://rewardharness.com。
AI智能體正日益被部署於動態、開放式的環境中,這要求它們能隨著新資訊的到來而適應。為了在實際應用場景下有效衡量此能力,我們提出建構植基於現實的模擬,即按事件發生的順序重現真實世界事件。我們建立了FutureSim,在此模擬中,AI智能體在與世界時序重播(即在新聞文章陸續出現、問題於模擬期間逐步解答的過程中)互動的同時,預測超出其知識截止日期後的世界事件。我們在原生測試框架中評估了前沿AI智能體,測試它們在2026年1月至3月這三個月期間預測世界事件的能力。FutureSim揭示了這些AI智能體能力的明顯差異,最佳模型的準確率僅為25%,而許多模型的布賴爾技巧分數甚至比不作任何預測還差。透過仔細的消融實驗,我們展示了FutureSim如何提供一個真實的環境來研究新興研究方向,例如長期測試時適應、搜索、記憶以及不確定性推理。總體而言,我們希望我們的基準設計能為衡量AI在真實世界中跨越長時間範疇的開放式適應能力進展鋪平道路。
從單一衛星影像生成街景等級的3D場景是一項關鍵但極具挑戰性的任務。現有方法呈現出明顯的權衡取捨:幾何色彩化模型能達到高幾何保真度,但通常僅專注於建築物且缺乏語義多樣性。相比之下,基於代理的模型採用前饋式影像轉3D架構,透過聯合學習幾何與紋理來生成整體場景,此過程能產生豐富的內容,但幾何結構粗糙且不穩定。我們將這些幾何缺陷歸因於衛星到街景資料中極端的視角差距以及稀疏且不一致的監督訊號。為了解決這些根本性挑戰,我們提出了Sat3DGen,該方法體現了幾何優先的策略。此策略透過整合新穎的幾何約束與透視視角訓練策略,顯著強化前饋式架構,並直接對抗幾何誤差的主要來源。這種以幾何為中心的策略在3D精度與逼真度方面實現了大幅躍進。為了驗證,我們首先透過將VIGOR-OOD測試集與高解析度DSM資料配對,建立了一個新的基準。在此基準上,我們的方法將幾何RMSE從6.76米降至5.20米。關鍵的是,這種幾何上的躍進也提升了逼真度,相較於領先方法Sat2Density++,儘管未使用任何額外設計的影像品質模組,仍將Fréchet Inception Distance(FID)從sim40降至19。我們透過多樣化的下游應用展示了高品質3D資產的多功能性,包括語義地圖轉3D合成、多視角影片生成、大規模網格化以及無監督的單張影像數值表面模型(DSM)估計。程式碼已於https://github.com/qianmingduowan/Sat3DGen公開。
全模態語言模型旨在同時理解音訊、視覺輸入及語言,但若僅憑視覺證據即可回答問題,基準標竿的進步可能被高估。我們探討當前全模態基準標竿能否區分視覺捷徑與真正的音訊-視覺-語言證據整合,以及在視覺去偏誤的評估設定下,後訓練的行為表現如何。我們對九個全模態基準標竿進行純視覺探測,移除僅依視覺即可解答的查詢,並在篩選條件不明確或可能導致比較不穩定時保留完整子集。由此產出OmniClean,一個經清理的評估視角,從16,968筆審查查詢中保留8,551筆。在OmniClean上,我們評估基於Qwen2.5-Omni-3B的三階段後訓練配方OmniBoost:混合雙模態SFT、混合模態RLVR,以及對自蒸餾資料進行SFT。平衡的雙模態SFT帶來有限且不均勻的進步,RLVR提供首次廣泛提升,而自蒸餾重塑了基準標竿的輪廓。在對自蒸餾資料進行SFT後,3B模型達到的表現可與Qwen3-Omni-30B-A3B-Instruct相匹敵,且在總體上略勝一籌,且無需使用更強的全模態教師模型。這些結果顯示,當評估控制視覺資訊洩漏時,全模態的進展更易於解讀,且小型全模態模型可從階段式後訓練搭配自蒸餾全模態查詢監督中受益。專案頁面:https://cheliu-computation.github.io/omni/
我們研究時變獎勵函數的馬可夫決策過程(MDP)中子策略的時間序列組合。我們提出通用迪傑斯特拉搜索(GDS),並證明全局最優的目標達成策略可透過中間最優子策略的時間組合來還原。受GDS中「搜索、選擇、更新」原則的啟發,我們提出動態潛在路由(DLR),這是一種語言模型的後訓練方法,透過單一訓練階段中的動態搜索,共同學習離散潛在編碼、路由策略與模型參數。在低資料微調場景中,DLR在四個資料集與六個模型上匹配或超越監督式微調,平均提升+6.6個百分點,而先前的離散潛在基線方法則 consistently 表現不及SFT。機制分析與目標式程式碼消融實驗顯示,DLR學習到具有明確因果角色的結構化路由行為。
我們提出了一個新的計算框架,用於偵測並結構化操縱性政治敘事。由於政治討論轉向社群媒體,此任務變得更加重要。其中一個主要挑戰在於區分操縱性政治敘事與合法批評。某些貼文也可能在操縱性脈絡下重新詮釋實際事件。 為達到良好的分群結果,我們事先使用一份詳細的少量樣本提示來過濾操縱性貼文,該提示結合了有記錄的競選敘事與合法批評,以區分兩者。此提示使推理模型能夠標註類別,僅保留操縱性敘事貼文供後續處理。 其餘貼文隨後進行嵌入,並使用UMAP進行降維,接著應用HDBSCAN以揭示敘事群組。此無監督方法的一項關鍵優勢在於:它不依賴預先定義的目標類別清單,因此能夠發現新的敘事叢集。 最後,運用推理模型來揭露每個叢集背後的敘事。此方法應用於超過120萬則社群媒體貼文,透過整合基於提示的過濾與無監督聚類,成功識別出41個截然不同的操縱性敘事叢集。
選舉是國家持續發展中的關鍵里程碑。為更深入理解從左翼到右翼各類運動的政治論述,我們提出一個以Transformer為基礎的模型,能將文本的政治傾向投射至連續的左右政治光譜上,並以介於-1與1之間的標準化標量d表示。此方法使分析者可聚焦於政治光譜中的特定區段——例如保守派——同時排除自由派與極右翼運動。唯有透過多類別分類器方能達成此任務,前提是目標傾向需被涵蓋於其預設類別之一。為從13個候選Transformer中選出最適合此任務的基礎模型,我們建構了四組獨特語料庫:其一包含德國聯邦議院附註的議事記錄;其二基於官方線上決策工具Wahl-O-Mat;其三收錄33家標明政治傾向報紙之文章;其四則納入第20與21屆德國聯邦議院597位議員的535,200則推文。為避免過度擬合,我們分別以兩組語料庫進行訓練、兩組進行測試。在領域內表現上,DeBERTa-large取得最高F1分數0.844,而在X(Twitter)的領域外測試中亦達ACC=0.864。至於報紙領域外測試,Gemma2-2B則表現最佳(MAE=0.172)。本研究證明Transformer模型能達到與民意調查相當之德國新聞政治框架辨識水準。我們的研究發現指出:模型架構與領域特定訓練資料的可得性,在評估政治偏誤時可能與模型規模同等重要。我們亦探討方法論限制,並提出強化偏誤測量穩健性的方向。
基於可驗證獎勵的強化學習(RLVR)已在開發大型語言模型(LLMs)方面取得重大成功,透過思維鏈展開應用於數學解題與程式編寫等多項任務。然而,RLVR在處理難以生成正確展開的困難問題時,面臨樣本效率不足的挑戰。先前研究提出透過示範引導式RLVR來解決此問題,即在強化學習失效時進行監督式微調(SFT);然而,SFT通常需要大量數據,取得成本高昂。本文提出FEST(少量示範引導式RLVR演算法),僅需從SFT資料集中隨機選取128筆示範資料即可獲得顯著成效。我們發現三個關鍵要素決定其成功:監督訊號、同策略訊號,以及對少量示範SFT資料集採用衰減權重,以避免多輪訓練造成的過度擬合。在多項基準測試中,FEST以數量級更少的SFT資料超越基線方法,甚至在使用完整資料集時達到與之相當的表現。
生成式视频模型作為隱式世界模型的研究日益增多,然而評估其能否產生物理上合理的3D結構與運動仍是一大挑戰。現有大多數影片評估流程高度依賴人工判斷或學習型評分器,這些方式可能帶有主觀性,且對幾何錯誤的診斷能力不足。我們提出PDI-Bench(透視失真指數),這是一個用於審核生成影片幾何一致性的量化框架。針對給定的生成片段,我們透過分割與點追蹤(如SAM 2、MegaSaM和CoTracker3)獲取物體中心觀察,經由單眼重建將其提升至3D世界空間座標,並計算一組射影幾何殘差,以捕捉三個失效維度:尺度-深度對齊、3D運動一致性,以及3D結構剛性。為支援系統性評估,我們建構了PDI-Dataset,涵蓋多種旨在挑戰這些幾何限制的場景。在最先進的影片生成器中,PDI揭示了常見感知指標無法捕捉的、具幾何特異性的失效模式,並為朝向物理基礎影片生成與物理世界模型的進展提供了診斷信號。我們的程式碼與資料集可於 https://pdi-bench.github.io/ 取得。
工業LLM代理系統通常將規劃與執行分離,然而LLM規劃器經常產生結構無效或過於冗長的工作流程,導致脆弱的失敗與可避免的工具及API成本。我們提出SPIN,這是一個規劃封裝器,結合了經過驗證的有向無環圖(DAG)規劃與基於前綴的執行控制。SPIN透過`_validate_plan_text`與修復提示強制執行嚴格的DAG約束,在下游執行前產出可執行的計劃,然後逐步評估DAG前綴,在當前前綴足以回答查詢時即停止執行。在AssetOpsBench的261個情境中,SPIN將執行的任務從1061個減少至623個,並將完成率(Accomplished)從0.638提升至0.706,同時每次運行的工具呼叫從11.81次降低至6.82次。在MCP Bench上,相同的封裝器對GPT OSS1與Llama 4 Maverick在規劃、基礎化與依賴相關的分數上均有改善。
混合專家模型(MoE)架構透過僅對每個詞元啟動一部分專家,來提升大型語言模型的效率。然而,標準 MoE 採用固定的 Top-K 路由策略,導致冗餘計算與次優的推理延遲。現有的加速方法若不是需要昂貴的重新訓練並更改架構,就是因訓練與推理不匹配而在高稀疏度下效能嚴重下降。為解決這些限制,我們提出 BEAM(二元專家啟動遮罩),一種透過可訓練二元遮罩學習詞元自適應專家選取的新方法。利用直通估計器與輔助正則化損失,BEAM 能在端到端訓練中誘發動態專家稀疏性,同時維持模型能力。我們進一步為 BEAM 實作高效的自訂 CUDA 核心,確保與 vLLM 推理框架無縫整合。實驗顯示,BEAM 保留原始模型超過 98% 的效能,同時減少 MoE 層高達 85% 的 FLOPs,實現最高 2.5 倍解碼加速與 1.4 倍吞吐量提升,證明其作為高效 MoE 推理之實用即插即用方案的有效性。
隨著AI代理從對話介面轉向可讀取私人資料、呼叫工具並執行多步驟工作流程的系統,護欄成為了防止具體部署危害的最後一道防線。在這些情境中,護欄失效不再僅僅是回答品質錯誤:它們可能洩漏機密、授權不安全操作,或阻礙合法工作。最難處理的失效往往是情境相關的:某項行動是否可接受取決於當地隱私規範、組織政策以及使用者預期,而這些因素在部署前難以明確規範。這導致了一個實際落差:護欄必須適應自身的運作環境,然而部署回饋通常僅限於稀疏且帶雜訊的使用者回報失效,且重複微調往往不可行。為解決此落差,我們提出LiSA(終身安全適應),這是一個保守的政策歸納框架,透過結構化記憶來改進固定的基礎護欄。LiSA將偶發失效轉化為可重複使用的政策抽象,使稀疏回報能泛化至個別案例之外;加入衝突感知的局部規則以防止混合標籤情境中的過度泛化;並透過後驗下界應用證據感知的信心門控,使記憶重複使用能隨累積證據而非僅憑經驗準確率擴展。在PrivacyLens+、ConFaide+與AgentHarm上,LiSA在稀疏回饋下持續優於強大的基於記憶的基準方法,即使在20%標籤翻轉率的雜訊使用者回饋下仍保持穩健,並將延遲-效能前沿推至骨幹模型規模化之上。最終,LiSA提供了一條務實的路徑,以保護AI代理免受現實世界邊際風險中不可預測的長尾問題之害。
尽管发展迅速,当前的文本到图像(T2I)模型仍主要依赖单步生成范式,在处理复杂语义时表现不佳,且参数规模扩展的收益呈递减趋势。近年来,多步推理方法虽展现出潜力,但受限于缺乏验证的无依据规划幻觉、单一的事后反思机制、长上下文优化不稳定以及高昂的推理延迟。为突破这些瓶颈,我们提出闭环视觉推理(CLVR)框架,这是一个深度融合视觉语言逻辑规划与像素级扩散生成的综合系统。CLVR引入带步骤级视觉验证的自动化数据引擎,用于合成可靠的推理轨迹,并提出代理提示强化学习(PPRL),通过将交错的多模态历史蒸馏为显式奖励信号以实现精准因果归因,从而解决长上下文优化不稳定问题。此外,为缓解迭代去噪带来的严重延迟瓶颈,我们提出Δ空间权重融合(DSWM)这一具有理论依据的方法,将对齐权重与现成的蒸馏先验融合,将每步推理成本降低至仅需4次神经函数评估(NFEs),且无需昂贵的重新蒸馏。大量实验表明,CLVR在多个基准测试中超越现有开源基线,并接近专有商业模型的性能,为复杂视觉生成解锁了通用的测试时扩展能力。
對話式詐騙,例如愛情詐騙與投資詐騙,正逐漸成為網路詐騙的主要形式。不同於假中獎或未繳通行費訊息等一次性詐騙誘餌,這類詐騙透過多輪對話展開,詐騙者利用不斷演進的心理操弄手法,逐步控制受害者。然而,現有研究主要聚焦於靜態詐騙偵測或合成詐騙案例,對於語言模型是否能理解真實世界詐騙隨時間推移的演進過程,仍屬未知。我們提出 PreScam,一個用於模擬詐騙從早期對話開始演進的基準測試。PreScam 基於使用者提交的詐騙回報建構,從 177,989 筆原始回報中篩選並整理出 11,573 個對話式詐騙案例,涵蓋 20 種詐騙類別。每個案例根據所提出的詐騙殺傷鏈所定義的詐騙生命週期進行階層式架構,並進一步在對話輪次層級上,對詐騙者的心理行動與受害者回應進行標註。我們在兩項任務上進行模型基準測試:即時終止預測(評估對話是否接近終止階段)與詐騙者行動預測(預測詐騙者接下來將採取的動作)。結果顯示,表面流暢度與進程建模之間存在明顯落差:在即時終止預測方面,監督式編碼器的表現遠優於零樣本大型語言模型;而即使是表現優異的大型語言模型,在下一行動預測上的成效也僅屬中等。綜合來看,這些結果顯示現有模型雖能捕捉部分詐騙相關線索,但在追蹤風險如何逐步升高、以及操弄手法如何在多輪對話中逐漸展開方面,仍有困難。
時間序列預測不僅是數值外推,通常還需要結合新聞或事件等非結構化上下文資訊進行推理。雖然專門的時序基礎模型(TSFMs)擅長基於數值模式進行預測,但它們對現實世界的文字訊號缺乏感知。相反地,雖然大型語言模型(LLMs)正逐漸成為零樣本預測器,但其表現仍因領域和上下文基礎程度不同而參差不齊。為了解決這個差距,我們提出了Nexus——一個多智能體預測框架。該框架將預測任務分解為專門化的階段:分別處理宏觀與微觀層面的時間波動、在可用時整合上下文資訊,最終綜合生成預測結果。這種分解使Nexus能從季節性訊號適應到波動劇烈、由事件驅動的資訊,而不需依賴外部統計錨點或單一提示。我們證明,當前世代的LLM擁有比先前認知更強大的內在預測能力,而其關鍵取決於數值與上下文推理如何組織。在嚴格晚於LLM知識截止日期的數據(涵蓋Zillow房地產指標與波動劇烈的股票市場權益)上的評估顯示,Nexus始終能達到或超越最先進的TSFM與強大的LLM基準。除了數值準確性外,Nexus還能生成高品質的推理軌跡,明確揭示每次預測背後的根本驅動力。我們的結果確立:現實世界的預測本質上是一個遠超序列建模範疇的能動推理問題。
我們介紹了CurveBench,這是一項基於視覺輸入的層次拓撲推理基準測試。CurveBench包含756張成對不相交若爾當曲線的圖像,涵蓋簡單、多邊形、地形啟發、迷宮式及密集計數等配置。每張圖像都附有表示平面區域間包含關係的有根樹標註。我們將任務定義為結構化預測:給定一張圖像,模型必須還原由曲線導出的完整有根包含樹。儘管該任務在視覺上看似簡單,但表現最佳的模型Gemini 3.1 Pro在CurveBench-Easy上僅達到71.1%的樹生成準確率,在CurveBench-Hard上為19.1%。我們進一步透過RLVR風格的微調,展示了該基準測試在開源權重視覺語言模型上的實用性。我們訓練的Qwen3-VL-8B模型在CurveBench-Easy上的樹生成準確率從2.8%提升至33.3%,在我們的評估協議下超越了GPT-5.4和Claude Opus 4.5。剩餘的差距,特別是在CurveBench-Hard上的差距,顯示精確的拓撲感知視覺推理仍遠未解決。
視覺-語言-動作(VLA)模型展現出超越傳統控制典範的顯著靈活性與泛化能力。然而,現行多數VLA模型均於單幀觀測範式下訓練,使其在結構上對時序動態缺乏感知。因此,即便在動態數據集上訓練或微調,此類模型在非平穩場景中的表現仍嚴重退化。現有方法若非需耗費大量成本重新訓練,便會遭遇延遲瓶頸與動作區塊間時序一致性不佳的問題。我們提出「步調與路徑校正」法,這是一種免訓練、封閉形式的推理時運算元,可套用於任何基於區塊動作的VLA模型。透過單一二次代價函數進行聯合最小化,可得出一個統一解,該解正交分解為兩個截然不同的通道:步調通道沿規劃方向壓縮執行動作,而路徑通道則施加正交空間偏移,兩者共同吸收區塊時間窗內感知到的動態。我們在專為隔離「運動」作為唯一控制變量而設計的綜合診斷基準MoveBench上評估本方法。實證結果顯示,我們的框架持續優於最新免訓練封裝器與動態自適應方法,在純動態環境及靜態-動態混合環境中,分別使基礎VLA模型的成功率絕對值提升最高達28.8%與25.9%。