每日精選AI研究論文及翻譯
循環變換器透過重複應用共享區塊來擴展潛在計算,但順序迴圈會隨迴圈次數增加延遲和KV快取記憶體。並行循環變換器(PLT)透過跨循環位置偏移(CLP)和共享KV門控滑動窗口注意力機制緩解了此成本,使迴圈次數成為實用的設計選擇。因此,我們從增益成本視角研究PLT的迴圈次數選擇:額外迴圈可能精煉表徵,但CLP同時在每個迴圈邊界引入位置錯配。我們透過從頭訓練LoopCoder-v2——一個具有不同迴圈次數的7B PLT編碼器家族,使用18T tokens,並進行匹配的指令微調與評估,來具體化此研究。實驗中,雙迴圈版本在程式碼生成、程式碼推理、代理軟體工程及工具使用基準上,相較無迴圈基線取得廣泛提升,將SWE-bench Verified從43.0分提升至64.4分,Multi-SWE從14.0分提升至31.0分。相比之下,三個或更多迴圈的變異版本出現退化,顯示出強烈的非單調迴圈次數效應。我們的診斷表明,迴圈2提供了主要的有益精煉,而後續迴圈產生遞減、震盪的更新以及較低的表徵多樣性。由於CLP誘導的錯配在精煉增益縮小時大致保持不變,偏移成本逐漸占主導。此增益成本權衡解釋了PLT在雙迴圈時的飽和現象,並為迴圈次數選擇提供了診斷依據。
視覺-語言-行動(VLA)模型受益於大規模且多樣的具身數據,然而,收集機器人軌跡的成本高昂且耗費人力。近期進展顯示,大規模的第一人稱人類影片可在預訓練中提供互補的真實世界監督。然而,由於動作空間、具身結構、時間動態與監督品質的差異,在人類與機器人數據上進行聯合訓練仍具挑戰性。我們提出ACE-EGO-0,一個統一的VLA預訓練框架,能聯合運用異質數據來源。為從第一人稱人類影片中提取大規模預訓練監督,我們建立了一個可擴展的第一人稱影片到動作流程,將原始人類影片轉換為機器人格式的偽動作軌跡。為使這些標籤能與機器人示範相較,ACE-EGO-0採用基於相機空間動作、形態條件化以及時間對齊動作區塊化的統一動作表徵。為穩健地利用來自第一人稱人類影片的雜訊偽動作監督,我們制定了一個具可靠性感知的訓練目標,並搭配人類輔助損失函數,將監督集中於可靠訊號上。我們將ACE-EGO-0實例化於4,530小時的機器人與模擬數據,以及1,480小時的偽動作標註第一人稱人類數據。實驗結果顯示,在可靠性感知加權下納入大規模人類監督,能一致地提升統一聯合預訓練與監督微調的表現。ACE-EGO-0在RoboCasa GR1 TableTop與RoboTwin 2.0上達到最先進的效能,同時展現出對真實世界雙手操作的強大遷移能力。
知識蒸餾能將教師模型的能力傳遞給小型學生模型,但在小型學生模型的情境下卻顯得脆弱:強迫學生模仿來自規模更大之教師模型的邏輯值,會使其過度集中於教師最尖銳的模式,從而損害其對訓練語料庫以外之基準測試家族的泛化能力。強化學習透過在學生模型自身的軌跡上進行訓練,避免了邏輯值模仿。然而,對於那些所有軌跡皆失敗(導致優勢為零且被靜默捨棄)的問題而言,將更強教師模型的反饋注入策略梯度會破壞在策略假設並引發偏移。我們提出「近側發展區策略優化(ZPPO)」,靈感來自維高斯基的近側發展區理論,此方法將教師侷限於提示中,而非策略梯度內。針對困難問題,ZPPO建構兩種重新表述的提示:二元候選項納入問題(BCQ)將一個正確的教師回應與一個錯誤的學生回應配對,作為學生必須辨別的匿名候選項;以及負面候選項納入問題(NCQ)將學生的錯誤軌跡彙整為單一提示,以浮現其共同的失敗模式。提示重播緩衝區會持續重播每個困難問題,直到該問題畢業(學生的平均軌跡準確率達到一半),或在容量有限下先進先出(FIFO)被逐出,從而在學生當前的近側發展區內放大BCQ與NCQ的效果。在Qwen3.5家族的四種學生規模(0.8B至9B)下,搭配27B的教師模型,經後訓練成為視覺語言模型,並在31項基準測試套件(16項VLM、10項LLM、5項影片)上進行評估,ZPPO的表現優於離策略/在策略蒸餾與GRPO,其中在最小規模下獲得最大幅度的提升。
遊戲生成是編程智能體的一項新興應用,要求模型將自然語言規格轉化為可遊玩的互動系統。與傳統編程任務不同,遊戲生成發生在遊戲引擎中,腳本、場景、資源、渲染與執行時互動須共同產生連貫的遊戲體驗。我們將端到端遊戲生成形式化為一個問題:在目標環境中,通過可觀察的玩家與遊戲互動,產生一個完整的遊戲成品,以實現指定的規格。我們主張,評估此場景需要滿足三項必要條件:引擎落地(Engine Grounding)、成品完整性(Artifact Completeness)與互動驗證(Interactive Verification)。我們提出一個基於互動的評估框架,透過重播示範與基於評分指引的多模態評審,對可執行的遊戲玩法進行評估。我們將此框架具體化為GameCraft-Bench,一個包含15個遊戲家族、共140項Godot任務的基準測試。對前沿編程智能體的評估顯示,端到端遊戲生成仍極具挑戰性:最強的智能體僅達到41.46%,大多數智能體得分低於40%。進一步分析表明,儘管智能體常能實作可識別的遊戲機制,但它們在提供內容充足、具功能視覺回饋且呈現連貫的完整遊戲方面仍有困難。詳見 https://tongxuluo.github.io/gamecraft-bench-website 獲取演示、程式碼與數據。
有效的個性化AI輔助學習需要系統不僅能生成精確的學習者專屬教材,還能針對不同學習者動態調整教學方式。然而,現有的教育代理主要側重於講座內容自動化與模擬,往往難以建模針對個別學習者量身定制的多模態與具身化教學方法。為此,我們提出LectūraAgents——一個透過端到端自適應具身化教學實現個性化學習的多代理框架。其核心在於模擬教授與學生的關係,由教授代理(ProfessorAgent)領導一個由專門下屬代理組成的協作團隊,透過研究、規劃、審查與具身化遞送適應學習者需求的講座內容。該框架包含三項主要貢獻:(1)用於端到端個性化學習的層級式多代理架構;(2)自適應具身化教學機制,其中教授代理在教學環境中對內容執行可見且具有教學動機的教學動作(例如手寫、標記重點、劃底線等);(3)教學動作-語音對齊(TASA)演算法,該演算法採用凸顯性啟發式與時間語義分割,生成與學習者檔案一致且連貫的教學動作序列。我們在高中、大學本科與研究生層級的多樣課程上,使用樣本特定評分量規分析評估LectūraAgents;生成的講座教材與教學動作由教育專家評估與驗證。實驗結果顯示,相較於現有方法,該框架在講座內容品質、具身化教學品質、評量與個性化方面均取得一致提升,使LectūraAgents成為一個在教學法上具備堅實基礎、可規模化實現個性化學習的框架。
基於電子健康記錄建立的臨床預警系統(其中臨床觀察紀錄為不規則取樣醫療時間序列,ISMTS)必須提供經校正的風險評分以進行病患分流,同時提供臨床醫師可驗證的可解釋理由。大語言模型(LLMs)已被探索應用於此任務,但它們將分級臨床風險壓縮為過度自信的二元預測。這種風險極化損害了校正能力與跨病患可比性。為解決此問題,我們提出TRIAGE框架,該框架訓練LLM透過引出結果特定理由來產生針對競爭性臨床結果的辯證推理。這種辯證表述可減輕風險極化,使單一LLM能產生基於明確臨床推理的連續風險評分。在三個ISMTS基準測試中,TRIAGE與競爭基線相比,平均AUPRC提升了3.3%,並將校正誤差降低了81%。LLM作為評判的評估進一步顯示,我們的理由在臨床推理品質上比基線的後設解釋高出20%。原始碼可在 https://github.com/HyeongWon-Jang/TRIAGE 取得。
同策略自我蒸馏(OPSD)已被证明能有效对大型语言模型(LLMs)进行后训练,但其在扩散语言模型(dLLMs)上的应用仍有待探索。现有的OPSD方法本质上是自回归导向的:它们通过从左到右的前缀条件化以及符元级差异监督注入特权信息,这种设计与dLLMs的任意顺序生成存在根本冲突。我们提出d-OPSD,首个专为dLLMs设计的OPSD框架。该方法包含两项核心贡献:首先,将自教师构建重新定义为使用自生成答案作为后缀条件化,使学生模型能够从「自我未来经验」而非特权前缀中学习;其次,将监督机制从符元级转为步级,使训练过程与dLLMs的迭代去噪机制相契合。在四个推理基准上的实验表明,d-OPSD在样本效率上始终优于RLVR和SFT基线,仅需RLVR约10%的优化步骤,为dLLMs的后训练开辟了可行路径。代码已公开于https://github.com/xingzhejun/d-OPSD。
記憶已成為自我演化代理的標準基礎,但保留經驗並不等於學習如何透過經驗演化。現有的記憶代理能儲存軌跡、檢索反思或累積技能,但往往缺乏選擇有用經驗、據此行動、撰寫可重複使用的知識,並維護持續成長的儲存庫的整體能力。我們提出 OPD-Evolver,這是一個慢-快協同演化框架,透過同策略自我蒸餾來培育這樣的代理演化器。在快速循環中,OPD-Evolver 與四層級記憶階層互動,以讀取、使用、撰寫及維護經驗,實現快速的測試階段演化。在慢速循環中,結果校準的記憶歸因與特權後見之明將這四種能力蒸餾至可部署的策略中。在多領域基準測試中,OPD-Evolver 超越如 ReasoningBank 等記憶系統達 11.5%,以及如 Skill0 等基於訓練的方法約 5.8%。進一步分析顯示,OPD-Evolver 內化高價值經驗與記憶管理,使 OPD-Evolver-9B 能夠挑戰 Qwen3.5-397B-A17B 和 Step-3.5-Flash 等大型對手,指向超越記憶增強代理、邁向真正合格的代理演化器。
像素空間擴散模型是基於全頻帶噪聲圖像進行訓練的,但去噪器可用的有效信號具有強烈的頻率依賴性。在校正流擴散與自然圖像冪律頻譜的條件下,每個時間點 t 的每頻段數據-噪聲輪廓 k^{*}(t) = (1-t)^{-2/α} 將承載信號的低頻區域與噪聲主導的高頻區域分隔開。我們證明,這種隱含的由粗到細結構不僅具有描述性:它還引發了容量分配問題。標準的像素空間去噪器必須在內部探索移動的頻帶邊界,並可能將計算資源耗費在那些最優預測退化為確定性基準——而非數據分佈建模——的頻率-時間區域。為了將此邊界明確化,我們引入了頻譜強制(Spectral Forcing),這是一種無參數、時間條件性的二維離散餘弦變換(2D-DCT)低通運算,應用於圖像塊嵌入器之前的噪聲輸入。其截止頻率隨擴散時間單調擴展,並在數據端點處退化為恆等映射。通過受控的合成實驗,我們確定了該運算有效的情景:粗糙的圖像塊分詞,以及高頻內容主要為噪聲而非必要信號的數據。在採用 JiT-700M/32 的 ImageNet-256 上,頻譜強制在不同訓練週期中 consistently 改善了 FID 和 Inception Score,展現出訓練全程的穩健增益;在更精細的分詞下,頻譜強制仍然具有競爭力。我們進一步將相同的運算插入 SenseNova-U1(一種統一文本到圖像模型)中,該模型在 DPG-Bench 和 GenEval 上取得提升,這表明輸入側的頻譜先驗能夠超越類別條件生成進行遷移。這些結果通過展示信號並隱藏噪聲,為實現容量高效的像素空間擴散提供了一條路徑。
現有的影像編輯方法大致可分為基於文字指令與基於視覺提示兩類。文字指令具有語意表達力,但其編輯結果的空間控制粒度較為粗糙。相較之下,視覺提示如拖拽與點擊能提供精確的空間指引,卻受限於語意意圖固有的模糊性。為統合文字與視覺提示的優勢,我們提出「文字-視覺協同引導的影像編輯」框架,將文字指令作為語意意圖,稀疏視覺指令作為空間指引,共同建模,以實現精確且忠於意圖的影像操作。為此,我們首先從動態影片中建構一個包含超過23,000個樣本的文字-視覺指令配對資料集,為跨模態指令提供對齊的監督訊號。接著提出TV-Edit,一個統合文字與視覺指令的編輯框架,能將拖拽或點擊式的視覺指令與影像文字語意脈絡化,並將其提升為語意感知的控制表徵,供預訓練編輯骨幹使用。透過整合語意意圖與空間約束,相較於純文字或純拖拽方法,TV-Edit能實現更精確的空間控制、更低的指令模糊性,以及更強的結構一致性。最後,我們建立TV-Edit-Bench,一個精心設計的基準測試,用以評估語意忠實度、空間對齊度,以及與真實參考圖像的視覺一致性,並透過受控的文字-視覺變化進行可靠評量。在多個編輯骨幹上的實驗顯示,TV-Edit能持續輸出更精確且忠於意圖的編輯結果,顯著優於現有的基於指令與基於拖拽的最新基準方法。
現代語言模型日益採用結合全注意力與高效注意力模組(例如滑動窗口注意力(SWA)與遞迴序列混合器)的混合架構。然而,人們對這些高效模組如何塑造模型能力仍知之甚少。為填補此缺口,我們從三個面向——縮放行為、機制分析與架構設計——對混合架構進行系統性分析。首先,從縮放角度來看,我們發現高效注意力設計主要影響長上下文能力浮現的速度,而不同的混合架構在充分訓練後,最終會收斂至可比的長上下文表現。其次,從機制上,我們證明長距離檢索主要由全注意力承擔,而高效注意力則塑造其最佳化軌跡。這解釋了一個我們稱之為「大窗口惰性」(Large-Window Laziness)的反直覺現象:較大的SWA窗口可能延遲全注意力層中檢索頭的形成。第三,在此機制引導下,我們證明僅對小窗口SWA混合架構的全注意力層應用無位置編碼(NoPE),能在幾乎不影響短上下文表現的情況下,顯著改善長上下文表現。
視覺語言模型(VLM)通常被訓練為被動回答者,但其主動提出多樣、非平凡、以視覺為核心且具基礎性問題的能力仍未被充分探索。現有視覺提問者的表現受限於高品質訓練數據的可取得性,或整理這類數據的成本。我們證明,VLM 可以在沒有任何外部監督的情況下,持續自我提升為一個視覺提問者。我們提出一個自我演進框架,該框架利用 VLM 自身同時作為「提出者」與「過濾者」,以產出更困難、更具資訊性且更以視覺為核心的問題,同時維持其探索的多樣性,以避免訓練崩潰。這些問題隨後被用於訓練 VLM,使其兼具提問者與回答者兩種模式。為評估提問者,我們引入一個代理協議,該協議從感知、推理與多樣性三個維度來評估問題。跨多種骨幹 VLM 的實驗顯示,我們的方法顯著提升了自主問題生成的品質,並大幅擴展了其難度邊界。在相同預算下,我們的自我監督比在靜態來源數據上進行訓練更有效。此外,這個自我演進的提問者仍是一個具有競爭力甚至更好的回答者。
從影片生成到互動式世界建模的轉變,對數據提出了新的要求:除了帶有標題的影片外,世界模型還需要基於驅動未來場景變化的動作、攝影機運動、狀態與事件,來建立時間對齊的影片-動作-語言軌跡。然而,這類數據難以大規模取得。網路影片數據集提供廣闊的視覺涵蓋範圍,但缺乏可執行動作與可靠狀態;機器人數據集提供動作與狀態監督,但成本高昂且場景多樣性有限;現有模擬器往往缺乏大規模的人類驅動互動軌跡。在本文中,我們介紹 EgoCS-400K,一個大規模、基於重播的自我中心《絕對武力》數據集,專為世界模型設計,建構自公開的職業 CS 與 CS2 比賽重播檔,保留人類遊玩軌跡,並支援解析、重播、渲染與時間對齊。我們萃取玩家狀態、視角方向、移動、鍵盤/按鍵輸入、視角變化、武器使用、遊戲事件與回合層級上下文,並從相同軌跡渲染出清晰的第一人稱影片。EgoCS-400K 包含超過 40 萬部第一人稱影片與 1 萬小時的遊玩內容,來自超過 1,000 場比賽與 4 萬個回合,涵蓋 13 張地圖,每回合提供 10 個玩家視角。它支援多項互動式視覺建模任務,包括動作條件下的未來預測、狀態與事件感知的場景推演、基於重播的標註,以及智能體的自我中心動作理解。透過大規模連結視覺觀測與人類動作、攝影機運動、遊戲狀態與事件,EgoCS-400K 可作為被動網路影片、可控遊戲模擬與昂貴的真實世界具身數據之間的實用橋樑。
當前世界模型面臨一個根本性的矛盾:要實現精確的長期模擬需要深度計算,但越深的模型不僅部署成本高昂,也更容易產生累積誤差。我們透過提出循環世界模型(LoopWM)來解決此問題,這是首個用於世界建模的循環架構。本方法透過參數共享的Transformer模組反覆迭代地精煉潛在環境狀態。相較於傳統方法,這能實現高達100倍的參數效率,同時具備自適應計算能力,可自動調節深度以匹配每個預測步驟的複雜度。與擴展模型規模和訓練資料不同,LoopWM將迭代式潛在深度確立為世界模擬的新擴展維度,這可能極大地推動領域發展。
統一多模態建模旨在將視覺理解與生成整合至單一系統中。然而,現有方法通常依賴兩種不同的視覺標記器,導致表徵空間分裂,阻礙真正的統一建模。我們提出UniAR,一個統一的自回歸框架,其中單一的離散視覺標記器作為理解與生成之間的關鍵橋樑,使模型能在共享語境中直接解讀自身生成的視覺標記,無需額外重新編碼。UniAR採用預訓練的視覺編碼器,結合多層級特徵融合與免查找按位量化機制,在保留高階語義與低階細節的同時,以最小成本擴展有效視覺詞彙量。在此基礎上,統一自回歸模型採用並行按位預測,聯合預測空間分組的多層級視覺編碼,大幅縮短視覺序列長度並加速生成。最後,基於擴散的視覺解碼器對離散視覺標記進行操作,解碼出高保真圖像。透過大規模預訓練,再經監督式微調與強化學習,UniAR在圖像生成與圖像編輯任務上達到最先進性能,同時在多模態理解基準上保持競爭力。專案頁面請見 https://sharelab-sii.github.io/uniar-web。
在大規模語料庫上進行代理式搜索,依賴檢索器中介界面(如BM25或ColBERT)來實現可擴展的候選項發現。雖然這些界面在對相關文檔進行排序上相當有效,但它們僅以排序結果或受限的文檔視圖來呈現證據,限制了代理重組材料以及跨文檔驗證約束的能力。直接語料庫互動(DCI)透過暴露可用於靈活搜索、篩選、比較及驗證的shell可執行語料庫操作來解決此限制。然而,隨著語料庫增長,完整語料庫的終端指令變得緩慢且不穩定,導致性能與效率下降。我們提出DR-DCI,一個由檢索器引導的DCI框架,將檢索視為代理可調用的動作,以擴展局部工作空間。代理並非直接對完整語料庫進行操作,而是動態地將相關文檔拉入一個不斷演進的工作空間,並在其中執行DCI操作。此設計結合了檢索器層級的召回率與DCI風格的精確度:檢索保持了探索的可擴展性,而DCI則保留了有效證據解析所需的局部操作。實驗表明,DR-DCI在不同規模下均兼具有效性與效率。在Browsecomp-Plus上,DR-DCI達到71.2%的準確率,相比原始DCI及各消融變體提升了最多8.3個百分點,同時減少了工具使用次數、實際時間與估計成本。採用保留工作空間的上下文重置後,準確率進一步提升至73.3%。在語料庫擴展實驗中,DR-DCI在10萬到1000萬文檔範圍內保持有效,而原始DCI變得不穩定,BM25表現則明顯較差。DR-DCI還可擴展至2000萬規模的每文件一文檔的Wiki-18問答設定,在六個基準測試中取得平均63.0分,優於基於檢索及訓練式搜索代理的基線方法。消融分析進一步顯示,排序預覽及跨文檔DCI是性能關鍵。
大型語言模型在標準化邏輯推理基準測試中表現日益出色,但此能力在英語以外的語言中是否依然穩健,目前尚不清楚。我們提出 ChLogic,這是一個中英文對齊的基準測試,旨在測試當相同的隱含邏輯結構分別以英語及多樣化的中文表層實現呈現時,模型能否維持其邏輯推理表現。該基準測試基於形式邏輯模板建構,包含三個資料集:(i) 一般對齊集,衍自九個模板家族共60條一般命題;(ii) 困難對齊集,衍自40道困難問題;以及 (iii) 僅限中文集,涵蓋15種語言特有現象類型。每個對齊項目配對一個英文參考表達與五個中文實現。針對 Qwen3、Ministral 及 GLM 模型進行的實驗顯示,中英文之間存在持續的表現差距。從標準中文回譯成英文通常能提升一般對齊集的表現,但對困難對齊集則產生混合效果,其中 Qwen3-32B 與 GLM-5.1 在回譯後表現反而下降。這些結果表明,中文表層實現、回譯造成的痕跡以及模型特定行為,共同影響多語言邏輯推理。總體而言,ChLogic 為多語言推理的穩健性提供了一項有用的壓力測試。
可驗證獎勵的強化學習(RLVR)能提升語言模型的推理能力,但GRPO風格的優化仍容易崩潰。我們透過詞元層級的梯度動態分析此不穩定性,推導出一套分類法,用以預測更新如何影響下一個詞元的機率與熵。該分類法指出,穩定性同時取決於當前策略下的優勢符號與詞元分佈。受此發現啟發,我們提出贏家優勢策略優化(WAPO),這是一個簡單的線上裁剪策略梯度目標,僅對正優勢的完成序列進行更新。在數學推理與多跳問答基準測試中,WAPO提升了訓練穩定性,並在多個模型系列上達到或超越基線表現。完整程式碼可於 https://github.com/layer6ai-labs/wapo 取得。
擴展模型規模(特別是深度與寬度)已大幅推動基於Transformer的語言模型進展。然而,多數架構在所有層級維持固定寬度,即使不同層可能扮演不同的運算角色,仍均勻分配固定參數與計算預算。本研究透過提出沙漏形> <former架構,實證探討跨網路深度的非均勻容量分配。此設計在維持較寬的早期與晚期層的同時,收窄中間層,並採用無參數的殘差調整機制。在參數量從2億到20億(密集模型)及30億(混合專家模型)的解碼器專用語言模型中,我們的> <former在語言建模損失上持續優於參數匹配的均勻基線模型。透過降低平均層寬度,此架構亦減少整體FLOPs(在擬合損失匹配的縮放曲線下減少22%)以及更小的KV快取記憶體與I/O成本(減少15%)。分析中,我們顯示這種瓶頸結構會導致殘差流中出現質性不同的表徵。整體而言,我們的結果證明非均勻寬度分配能實現更具資源效率的語言模型擴展。
互動式世界模型旨在模擬在使用者即時操作下的環境動態。然而,其動作詞彙大多局限於導航:多數動作對應移動(如行走、轉向、環視),而與場景中物體的互動(如拿起盤子、開門或觸發物理反應)若非付之闕如,便是僅限於遊戲領域,或降級為提示生成完整影片的場景。這類模型所建構的世界雖可視覺探索,卻無法真正進行操作。在本研究中,我們提出 ActWorld,這是一個互動式世界模型,將先前以導航為中心的生成器擴展至支援區塊自迴歸框架中的中途物件互動。我們主張導航與互動之間的差距源於兩個瓶頸。首先,資料瓶頸:缺乏具備精確密集標註的人類與物件互動資料。其次,記憶瓶頸:現有世界模型中偏向近期性的歷史壓縮機制,會捨棄那些因果決定後續物件狀態的事件轉換幀,導致動作遺忘的病態現象。在資料方面,我們建構了一個包含 10 萬段互動影片的資料集,每段影片均透過鏈式思考推理附加區塊層級的文字描述。在模型方面,我們引入了一種分層動作感知記憶設計,依據互動重要性來引導歷史壓縮的路徑,並輔以持久記憶庫,在長時間推論過程中維護事件更新與物件身分標記。實驗顯示,ActWorld 能在單一模型中同時支援靈活的導航與豐富的物件互動,相較於僅具導航能力的基準模型,互動真實度顯著提升,且不犧牲視角控制能力。專案頁面請參閱 https://interactwm.github.io/ActWorld。
訓練電腦使用代理(CUAs)——透過螢幕截圖與鍵盤/滑鼠動作與圖形桌面互動的模型——需要在大規模、多樣化的完整桌面環境中收集軌跡資料。現有最大的公開資源 AgentNet(22,500 條人類軌跡)在用於監督式微調(SFT)時會導致負遷移:若在 AgentNet 上持續訓練 UI-TARS 7B,其在 OSWorld 上的成功率將從 26.3% 下降至 8-10%。我們提出 ProCUA-SFT 資料集,包含 310 萬個步驟級 SFT 樣本,從 93,000 條合成軌跡中提煉,涵蓋 2,484 種應用組合。該資料集透過全自動化管線產生,其流程包括:(i)在以真實世界內容播種的即時桌面上合成具接地任務——包含來自 SpreadsheetBench 的 912 個試算表、來自 Zenodo10K 約 10,000 個採用寬鬆授權的簡報檔,以及多應用程式的 OSWorld 配置——並(ii)在實際生成軌跡前,透過二元前置條件檢查驗證每個任務的可行性。單一 VLM(Kimi-K2.5)同時擔任目標生成器、前置條件判斷器與軌跡執行器,消除了規劃器與執行器之間的能力差距。每條軌跡被擴展為步驟前綴樣本,精確重現推理時所見的上下文佈局。在 ProCUA-SFT 上訓練 UI-TARS 7B 一個週期後,其在 OSWorld 上的表現達到 45.0%,較基礎模型提升 18.7 個百分點,並比 AgentNet 訓練的模型高出 35% 以上。ProCUA 的一個子集已被納入 Nemotron 3 Nano Omni 模型的訓練資料中,對其電腦使用能力有所貢獻。
深度研究代理在搜索證據、推理檢索來源以及生成有根據的答案方面的能力,正受到越來越多的評估。然而,現有的瀏覽基準測試大多假設用戶查詢與支持證據使用同一語言撰寫,這使得我們無法得知當相關證據出現在另一種語言時,代理搜索系統是否仍能運作。我們提出 XBCP(跨語言瀏覽競賽增強版),這是一個受控基準測試,保留了 BrowseComp-Plus 的英文問答空間,但改變了支持文件所用的語言。XBCP 包含兩種互補的設定:在跨語言設定中,每個查詢配對單一指定語言的證據;在多語言設定中,完整證據語料庫則均勻且隨機分布於 12 種語言中,涵蓋高資源與低資源語言。我們使用稀疏與稠密的多語言檢索器評估四個深度研究代理,衡量答案準確度、證據回憶率、搜索行為、校準程度、引用忠實度以及神諭檢索。結果顯示,當證據被翻譯時,效能顯著下降。即使是強大的稠密檢索器,其證據回憶率也會降低,代理的校準程度變差,引用證據的可靠性也下降。值得注意的是,即使直接提供所有黃金證據,準確度仍然較低。這些發現表明,跨語言深度研究不僅暴露了檢索失敗的問題,也揭示了代理在整合語言不匹配證據時所遇到的獨立困難。
多模態大型語言模型在許多視覺任務中展現出令人印象深刻的能力,但面對複雜的開放世界場景時,往往難以實現事實性根基。儘管近期多模態深度搜尋代理嘗試透過利用外部工具來解決此問題,但視覺原生的搜尋典範仍未被充分探索。現有方法主要依賴具有明確語意的簡單圖像及純文字推論軌跡,限制了代理進行多跳、跨模態推理與搜尋的能力。為應對這些限制,我們提出Visual-Seeker——一個透過主動視覺推理實現視覺原生多模態深度搜尋的代理。我們的代理並非將視覺視為靜態輸入,而是主動關注細粒度視覺細節,在搜尋過程中動態擷取視覺證據。為釋放其視覺原生潛能,我們設計了一套主動視覺推理資料管線,並合成5000條高品質多模態軌跡以進行模型訓練。廣泛的實驗結果顯示,該方法在五項具挑戰性的多模態搜尋基準測試中達到了最先進的效能,甚至超越了數個專有模型,驗證了其在真實網路環境中具備穩健的視覺原生推理與搜尋能力。程式碼與資料可於以下網址取得:https://github.com/ZhengboZhang/Visual-Seeker。
使大型语言模型(LLMs)深度遗忘特定知识与价值观而不損及通用能力,仍是遗忘学习中的核心挑戰。然而,現有方法易因微調或少量樣本提示而逆向復原,顯示其遺忘效果僅停留在淺層。我們揭示了根本原因:現有方法針對的表示層級同時與保留集及微調攻擊者所能回復的子空間重疊,導致遺忘既破壞通用能力又易於逆向。為此,我們提出RepSelect(表示選擇性),在每次更新前收縮權重梯度前幾個主成分,從而隔離僅屬於遺忘集的表示,既保留通用能力,又限制微調可回復的內容。我們在兩種遺忘類別(生物危害知識與濫用傾向)以及四種涵蓋密集式與混合專家架構的模型系列(Llama 3、Qwen 3.5、Gemma 4 E4B、DeepSeek V2 Lite)上進行評估。與五種主流基準方法(GradDiff、NPO、SimNPO、RMU、UNDIAL)相比,RepSelect在重學後答案準確率下降幅度上比最強基準高出4至50倍,且對於少量樣本提示攻擊近乎完全穩健。因此,針對選擇性表示進行學習,是邁向深層且穩健的LLM遺忘的重要一步。
大型語言模型能否理解並推理量子運算子?儘管在數學與符號推理方面表現卓越,大型語言模型對於量子表徵(如酉矩陣)本質上仍存在盲點。本研究透過提出一種將酉算子映射至大型語言模型潛空間的方法,朝彌合此差距邁進一步,實現對量子輸入與語言輸入的統一建模。我們將此構想實例化於Clifford+T電路合成任務中,該任務基於Pauli旋轉閘集合,成果不僅與最先進方法競爭力相當,且隨著訓練資料穩定擴展而未出現飽和跡象。此方法進一步實現了語言條件化合成,使訓練中未見的閘極限制能直接以自然語言指定。本研究揭示了通往具備量子感知能力之基礎模型的路徑,該模型能原生解讀並推理量子運算,對量子編譯與演算法探索等領域具有廣泛影響。
用於檢索的視覺編碼器通常以類別標籤監督方式訓練:每個訓練對簡化為一個純量,統一地將嵌入向量推開或拉近,彷彿所有視覺屬性若非相同便是相異。多模態大型語言模型(MLLM)在面對相同影像對時,能明確描述這些屬性,並據以預測影像是否屬於同一類別。我們提出SAGA架構,將這種基於語言、具備屬性感知能力的辨識,轉化為編碼器本身的訓練訊號。具體而言,我們採用群體相對策略最佳化(GRPO),對MLLM根據視覺編碼器的標記(tokens)作出正確預測的行為給予獎勵。由於正確預測需要這些標記展現出影像對之間具體相異或相同的屬性,梯度便會推動編碼器去編碼這些屬性,從而將原本統一的成對層級純量監督,替換為解析度更高的屬性層級監督。輔助的注意力蒸餾損失函數將編碼器的嵌入向量對齊至MLLM所關注的標記,而標準的度量學習損失函數則塑造嵌入向量的幾何結構,以利最近鄰檢索。MLLM在整個過程中保持凍結,並在推論時被捨棄,使其部署成本與基於度量學習的基準方法相當。在CUB-200-2011、Cars-196、FGVC-Aircraft及iNaturalist Aves資料集上進行零樣本影像檢索時,SAGA比當前最佳基準方法的Recall@1提升了3到6個百分點。
參考引導生成(例如物體合成、個性化定製)已取得快速進展,然而現有流程存在一個根本限制:用戶提供的高解析度參考影像(HRRI)在輸入模型前會被降採樣為固定的低解析度(LR),導致精細細節在輸出生成前即被捨棄。此外,生成步驟會在此資訊損失的基礎上引入自身偽影(例如身份失真)。現有的參考引導生成內容精煉(RefGCR)方法雖能修正部分偽影,但仍侷限於低解析度範疇;參考引導超解析度(RefSR)方法雖可恢復解析度,但其假設為自然影像退化模式,忽略了生成式管線的偽影分佈特性。為在單一架構中同時解決這兩項缺點,我們提出一新任務:參考引導生成內容超解析度-精煉(RefGC-SR^2),其核心是在後處理階段重新利用原始高解析度參考影像,同時恢復遺失細節、修正生成偽影並提升輸出解析度。我們為此RefGC-SR^2任務建構了首個真實世界三元組資料生成管線,訓練雙聯影像條件生成器來合成成對的低品質錨點影像,以補足現有公開預訓練模型無法提供的資料。此外,我們提出一款頻率感知擴散變壓器模型,可選擇性地注入高解析度參考影像中的精細細節,同時移除生成偽影。大量實驗證明,我們的RefGC-SR^2模型能成功達成:(一)根據參考影像忠實精煉物體身份,以及(二)恢復高解析度細節,使最終結果的品質與實用性明顯優於現有的RefGCR與RefSR基準方法。
從場景影像與文字生成逼真的人體動作,涉及低頻姿態語義與高頻物理動態。然而,現有許多方法使用單一共享碼本將動作進行分詞化,迫使異質動作訊號被壓縮至同一量化空間。我們對人體動作資料進行的頻域分析揭示,單一碼本量化與動作統計之間存在明顯不匹配:五個離散餘弦變換(DCT)係數捕捉了關節位置能量的93%,卻僅捕捉關節速度能量的37%,這可能導致量化偏向於姿態統計,並忽略高頻速度成分。第二項挑戰在於如何調整標準自迴歸模型,以有效建模動作序列中的高頻物理訊號。為此,我們提出DSFT——一種雙流頻率分詞器,將動作分離為基礎流與物理流,並分別透過DCT截斷與位元組對編碼(BPE)進行獨立壓縮。此外,我們提出MotionVLA——一個基於Qwen3.5的模型,將基礎標記與物理標記排列在同一序列中,其中物理標記在基礎標記之後進行預測。在HumanML3D與MBench上的實驗顯示,儘管使用輕量級2B骨幹網絡,MotionVLA在HumanML3D上將與真實資料的多樣性差距降低超過50%,並在MBench上將動作條件一致性提升3.8%,驗證了頻率感知雙流解耦作為自迴歸動作生成的有效框架。程式碼:https://github.com/AIGeeksGroup/MotionVLA。網站:https://aigeeksgroup.github.io/MotionVLA。
分離式推理架構將預填充與解碼階段物理分離至不同的 GPU 池中,形成共享固定硬體預算的相互競爭「代理」。我們提供,據我們所知,此架構的首次正式賽局理論分析,並以 NVIDIA Dynamo 作為具體案例研究。我們將分離式服務建模為三個耦合賽局:預填充池與解碼池之間的雙人資源賽局、階層式 KV 快取上的自私快取賽局,以及具有正外部性的請求路由擁塞賽局。我們實證驗證了後兩者;而 P/D 資源賽局則以解析方式處理(第 9.2 節)。我們刻劃 GPU 飽和如何誘發相態轉變,從而改變賽局的報酬結構:在飽和以下,自私行為具有有界的無政府代價(PoA);在飽和時,超線性延遲與快取外部性導致我們的實證估計量 PoA-hat(定義於第 6.4 節)上升。基於此分析,我們設計了一個自適應控制器,可即時偵測飽和轉變並相應調整路由參數,從快取親和性利用轉向負載平衡的擁塞避免。我們在一個由 3 個節點組成的 NVIDIA B200 叢集上實例化我們的框架,該叢集運行 Dynamo,使用兩個模型:Nemotron-4-340B(TP=8,全節點工作節點,支援跨 InfiniBand 的 KV 傳輸)與 Llama-3.1-70B(TP=4),並在兩個模型上觀察到相同的三階段 PoA-hat 結構,且第一個後膝點網格點均為 C=128。自適應路由將每個模型轉移至更佳的操作點。我們最強的結果出現在 70B 1P/5D 拓撲中,在飽和階段 PoA-hat 下降了 3.1 倍(從 66.4 降至 21.5),代價為 13% 的吞吐量損失。在 70B 1P/2D 中,PoA-hat 下降了 2.2 倍,TTFT P99 下降了 7.6 倍(詳見第 8.5 節)。
多智能體大型語言模型系統透過記憶儲存、向量索引及工具註冊表共享狀態。我們將此類共享建模為在確定性生成語義(即持久執行引擎透過確定性重播所執行的機制)下的長期讀取-生成-寫入操作,並在TLA+中形式化四種並發異常:過時生成(stale-generation)、幻影工具(phantom-tool)、因果串聯(causal-cascade)及工具效應重排序(tool-effect reordering),這些是經典隔離異常的結構類比,每種異常均附有TLC反例。這些異常上的排除格(exclusion lattice)是平凡的;其貢獻在於機械驗證的可實現性及其中一條最大鏈的嚴格分離,即L₀ ⊊ ⋯ ⊊ L₄,據我們所知,這是此類運行時首個經機器檢查的一致性層級體系。一項包含274項Verus義務(零假設、零容許;信任基礎:兩條結構公理及一個互斥對應)的開發工作,證明了檢測器相對於規範的完備性與可靠性,以及每個運行時對其避免集合的滿足性。三個已部署的Rust運行時實現了L₀-L₁(悲觀鎖定、可序列化快照隔離、預設快照隔離),各運行時均已針對過時生成進行驗證,並細化至其狀態機;L₂-L₄經執行模式驗證,並配備無依賴預防對偶(A3、A6、A2:0/1000對比1000/1000),其中L₂在三個模型家族中進行了即時運行(A3在所有120次撤銷會話中均被預防)。我們重現了位元組跳動deer-flow中的一個隱匿遺失更新,將其修復形式化為一個經驗證的L₀至L₁細化,並在LangGraph的ToolNode上展示了對未修改輸出的工具效應重排序,該問題已透過L₃提交順序排序器消除。經驗證的檢測器、細化及可實現性產物是本文的貢獻;所述現象與格架構則屬於經典範疇。