每日精選AI研究論文及翻譯
诸如SWE-bench等仓库级编程基准测试,显著推动了编程代理能力的快速提升。然而,这些基准测试通常将编程任务视为整体性的二元预测问题(如已解决或未解决),忽略了细粒度的代理能力,例如仓库理解、上下文检索、代码定位和缺陷诊断。本文提出SWE-Explore基准,聚焦于评估编程代理的一项关键能力——仓库探索。给定一个仓库和问题描述,SWE-Explore要求探索器在固定行数预算下返回相关代码区域的排序列表。SWE-Explore涵盖10种编程语言、203个开源仓库中的848个问题。针对每个实例,我们从独立代理成功解决同一问题的轨迹中推导出行级真实标注,提炼出其解决方案路径实际参考的特定代码区域。我们从覆盖率、排序和上下文效率三个维度评估探索能力,结果表明这些指标与下游修复行为高度相关。在广泛的检索方法、通用编程代理和专用定位器中,我们发现基于代理的探索器明显优于传统检索方法。尽管现代方法在文件级定位上已表现强劲,但行级覆盖率和高效排序仍是区分顶尖探索器的关键维度。
近期的人工智慧系統在廣泛的基準評測中取得了優異成果,然而這些進展並未轉化為許多專業領域中具經濟效益的實際部署。我們認為,此差距主要源於評估問題:廣泛使用的基準評測缺乏對真實且具經濟價值的工作流程進行持續性效能衡量。本文介紹「代理最後測驗」(ALE),這是一個旨在評估AI代理在長期、具經濟價值且可驗證結果的真實世界任務上表現的基準評測。本基準與250多位產業專家合作開發,涵蓋以O*NET / SOC 2018(美國聯邦職業分類系統)為參照的非體力勞動產業。其任務分類體系包含13個產業群聚中的55個子領域,涵蓋超過1,000項任務。當前結果顯示,最困難的層級仍遠未達到飽和:在主流的測試框架與骨幹配置下,平均完全通過率為2.6%。ALE被設計為一個動態基準:隨著新工作流程與產業的納入,其任務庫將持續擴增。更廣泛而言,ALE不僅是另一個排行榜,更是縮小基準成功與GDP相關影響之間差距的工具。
同策略蒸餾(OPD)日益用於提升大型語言模型的推理能力,但其訓練動態仍缺乏深入理解。我們描述了OPD在參數空間中的更新軌跡,並將其與監督微調(SFT)及帶有可驗證獎勵的強化學習(RLVR)進行比較。一系列參數空間診斷方法一致顯示,OPD處於一種寬鬆的非主成分(off-principal)區間:相較於SFT,其更新影響較少的權重,且更強烈地避開主成分方向;而相較於RLVR,其更新所受約束則較為寬鬆。除了這種靜態局部性,OPD還表現出子空間鎖定(subspace locking)現象:其累積更新迅速進入狹窄的低維通道。將訓練限制於訓練早期形成的更新子空間內,可保持OPD的性能,但會顯著降低SFT的性能,表明該鎖定子空間對OPD而言具有功能充分性。控制實驗進一步顯示:稀疏化更新令牌以及將滾動生成移為離策略,並不會改變秩動態,而將OPD目標與RLVR混合則會改變之。整體而言,這些結果表明,OPD不僅僅是介於SFT與RLVR之間的中間點,而是在參數空間中誘發了其獨有的更新幾何結構。
代理系統日益使用文本技能來編碼可重複使用的任務流程,但將這些技能在每一步都注入提示中會帶來大量的上下文開銷,並使技能內容以純文字形式暴露。我們提出 LatentSkill,一個透過預訓練的超網路將文本技能轉換為即插即用 LoRA 適配器的框架。LatentSkill 將技能知識儲存在權重空間而非上下文空間中,移除了每步的技能令牌,同時保留了模組化載入、縮放與組合的能力。在 ALFWorld 與 Search-QA 上,LatentSkill 優於對應的上下文內技能基準線,同時使用的預填充令牌大幅減少:它在 ALFWorld 的已見與未見分割上分別提升了 21.4 與 13.4 個百分點的成功率,並減少了 64.1% 的預填充令牌;在 Search-QA 上則以 72.2% 的技能令牌開銷降低,提升了 3.0 個百分點的完全匹配率。進一步分析顯示,生成的技能 LoRA 形成了結構化的語義幾何形狀,可透過 LoRA 縮放係數精確控制,並能在技能組件對齊時透過參數空間算術進行組合。這些發現表明,權重空間技能為擴充大型語言模型代理提供了一種高效、模組化且暴露程度較低的基礎。
视频世界模型若要在生成的各帧之间维持3D空间一致性,通常需要依赖在RGB空间中构建的显式点云记忆。这种设计不仅计算成本高昂——需反复进行渲染和VAE编码,而且本质上存在信息损失,因为经过像素空间的往返过程会丢弃学习到的潜在表示中的丰富特征。在本文中,我们为视频世界模型引入了潜在空间记忆,这是一种持久化的3D缓存,可直接在扩散潜在空间中存储场景信息,避免了像素空间的重建。基于此,我们提出了Mirage,一种潜在空间记忆框架,通过深度引导反投影将潜在token提升至3D空间来构建记忆,并通过直接潜在空间扭曲合成新视角来查询记忆。这种统一的形式化方法既消除了像素空间重建的信息损失,也避免了反复编码与渲染带来的计算负担。实验表明,相较于显式3D基线方法,潜在空间记忆在端到端视频生成中实现了最高10.57倍的速度提升,并将内存占用降低了55倍。借助扩散模型的几何先验,Mirage在WorldScore上达到了最先进的性能,并在RealEstate10K上展现了强大的重建质量。
尽管近期基于文本引导的视频编辑模型在基础任务(如风格迁移、物体插入)上表现出色,但现实用户的请求往往高度组合化。单一提示词通常需要执行多项耦合编辑操作,例如同时修改主体、动作和镜头视角,同时严格保留无关的时空内容。现有基准测试受限于孤立编辑和粗粒度的全局指标,无法诊断模型如何处理此类复杂工作流。为填补这一空白,我们提出CoVEBench——一个组合式视频编辑基准测试,包含416个精心挑选的源视频、626条多点编辑指令及9,990个细粒度检查清单条目。覆盖多样化的编辑维度,CoVEBench通过多模态大语言模型(MLLM)评判的指令遵循度与视频保真度,以及自动化视频质量指标来评估模型。大量实验表明,组合式编辑仍是一个深刻挑战:当前模型在处理多操作同步时,常出现编辑遗漏、保真约束违反或引入伪影等问题。CoVEBench提供了一个具有挑战性的诊断测试平台,推动视频编辑向真实用户工作流迈进。
傳統大型語言模型在解碼過程中會保留完整的 KV 快取,導致超長語境服務時出現嚴重的 GPU 記憶體瓶頸。本報告提出「前瞻稀疏注意力」(Lookahead Sparse Attention, LSA),這是一種基於 DeepSeek-V4 架構、由神經記憶索引器驅動的新型推論範式。LSA 不再被動地關注所有歷史詞元,而是主動預測未來的語境需求,僅將查詢關鍵的 KV 區塊保留在 GPU 記憶體中。關鍵在於,我們透過無主幹的分離訓練策略來實例化此架構。透過將索引器設計為標準的雙編碼器架構,我們使用標準的檢索訓練框架獨立訓練它,而無需將龐大的主幹模型載入 GPU 記憶體。 我們證明,這種「少即是多」的範式能顯著最大化服務效率,同時在依賴長期全域記憶的任務中充當有效的注意力去噪器。在多個主要的長語境評測套件(例如 LongBench-v2、LongMemEval 及 RULER)中,FM-DS-V4 將平均物理 KV 快取佔用壓縮至僅為全語境基線的 13.5%,同時持續保持或略微提升下游準確率(平均絕對邊際提升 +0.6%)。關鍵在於,在極端 500K 規模下,FlashMemory 將物理 KV 快取開銷壓低超過 90%,且不影響主幹核心推理能力的穩定性。
空间推理是使多模态大语言模型(MLLMs)能够感知并在物理世界中运作的基础能力。然而,现有基准测试主要依赖被动评估(如静态VQA)或特定模拟器的流程,未能衡量一般的交互式空间理解能力。我们提出了SpatialWorld,这是一个专门用于评估多模态智能体在复杂现实任务中交互式空间理解能力的统一基准。通过在一个共享的、与模拟器无关的协议下集成八个异构模拟后端,SpatialWorld包含了760个跨不同领域(如家庭日常事务、旅行、社交协作)的人工标注任务。智能体必须在仅依赖视觉的部分可观测条件下解决问题,主动收集以自我为中心的视觉证据,并通过一个对MLLMs原生的、基于文本的统一动作接口来表达决策。为确保可靠评估,每个任务包含一个经过人工验证的初始状态、一条参考轨迹和一个终端状态验证器。对15个先进智能体的评估显示,稳健的空间任务求解仍然具有挑战性:最强的模型GPT-5平均任务成功率(TSR)仅为17.4%,而领先的开源模型Qwen-3.5达到14.1%。进一步的分析揭示了任务成功与执行效率之间的明显不匹配,以及显著的领域特定性能差异。这些在主动探索和长周期规划方面的瓶颈,使SpatialWorld成为未来空间智能体的严格测试平台。
我們探討人類心理計量問卷是否能作為可靠工具,用以描述與預測大型語言模型(LLM)在日常使用者互動中的行為。我們分析了八個開源LLM,比較透過兩種不同方法得出的價值觀與人格特質輪廓:一是基於既有問卷(PVQ-40/21 與 BFI-44/10)的李克特自陳報告,二是針對日常使用者查詢中帶有價值傾向的回應所產生的生成機率。這兩種輪廓存在顯著差異。通常在構念內題項一致性(被視為LLM穩定傾向的證據)在生成機率中消失。我們將此差距歸因於既有問卷題項中明確的詞彙線索,使模型能夠識別目標構念,並以符合一致性、符合社會期望的方式回應;然而真實的使用者查詢並不提供此類線索。此外,人口統計角色提示會以與真實人類模式一致的方式,改變模型在人類問卷上的回應;但在真實使用者查詢回應的生成機率中並未出現此類變化,顯示模型在真實世界使用者互動中模擬目標人口行為的能力有限。總體而言,我們的研究顯示,人類心理計量問卷不足以作為預測LLM行為的工具,並建議以基於生成的輪廓分析作為更準確的衡量方式。
我們提出Echo-Memory,這是一項針對動作條件世界模型中記憶機制的受控研究。此類模型能根據初始幀、文字提示與相機動作序列,生成多段影片,但其核心失敗往往來自記憶問題,而非局部影像合成:當相機移開後再返回時,場景或顯著物體可能悄然改變。現有的記憶設計難以進行比較,因為其增益常與骨幹網路、訓練方式、檢索機制及評估流程的差異糾纏不清。Echo-Memory固定了動作到影片的介面,僅改變生成器儲存與讀取歷史資訊的方式。在共享的影片擴散骨幹網路、優化器、相機動作表示、取樣器及評估流程下,我們比較了原始上下文、基於壓縮的記憶、具有不同讀取路徑的空間摘要,以及狀態空間遞迴。這個匹配的矩陣分離了四個本來常被混淆的面向:容量、壓縮、讀取與遞迴。我們也透過三支線協議來評估記憶:回放品質、域內循環重訪,以及開放域返回探測。這三條支線的結果經常不一致,顯示回放保真度並不足以作為記憶世界的代理指標。由此得出三項發現。原始上下文是一個強大的容量基準線,它對開放域返回的提升遠大於對回放指標的改善。緊湊性無法免費替代容量:激進的空間與混合壓縮記憶會遺失返回所需的重要證據。最後,分塊狀態空間遞迴是我們矩陣中最強的開放域返回機制,顯示隱式記憶的結構與是否使用記憶的決策同樣重要。這些結果提供了一個超越孤立回放指標的緊湊協議,用以研究動作世界模型中的記憶機制。
長上下文語言模型的推理受到記憶體瓶頸的限制,因為KV快取會隨著上下文長度增長。近年來壓縮KV快取的技術仍存在不足:它們要麼顯著降低模型品質,要麼需要耗費大量時間與算力來壓縮單一長提示。此外,許多方法要求輸入內容能符合目標模型的上下文視窗,且通常與現代生產環境中的推理引擎不相容。編碼器-解碼器壓縮器原則上是一種具吸引力的替代方案——它能將長序列 tokens 映射為較短的潛在嵌入序列,供解碼器使用。然而,現有方法在準確性與效率的權衡上,仍無法與KV快取壓縮競爭。在本研究中,我們重新審視編碼器-解碼器壓縮,並縮小了這項差距。我們首先進行架構搜索,從零開始預訓練多種變體,以確定最佳設計與訓練編碼器-解碼器壓縮器的方法。根據研究結果,我們對一系列0.6B編碼器、4B解碼器的模型進行持續預訓練,每個模型使用超過350B tokens,壓縮比分別為1:4、1:8和1:16。我們提出潛在上下文語言模型(LCLMs),這一系列壓縮器改善了在通用任務表現、壓縮速度與峰值記憶體使用量上的帕累托前緣。我們證明LCLMs可作為長時程代理的高效基礎模型,讓代理能夠快速瀏覽壓縮後的長上下文,並視需求自適應地展開相關段落。
視覺語言模型(VLM)代理正逐漸部署於互動式遊戲環境中。然而,現有的VLM代理遊戲基準通常僅報告每個(代理、遊戲)配對的單次首次嘗試分數,專注於單一代理的單人模式,且缺乏統一協議來評估異質代理類別(商用VLM、開源權重VLM及專用遊戲策略)於相同基準下。我們針對這些缺口提出OmniGameArena,這是一個即時基準,包含十二個全新建構的Unreal Engine 5遊戲,涵蓋單人(7個)、玩家對戰(3個)與合作模式(2個),並採用統一行動介面;以及改進動態曲線(IDC),這是一個代理反思框架,其中使用工具的大型語言模型反思器會在多輪中自主精煉有界限的技能提示。除了冷啟動排行榜分數外,IDC還為每個(代理、遊戲)配對揭露兩個額外可觀察指標:分數在反思輪次中的演變情況,以及學習到的技能在保留任務變體上的表現。我們報告了十二個VLM代理在冷啟動排行榜上的這些可觀察指標,以及四個頂尖代理在IDC下的表現。
線性激活引導因簡單且經實證有效而廣受歡迎,成為控制語言模型行為的常用方法。近期,研究者提出了球形引導範式,試圖解決加法干預的局限性,其動機常基於隱藏狀態範數不攜帶概念相關資訊的假設。本研究透過設計控制性實證實驗,重新審視此假設,旨在釐清角度分量與徑向分量的角色。我們發現不同引導方法的主要差異在於如何耦合兩種幾何效應:改變詞元與概念方向的角度對齊,以及改變其隱藏狀態範數。在七個語言模型中,我們觀察到概念主要體現在角度結構中,支持球形方法的動機,但範數對引導的穩定性與下游效應仍至關重要。研究結果解釋了為何具有相似概念層級效應的干預行為可能表現各異,並建議活化引導應以可解釋的角度與徑向分量參數化,而非透過單一加法係數綑綁這兩種效應。
LLM代理日益依賴外部推理條件:提示詞、工具、記憶、標準作業流程(SOP)、技能以及框架回饋。這些資產無需改變模型權重即可改善任務執行,但往往透過啟發式反思或重複利用觀察到的成功與失敗(彷彿僅憑次數即可構成可靠信念)來進行修訂。我們提出Bayesian-Agent,這是一個原生且跨框架的系統,將可重複使用的技能與SOP視為對於一個凍結模型在特定提示詞、上下文及框架環境下是否會成功的假設。Bayesian-Agent記錄經過驗證的軌跡證據,維護一個基於特徵條件化的分類後驗分佈,並將後驗狀態映射為可檢查的操作,例如修補、分割、壓縮、淘汰與探索。面向模型的提示詞獲得可執行的防護措施與失敗模式修補,而後驗摘要則可供審計。使用deepseek-v4-flash時,增量修復將SOP-Bench從80%提升至95%,Lifelong AgentBench從90%提升至100%,RealFin-Bench從45%提升至65%。我們進一步評估了Bayesian-Agent的原生後端以及可選的GenericAgent、mini-swe-agent和Claude Code後端。結果涵蓋正向、負向、飽和及案例研究設定,表明代理技能的演化最好視為後驗引導的框架優化,而非未經校準的提示詞累積。原始碼已公開於https://github.com/DataArcTech/Bayesian-Agent。
即時直播的影片修復(VR)需要在嚴格的每幀延遲限制下產生高解析度輸出。現有的一次性擴散式VR模型仍難以部署在消費級GPU上,主要有兩個瓶頸:高解析度下的二次空間注意力,以及大型影片自編碼器的延遲-記憶體開銷。我們提出SwiftVR,一個串流一次性生成式VR框架,在因果區塊式協定下減少這兩個瓶頸。在注意力方面,無遮罩移位視窗自注意力透過確定性索引將每個空間視窗收集成密集張量,使所有注意力呼叫保持在密集縮放點積注意力路徑上,無需遮罩、循環移位、填補或硬體特定稀疏核。由於SwiftVR僅使用標準的密集SDPA呼叫,訓練好的模型可直接遷移至消費級GPU,無需重新訓練或自訂核心。在自編碼方面,輕量級修復感知自編碼器實現快速區塊式解碼,同時保持重建品質。在單張H100上,SwiftVR在2560x1440下維持約31FPS,在3840x2160下維持約14FPS,而所有比較的基於擴散的VR基線在4K下均超出記憶體限制。在消費級RTX 5090上,SwiftVR在1920x1080下達到約26FPS。據我們所知,SwiftVR是首個在消費級GPU上實現即時1080p串流的生成式VR模型,同時以較低推論成本達到強大的無參考感知品質。專案網址為 https://h-oliday.github.io/SwiftVR。
世界-动作模型已成為機器人操控的一個有前景的典範,它透過聯合建模視覺場景動態與動作,將物理先驗注入策略學習中。然而,現有的世界-動作模型將世界預測與動作執行耦合在同一時間解析度下,迫使世界分支去建模近期的幀變化,這些變化既冗餘又資訊量不足。我們認為,嚴格將世界預測與動作執行綁定在相同的時間節奏,可能會低估影片分支在具身控制中的潛力。因此,我們提出AHA-WAM,這是一個基於雙擴散Transformer(DiT)架構的非同步時域自適應世界-動作模型,它圍繞這種時間不對稱性重新組織了世界-動作建模。AHA-WAM將影片DiT實例化為一個低頻的世界規劃器,它維護對過去觀測的滾動鍵值記憶,並暴露可重用的分層潛在上下文,以編碼長時域場景演化;同時,一個高頻的動作DiT通過分層聯合注意力查詢該上下文,在閉環中執行短動作片段。為了支援非同步執行,我們引入了時域自適應偏移訓練和觀測引導的視頻上下文路由(OVCR),這兩者共同讓動作專家能夠利用長時域的世界上下文,同時保持對即時執行狀態的反應能力,而無需重新運行影片DiT。在RoboTwin和真實世界操控任務上的實驗表明,AHA-WAM在無需任何機器人數據預訓練的情況下達到了最佳性能,在RoboTwin上平均成功率為92.80%,在4個真實世界任務中成功率為78.3%,同時實現了24.17 Hz的閉環控制,比Fast-WAM提速4.59倍。
Whisper作為廣泛採用的語音辨識模型,已知會產生幻覺現象——即針對非語音音訊生成與輸入完全無關的連貫轉錄內容。我們探討是否能透過Whisper的內部表徵來偵測並緩解此類幻覺。通過提取音訊編碼器激活值,我們評估了兩種表徵空間:原始Whisper激活值與稀疏自編碼器(SAE)潛在變數。研究發現,兩個空間皆編碼了線性可分的幻覺相關資訊,其判別能力集中於稀疏特徵子集,並隨編碼器層數加深而增強。我們提出兩種引導策略:激活空間引導與SAE潛在空間引導。在完整非語音測試集上,基於SAE的引導策略將Whisper small的幻覺率從72.63%降至14.11%,Whisper large-v3則從86.88%降至27.33%,同時對語音資料僅造成微小WER退化,效能已接近基於微調的方法。
我們提出 DEI:演化推理中的多樣性(Diversity in Evolutionary Inference),這是一個分散式品質-多樣性(Quality-Diversity, QD)搜尋框架,將異質大型語言模型(LLM)分配為跨對等節點的突變算子,這些節點透過非阻塞集合操作進行通訊。不同於同質平行搜尋(將單一模型的歸納偏誤複製到所有工作節點),DEI 將每個 LLM 獨特的創造性先驗視為行為新穎性的互補來源。透過在 DEI 框架下延伸數位紅皇后(Digital Red Queen)架構,節點在每輪結束時共享局部最佳解,作為下一輪族群的種子。這產生了跨模型的對抗壓力,驅動了超越模型內自我對戰的穩健性。在 Core War 領域(一個競爭性程式設計基準,其中 Redcode 勇士程式在模擬機器中戰鬥)進行的評估顯示,一個四節點異質整合(GPT-5.4-mini、Claude Sonnet 4.6、GPT-5.2 和 Claude Haiku 4.5)在總 LLM 呼叫預算相等的情況下,相較於單節點基準線,其合併歸檔 QD 分數提高了 124%(45.90 對 20.46),覆蓋率提高了 28%(80.6% 對 63.0% 的細胞)。該異質整合在 QD 分數、覆蓋率以及所有四個模型家族的保留解泛化能力方面,也優於同等預算的同質整合。這些結果提供了第一個經驗證據,證明在基於 LLM 的分散式 QD 搜尋中,增益的關鍵驅動因素是模型多樣性,而不僅僅是平行化。
奖励模型(RMs)为大语言模型的后训练阶段提供了关键的反馈信号,尤其在强化微调(RFT)和强化学习(RL)流程中作用显著。然而,当前的奖励评估依赖于多种异构准则,如基于规则的验证器、真实参考标注、程序性检查清单以及复杂的评估量表,而尚未有统一机制能够整合所有类型的证据。为此,我们提出技能奖励模型(Skill-RM),这是一个统一框架,将奖励建模重新定义为一种可复用的奖励评估技能的执行过程。通过将奖励计算视为结构化的智能体任务,Skill-RM提供了统一的接口来编排异构资源,动态选择并聚合适用于每个输入特定需求的证据。该方法使奖励模型摆脱了静态评估的局限,确保在不同任务中保持一致性与透明度。在奖励基准测试及下游应用(包括N选一选择和强化学习)上的大量实验表明,Skill-RM始终优于传统的评审基线模型。我们的研究发现表明,Skill-RM不仅为奖励建模提供了统一解决方案,还通过策略性、动态的证据编排实现了更优性能。代码已开源在 https://github.com/Qwen-Applications/Skill-RM。
儘管全模态大型語言模型(OLLMs)在同時處理音訊與視覺串流方面展現出令人印象深刻的能力,但它們能否嚴格遵循複雜且多面向的使用者指令,仍有待深入探討。現有基準主要聚焦於整體影片理解或純文字指令遵循,未能捕捉模態與使用者限制之間的複雜交互。為填補此缺口,我們提出OmniCap-IF,這是首個專門設計用於評估全模態字幕生成中指令遵循能力的綜合基準。OmniCap-IF採用系統性框架,從格式正確性與內容正確性兩個維度評估字幕。我們的基準涵蓋純視覺、純音訊及音視覺模態共50種不同的限制類型,並整合時間定位(Temporal Grounding)以評估時空精確度。對1,920個高品質樣本進行的廣泛模型評估顯示出顯著的效能差異。此外,我們的分析揭露了關鍵的「格式-內容權衡」現象,證明增加格式複雜度會直接削弱模型的全模態推理能力。最後,為推動領域進展,我們策劃了54K筆指令微調資料集OmniCap-IF-54K,並提出OmniCaptioner-IF,該模型在複雜指令遵循與一般全模態字幕生成效能上均取得顯著提升。
Muon 在大语言模型訓練中的效率比 Adam 高出約兩倍,但這種優勢的局部幾何來源仍不清楚。我們的研究從曲率視角出發,邁出了揭示 Muon 優於 Adam 之原因的第一步。首先,我們對訓練損失曲面進行二階泰勒近似,並證明在驗證損失匹配的情況下,Muon 能實現比 Adam 更大的單步損失下降。兩者的一階增益相當,但 Muon 始終承受更小的二階曲率懲罰。其次,我們將此曲率懲罰分解為更新範數平方與標準化方向銳度(Normalized Directional Sharpness, NDS)。我們發現 Muon 和 Adam 的更新範數相近,因此 Muon 較小的曲率懲罰源於更低的 NDS,而非更新幅度。第三,我們研究了訓練數據和模型結構如何塑造 Muon 的 NDS 優勢。通過使用具有可控不平衡性的 Zipf-概率上下文無關文法(PCFG)數據,我們證明數據不平衡會放大 Muon 相對於 Adam 的 NDS 優勢。進一步的層內/跨層分解表明,在訓練的中後期,Muon 較低的 NDS 主要由更小的層內曲率維持。除經驗證據外,我們還分析了具有異質曲率且梯度傾向於高曲率模態的典型二次問題。我們證明,Muon 通過在曲率組之間平衡更新能量,能夠達到比梯度下降(GD)更小的平均 NDS;當曲率異質性足夠強時,這也使得在相同步數後局部二次損失更低。
深度研究代理在複雜資訊尋求任務中展現了卓越的能力,然而這種能力卻伴隨著高昂的計算成本。由於受到以準確率為中心的訓練範式驅動,當前模型採用蠻力策略,其特徵包括盲目依賴工具與表演式推理——產生冗長且非必要的軌跡來解決任務,導致大量的工具呼叫與過度的令牌消耗。為了解決這種效率陷阱,我們提出SlimSearcher,這是一個有原則的框架,能在監督式微調(SFT)與強化學習(RL)兩個階段中,將準確率與計算成本之間的帕累托前沿向前推進。在SFT階段,SlimSearcher採用帕累托效率過濾來提煉既成功又經濟的軌跡,引導模型朝向本質上具備效率意識的搜尋行為。在RL階段,我們引入自適應獎勵門控(Adaptive Reward Gating),這是一種動態獎勵塑形機制,能在取樣群體中評估相對工具與令牌效率。透過將這些自適應效率指標與嚴格的正確性門控串聯,我們的方法有效避免了與絕對懲罰相關的簡潔性偏誤,並緩解了獎勵篡改問題。在包含GAIA、BrowseComp及XBenchDeepSearch等長期基準上的廣泛實驗顯示,SlimSearcher在維持或提升準確率的同時,能將平均工具呼叫回合數減少17%至58%。
基於語音的大型語言模型通常受限於口語回應,這使得它們面向用戶的輸出只能局限於可被口頭表達的內容,並抑制了文字原生的能力,例如程式碼生成、結構化分析及即時互動中的多步驟推理,尤其對於需要持久、結構化且可檢查的中間輸出的任務。現有的研究改進了口語推理或全雙工輪流發言,但仍將文字視為隱藏的中間狀態或次要模態,而非第一類輸出通道。我們提出「聽-寫-說」(Listen-Write-Speak, LWS)——一種以文字為優先的三通道範式,其中單一自回歸大型語言模型持續聆聽使用者語音,同時以可見的自由形式文字作為主要輸出,並在共享的因果注意力上下文下平行產生即時口語回應。此行為完全透過「令牌結構」(Token Schema)實現,無需修改模型架構,並經由兩階段資料處理流程學習,該流程合成與揭示的輸入時間軸一致的每秒認知註解。實驗結果顯示,LWS 在全雙工基準(Full-Duplex-Bench)上展現強大的全雙工互動能力,在 VoiceBench AlpacaEval 上達到 4.72 分,寫說一致性達 92.6%,並在 URO-Bench 上持續優於其內部消融模型。這些結果表明,可見的文字書寫可以作為語音互動的第一類輸出通道,且無需犧牲即時回應能力。程式碼與資料集已公開於專案頁面:https://royalzhang.com/project/lws-page/。
可驗證獎勵強化學習已成為透過結果導向監督來提升大型語言模型推理能力的主流範疇。然而,當所有針對特定提示的取樣軌跡獲得相同獎勵時,即便這些軌跡在推理品質上存在顯著差異,群體相對優勢估計仍無法提供梯度訊號,導致可驗證獎勵在群體層級經常失去資訊價值。為此,我們提出「推理競技場」——一個自適應訓練框架,能將這類獎勵多樣性不足的群體導向評判系統,而非直接捨棄。除了檢驗最終答案外,推理競技場建構軌跡錦標賽,將推理軌跡進行兩兩比較,藉此揭露群體內更細微的偏好差異,將推理品質轉化為豐富的相對獎勵訊號。為提升獎勵估計效率,我們無須窮舉所有配對,而是將每條新軌跡與一個動態更新的小型「參考軌跡池」中既有軌跡進行比較,從而高效建立相對排名。接著在非完整比較圖上擬合布拉德利-特里模型,實現無需二次配對比較的大規模強化學習整合。實驗結果顯示,在競賽數學與程式設計基準上,推理競技場平均表現穩定超越可驗證獎勵強化學習基準達7.6%。透過將原本無用的零優勢樣本轉化為有效梯度更新,我們的方法將訓練速度提升27%至41%,節省近50%的生成計算資源,並顯著提升整體推理表現。
世界行动模型(WAMs)通过将未来预测作为额外的训练目标来扩展机器人策略学习,鼓励策略在其表征中编码与任务相关的时间结构。当前WAMs通常依赖大规模生成式架构,导致训练成本高、推理延迟大,难以作为高效的闭环策略部署。我们提出Light-WAM——一种轻量级世界行动模型,用于高效机器人操作。具体而言,该模型采用紧凑的视频骨干网络,并在降采样的潜在空间中进行未来视频监督,从而降低视频联合训练成本,同时保留其对表征学习的益处。在动作预测方面,Light-WAM引入了StateFusionActionExpert,该专家从多个骨干层读取适配状态,通过可学习查询池化进行融合,并在单次前向传播中直接预测动作块。这一设计在视频骨干网络表征与机器人动作之间提供了高效接口,避免了使用繁重的生成式动作专家。实验表明,Light-WAM在LIBERO上保持强劲性能,在RoboTwin 2.0上实现可用的多任务性能,同时仅使用0.44B可训练参数。此外,其推理延迟仅为72.03毫秒,峰值GPU内存占用4.1GiB,并提升了训练吞吐量。
檢索增強問答管道常將檢索段落經由大型語言模型重寫器處理後,再送入較小的閱讀器,這能在多跳基準測試中將F1分數提升數十個百分點;此成效通常歸因於證據品質的提升。我們透過控制干預審計,探討此提升是否因果性地來自重寫文本中出現正確答案字串,而非重寫本身。針對每個重寫文本,我們對編譯輸出進行四種控制編輯後重新執行閱讀器:移除正確答案跨度、替換長度配對的隨機非答案跨度(安慰劑)、或將正確答案注入原本沒有的重寫文本中(置於前綴或中間句邊界)。在涵蓋三種閱讀器系列(Qwen2.5-7B、Qwen3.5-35B、GLM-4.7)、兩個資料集(HotpotQA、2WikiMultihopQA),以及三種編譯器配置(僅MA、僅MB、MA+驗證)的十二組完整(單元、基準線)干預運行中,在配對的答案存在於編譯的層級上,移除正確答案使閱讀器F1分數較長度配對的安慰劑下降28至64個百分點;而將原本缺乏的正確答案前置注入,在12組(單元、基準線)組合中的10組,使F1提升+0.7至+9.7個百分點。一項配套的五哨兵審計顯示,傳統的單一[MASK]探測本身即對哨兵敏感:在2Wiki資料集上,它報告出+4.12 F1的「非洩漏殘差」,但在四種替代哨兵下轉變為-3.33至-7.81 F1,且在四種替代哨兵中有三種未通過等價性檢定(僅1/4通過)。我們並未提出新的重寫器或緩解方法;我們釋出干預運行器與哨兵面板,以便其他重寫器成效主張能接受相同標準的檢驗。
文本到图像模型依赖文本提示作为人类意图的主要交互界面。提示通过文本编码器编码为嵌入,从而条件化图像生成过程。除了单个词元的含义外,文本嵌入还编码了整个提示的上下文信息,例如组合性和属性绑定。然而,图像模型是否实际利用了这些更丰富的信息仍是一个未被充分探究的问题。本文旨在探讨:文本表示的哪些方面对图像生成至关重要?我们证明,基于扩散变换器的文本到图像模型通常只依赖文本表示的两个相对简单的方面:(i) 将相邻词元合并为单词表示(针对跨多个词元的单词),以及 (ii) 词序,它由文本编码器的位置嵌入所印刻。为了证明这一点,我们构建了一种新的文本嵌入,它仅编码单个单词的含义和顺序,但缺乏关于整个提示的任何上下文信息。我们发现,这种带有位置标记的词袋表示足以成功引导图像生成,其视觉质量和文本忠实度与使用完整文本嵌入引导的生成相当。这表明,与普遍认知相反,文本到图像模型通常并不利用文本嵌入中除单词含义和词序之外的丰富信息。相反,复杂语言结构的解码是由图像模型自身完成的。项目网页:https://nsping13.github.io/contextless-TTI/
深度研究(Deep Research, DR)已成為一種新興的智能體範式,用於處理複雜且開放式的研究任務,要求系統能迭代地構建問題、獲取證據、驗證來源並綜合生成長篇報告。然而在實際應用中,現有的深度研究系統受到四項相互關聯的限制:在範圍未明確界定的情況下進行長時程規劃、在單一智能體內分解與排程此類任務的瓶頸、長篇綜合生成中的幻覺風險,以及流程可審計性不足。本技術報告提出 DuMate-DeepResearch,這是一個基於千帆智能體開發平台(Qianfan Agent Foundry)建構的多智能體深度研究框架。該框架將負責任務理解、規劃與排程的智能體核心(Agent Core),與具備可擴展性的工具生態系統(Tool Ecosystem)進行解耦,後者負責檢索、證據獲取與報告渲染,使每個中間決策與工具調用皆可明確追溯。在此基礎上,DuMate-DeepResearch 進一步導入三項機制:(一)基於圖結構的動態規劃策略,從粗略到細緻地展開研究路線圖,並透過反思、重新規劃、回溯與平行分支持續修正;(二)遞迴式的兩層執行設計,將每個複雜的搜尋子任務委派給內部搜尋智能體(Inner Search Agent),該智能體執行自身的規劃循環,以隔離雜訊檢索並穩定長時程執行;(三)基於評分標準(Rubric)的測試時最佳化機制,動態生成任務專屬的品質準則,並將其作為實時推理支架,用於以證據為基礎的綜合生成與自適應停止。在兩項深度研究基準測試中,DuMate-DeepResearch 均創下新的最佳成果:在 DeepResearch Bench 上取得最高總分(58.03%),在 DeepResearch Bench II 上亦取得最高總分(61.95%),同時在資訊召回與分析項目中排名第一。
視覺-語言-動作(VLA)模型正逐漸成為機器人操作領域中極具前景的典範,使我們能透過大量示範資料與動作標籤訓練出通用策略。然而,將這些模型適應至新任務時,通常仍需要任務專屬的示範資料、動作標註以及額外的微調,導致部署成本高昂且難以擴展。 我們提出WIZARD,一個基於權重空間的元學習框架,能夠透過為凍結的VLA策略生成任務專屬的LoRA參數,從而繞過任務專屬的微調步驟。僅需一條語言指令與一段簡短的示範影片,WIZARD即可在單次前向傳遞中預測出對應的適應權重,無需目標任務的動作標籤或測試時的最佳化。在元訓練階段,WIZARD學習將任務證據直接映射為專家等級的LoRA更新,並在權重空間中捕捉任務之間的關聯性。 在LIBERO上的實驗結果顯示,WIZARD在未見過的資料集組合上效能提升達約2倍,而在未見過的任務上則提升達約14倍。在Franka Emika Panda機器人上,WIZARD始終優於經過真實域適應的基線模型,證明所生成的適配器能提供超越模擬環境的任務層級專精化。
基於策略蒸餾(OPD)已成為大型語言模型(LLM)的核心後訓練工具,它能沿著學生模型自身的生成路徑提供密集的逐標記教師監督。本研究發現OPD存在一個共同的結構性成因,稱之為前綴失敗(prefix failure)。在前綴失敗下,密集的逐標記監督會引發雙峰教師混合分佈與碎片化梯度,而逐標記損失截斷或重新加權均無法解決此問題。此發現促使我們從逐標記損失干預轉向軌跡層級的輸出校正。為此,我們提出軌跡精煉蒸餾(TRD),這是一種在符合策略支持範圍內,基於教師引導修正學生模型生成軌跡的軌跡層級校正方法。TRD在蒸餾前修正問題前綴,從根源上緩解前綴失敗。此外,即使學生原始生成結果已正確,TRD也能透過教師引導暴露學生於替代的有效推導路徑,從而提升探索能力。TRD亦可應用於基於策略自蒸餾(OPSD)——一種使用條件化於特權資訊的學生模型作為教師的參數共享變體。在涵蓋多種規模的多組基準測試與基礎模型中,TRD始終優於先前基線,提升單次嘗試準確率並拓展推理覆蓋範圍。程式碼已於 https://github.com/louieworth/trd 公開。
具備可驗證獎勵的強化學習已迅速推進了視覺-語言模型的推理能力。然而,在胸部X光報告生成任務中,標準獎勵(即精確匹配準確率與逐步推理過程)並不相容,因為這類報告由無序且正交的發現組成,而非因果推理鏈條。為解決此問題,我們提出基於集合的觀點:將每份報告拆解為句子,並經由凍結的句子轉換器嵌入,形成無序的嵌入集合。我們提出使用生成嵌入與參考嵌入之間的「集到集距離」作為連續且具置換不變性的獎勵。在兩個資料集與三種視覺-語言模型(Qwen3-VL-2B/4B、Gemma3-4B)上,採用基於集到集距離的獎勵進行GRPO後訓練,在所有主要指標(BERTScore、RadGraph F1、CheXbert F1)上一致優於監督式微調與精確匹配GRPO,平均相對改善幅度分別為%6.80、%7.82與%4.45。相同的集合距離亦可用於測試時的最佳N選擇:透過候選報告與訓練報告嵌入之間的距離進行評分,不僅優於我們訓練模型的隨機選擇,亦優於三種封閉源大型語言模型(Mistral-Small、Gemini-2.5 Flash-Lite、GPT-4o-mini),在BERTScore上的平均相對改善達%16.4。作為串流訊號使用時,它們支援更高效的測試時擴展方式:在生成過程中剪除低分候選,可減少超過50%的生成令牌,同時保留完整最佳N選擇的發現品質。綜合以上結果,本工作確立了集合距離獎勵作為胸部X光報告生成中後訓練與測試時擴展的統一訊號。我們的程式碼已公開於 https://anonymous.4open.science/r/Set-Distance-Rewards-CXR-BFDA{available}。
視覺變壓器(Vision Transformers)使用固定區塊網格進行運作,這可能在密集預測中引入與相位相關的不穩定性:改變區塊劃分方式會改變像素可獲得的標記證據,尤其是在邊界附近。我們將區塊網格相位形式化為一項干擾變數,並提出「相位邊際化」(Phase Marginalization)方法——這是一種事後邊際化技術,透過評估結構化的區塊網格相位、逆向對齊密集輸出,並在原始影像座標系中將其聚合。其核心變體——使用 K=4 的均勻相位邊際化(Uniform Phase Marginalization)——無需額外訓練,且在測量的分割、深度及局部匹配設定中均優於標準的 K=1 基線。在一項受控的 Cityscapes 實驗中,均勻相位邊際化相較於基於通用平移的四次前向測試時增強(TTA),提供了適度的計算匹配優勢(相較於最強測試通用列,平均交並比提升 0.31)。規模化研究進一步顯示,K=4 是實用成本-準確權衡點:K=8 的結果本質上無變化,而 K=16 則在明顯更高的延遲下僅增加極少的準確度。這些結果將區塊網格相位定位為一項可測量的干擾變數,並將相位邊際化確立為密集 ViT 預測中一種簡單的診斷與事後邊際化基線。
訓練視覺語言網頁代理的多步強化學習運算密集,主要存在兩種效率低下的形式:同步強化學習中GPU閒置,以及軌跡使用過多步驟和標記。我們提出AsyncWebRL,同時解決這兩個問題。在系統層面,一種異步設計將迭代間的生成、梯度更新和策略更新重疊,並搭配兩種網頁代理專屬的適配機制,即永不枯竭的生成池和輕量級截圖處理,相較於先前最快的開放同步管線(WebGym),可實現高達2.9倍的端到端訓練吞吐量加速。在演算法層面,我們發現多步GRPO中的每個軌跡歸一化器1/|τ_i|是造成軌跡層級和標記層級低效的根本原因:由於失敗軌跡系統性地比成功軌跡更長,此歸一化器會降低失敗標記負梯度的權重,導致策略持續產生冗長的記憶模式。將1/|τ_i|替換為常數1/k可打破此耦合,在維持整體成功率的同時縮短軌跡。綜合這些貢獻,我們在WebGym分佈外測試集上創下新的開源技術水準(相較於先前最佳42.9%相對提升5.8%),在更困難的子集上獲得最大增益(Medium相對提升42%,Hard相對提升48%)。
弱到强泛化(weak-to-strong generalization)研究的是在缺乏可靠標籤時,如何利用較弱教師的監督來提升較強學生的表現。我們將此問題視為一個數據篩選問題,其核心挑戰在於識別哪些弱標籤足夠可靠,可作為訓練信號。為解決此問題,我們引入了信任函數(trust functions),為每個弱標籤賦予一個標量信任分數,並利用這些分數來過濾弱監督。在多個領域(包括世界知識、數量推理與策略遊戲)中,信任過濾(trust filtering)使學生的表現能夠匹配,甚至在某些情況下超越真實監督(ground-truth supervision),實現近乎無損的弱到強泛化。此外,信任函數能夠建構一個迭代的弱到強鏈(iterative weak-to-strong chain),透過訓練學生並將其重複用作下一階段的教師,從而疊加增益、放大效果。信任函數的優勢可歸因於多種機制。
思维链(Chain-of-Thought, CoT)提升了大型语言模型(LLMs)的性能,并已被扩展至多模态大型语言模型(MLLMs)。近期研究更进一步,从基于文本的多模态推理转向交织模态推理,其中间步骤可同时包含文本推理依据与视觉证据。在本工作中,我们提出一个更大胆且更具雄心的设想:图像能否单独作为推理媒介,服务于语言任务与多模态任务?为探索此问题,我们提出光学推理(optical reasoning),将图像视为独立的推理媒介。我们通过两种变体实例化这一概念:基于排印的光学推理,通过优化视觉布局实现紧凑的推理依据呈现;以及基于图形的光学推理,将文本与图形元素组合为结构化的视觉推理依据。在数学、科学及交织模态推理等基准测试中,光学推理能够匹配甚至超越传统文本推理,同时在语言任务中平均减少28.57%的推理令牌,在多模态任务中平均减少16%的推理令牌,实现文本推理1.96倍的令牌效率。这些结果表明,图像能够高效且有效地编码推理依据,同时为推理过程提供统一的视觉画布。
近期基于视频的世界模型已使像素级别的环境具备了相机层面的交互能力:用户可以自由调整视角,同时模型能够生成连贯的视觉延续。然而,这些模型的“动作空间”仍不完整:用户只能移动相机,却无法对单个物体施加操作。由于真实世界的交互本质上是“以物体为中心”的,这类模型更像是被动的场景观察者,而非真正可操控的环境。为此,我们提出 **WorldCraft** 框架,将交互式视频世界模型的范畴从相机导航扩展至物体级轨迹动作。用户只需点击并绘制一条路径,WorldCraft 即可生成未来帧,其中被选中的物体沿指定轨迹移动,同时相机继续在场景中自由导航。WorldCraft 通过一套以轨迹为核心的操控流水线实现这一功能:首先,**归一化世界轨迹(NWT)** 将用户绘制的运动表示在相机不变的全局世界坐标系中,并根据当前相机姿态动态重新投影,从而将物体运动与相机引起的屏幕空间位移相分离;接着,**空间路径 LoRA(SP-LoRA)** 将这一世界空间信号注入模型的空间操控通路,在保留预训练相机控制器的同时增添物体操控能力;最后,**轨迹锚定状态持久化(TASP)** 将世界轨迹视为持久的空间状态,并在基于轨迹条件生成后刷新自回归记忆,确保被移动的物体在离开相机视野后重新出现时仍位于更新后的位置。实验表明,WorldCraft 实现了精确的物体控制,在仅进行相机控制的评估中保持了基于视频的世界模型的相机保真度,并能跨越包含镜头外移动的长程自回归生成过程维持物体状态。
AI評估結果大量產出,但在排行榜、模型卡、基準論文與公司部落格中的報告方式卻不一致。這導致了解讀上的成本:讀者無法可靠地比較不同來源的結果,無法辨識報告中遺漏了哪些資訊,也無法將整體性主張追溯至其背後的證據。近期的努力針對了孤立的組成部分,但仍存在三個缺口:它們僅涵蓋評估生命週期中狹隘的片段,且無法組合成單一可解讀的記錄;它們指定了靜態的表示方式,無法區分不同利害關係人針對同一份證據所提出的問題;它們仍停留在紙本提案層面,缺乏大規模採用所需的萃取基礎設施。我們提出一個可操作的報告層,將基準後設資料、評估運行資料與模型後設資料組合成統一的記錄。我們:(1) 從52篇論文與10場利害關係人訪談的結構化回顧中推導出報告架構,(2) 實作四種解讀訊號(可再現性、文件完整性、來源與風險,以及分數可比性),並透過針對研究與非研究受眾校準的讀者模式呈現,以及 (3) 部署一個監控工具,將其應用於5,816個模型、635個基準與101,843筆結果,揭露當前報告實務中的系統性缺口。
提示注入檢測器具有異質性:每個檢測器在不同的攻擊類別上表現突出,但沒有一個始終可靠。然而現有系統仍將檢測視為固定的單一檢測器流程,將每個請求交給某個檢測器的盲點去處理。我們將防禦重新定義為檢測器分配:給定一個異質的檢測器池,針對每個請求決定執行哪些檢測器,以及是否升級到 LLM 評判者。我們的框架 SCOUT(可擴展且可控的結果預測以實現不確定性感知分流)使這項決策具有動態性——透過預測每個檢測器對過去相似輸入的行為來推斷其針對當前樣本的可靠性與延遲,並向操作員暴露單一的安全-效用閾值(其中效用統合了良性通過率與實際耗時)。為了評估此設置,我們建構了 SCOUT-450 基準,該基準捕捉了結構複雜、面向代理的注入攻擊,這類攻擊在舊的提示注入集體中代表性不足。在 SCOUT-450 上,相對於始終開啟的 GPT-4o 評判者,一個以安全為導向的操作點將攻擊成功率降低了 46%,總實際耗時降低了 40%,同時良性效用僅下降 5.1 個百分點。SCOUT 在三項外部基準(BIPIA、IPI 和 IHEval)上也展現了遷移能力,改善了安全-效用邊界。
Agent 基准测试通过通常手动编写且脆弱的输出验证器来对提交进行评分,这使得它们容易受到奖励利用攻击。我们对五个终端代理基准测试中的 1,968 个任务进行了审计,发现其中 323 个(16%)可以被前沿模型仅凭任务描述攻破。这不仅破坏了排行榜排名,也污染了强化学习训练信号,但标准的应对方式仍是手动且被动的。 我们引入了“黑客-修复者循环”方法,这是一种无需针对每个任务进行手动修补即可构建抗利用验证器的方法。该循环交替使用三个大语言模型代理:黑客试图在不完成任务的情况下通过验证器,修复者对验证器进行修补以拒绝每个已发现的利用手段,而求解者则确认修补后的验证器仍然承认合法的解决方案。循环迭代进行:每次修补都会重塑验证器所奖励的内容,从而暴露出下一个利用手段。我们进一步增加了对验证器的访问权限,并允许补丁在不同任务之间转移,以扩展该循环能发现的利用手段范围。 在 KernelBench 上,该循环将公开报告利用集合中保留数据集的攻击成功率从 62% 降至 0%。我们还发现,循环中使用较弱的代理也能抵御更强的黑客:使用 Gemini 3 Flash 的循环,在 KernelBench 上,使更强的 Gemini 3.1 Pro 和 Claude Opus 4.7 的攻击成功率分别从 76% 和 61% 降至 0%;而在 Terminal Bench 的 77 个任务中,使 Gemini 3.1 Pro 的攻击成功率从 39% 降至 17%。我们发布了 Terminal Wrench(包含 323 个可攻破环境、3,632 条黑客攻击轨迹),作为当前攻击面的快照,同时发布了修补后的验证器、该循环发现的利用手段以及我们的实现代码,作为未来研究的基础。
現有的科學關係抽取基準主要針對電腦科學等領域,其中實體為任務、方法、資料集、材料或指標。這在心理學等以變數為導向的實證領域中留下了缺口,因為這些領域的研究結果通常以構念、測量、干預與結果之間的關係來表達。我們提出以變數為中心的實證圖抽取任務,旨在將科學摘要映射為類型化圖形,其節點為標準化變數,邊則代表實證關係與層級關係。為支援此任務,我們建構了EmpiriGraph-Psy基準,涵蓋210篇心理學摘要,並由受過領域訓練的標註員對標準化變數、概念層級、實證關係類型與驗證狀態進行標註。我們評估了前沿和開源權重的LLM,採用了直接抽取與分階段圖建構流程(分別進行變數抽取、標準化、層級建構、證據篩選、關係抽取及邊緣驗證)。分階段流程明顯優於直接抽取,最佳配置可達到0.74的巨集F1分數。錯誤分析顯示,調節關係與概念層級仍是最具挑戰性的案例,凸顯了從科學摘要中提取高階實證主張與隱含抽象結構的困難。
理解生成模型從訓練資料中保留了哪些內容仍具挑戰性,這對版權與隱私皆有影響。除了逐字複製外,模型還能編碼訓練資料中更微妙的痕跡,這些痕跡從未在其輸出中顯現,但仍可被利用。我們針對 Rectified Flow 研究此類情況,後者越來越多地用於部署的生成系統中。我們分析定義 Rectified Flow 訓練的插值路徑 X_λ = (1-λ)X_0 + λX_1。我們證明,在 λ 上存在一條鐘形曲線式的訓練與測試資料重建差距,該差距在訓練過程中累積,而驗證指標仍保持穩定。此訊號具有一個最大值,我們在高斯假設下推導出其位置的閉合解。我們在音訊與影像上驗證了這些預測,並顯示鐘形結構具有普遍性,而當我們的假設成立時,峰值預測也成立。作為概念驗證,我們利用此特定的 λ 解析結構來執行成員推理攻擊,以區分訓練集的成員與非成員。
医学代理系统日益被期望能够支持交互式临床决策,而不仅仅是静态的问答。在此类场景中,有效的代理必须能够在不断演变的病例中复用先前的经验,然而现有的记忆机制往往保留原始的历程记录,这些记录冗余、嘈杂且难以管理。更重要的是,它们很少能区分哪些记忆对未来推理真正有用。这限制了它们为长期临床推理积累紧凑而可靠经验的能力。为弥补这一差距,我们提出了SkeMex,一个部署后的自我进化框架,通过基于技能的记忆来改进医学代理,而无需更新模型权重。SkeMex将信息丰富的交互轨迹提炼为结构化技能,编码可复用的程序性知识,并将其组织成一个多分支的知识库,涵盖通用经验、任务特定经验和动作级经验。为了决定哪些记忆应被复用和保留,SkeMex从环境反馈中估计上下文相关的效用,并利用它来指导价值感知的检索和知识库治理。一个闭环的“读取-写入-评估-治理”生命周期进一步支持持续进化,通过写入新技能、更新效用、促进有用记忆和删除有害条目来实现。在多种临床任务上的实验表明,SkeMex在离线与在线设置中均持续优于具有代表性的基于记忆的代理。它还能跨模型主干进行泛化,并支持可迁移的技能记忆。所有数据和代码将公开发布。
我們提出 SigmaScale,這是一種學習輔助縮放矩陣 S 的方法,旨在協助基於截斷奇異值分解(SVD)的大型語言模型(LLM)壓縮。不同於以解析方式推導縮放矩陣,SigmaScale 在基於啟用值感知的壓縮損失下,最佳化兩組定義對角線行與列縮放轉換的向量。我們證明,學習到的縮放能降低權重矩陣的有效內在秩,這反映在有效秩熵的減少上,而此減少與壓縮損失之間存在強烈相關性。在 Llama 3.1 8B Instruct 與 Qwen3-8B 上的實驗顯示,SigmaScale 在困惑度與零樣本基準測試上,與緊密相關的現有基於 SVD 的壓縮方法相比,具有競爭力。透過使用學習到的啟用值感知轉換,SigmaScale 藉由適應個別模型權重的結構,探索出一條更具彈性的低秩 LLM 壓縮途徑。在特定任務中觀察到的優勢,使我們的方法成為需要降低 LLM 推論計算成本的應用中一個可行的選項。
大型语言模型正越来越多地由其他模型进行评估,这引发了一个自然问题:模型能否预测评审者对其自身输出的评分?我们发现,在未进行任何针对性训练的情况下,这种能力已广泛存在:通过少量示例提示,基础模型在三个基准测试中,对开放式回复的多属性质量评分,其预测结果已显著高于随机水平。我们提出了自我评估诱发(Self-Evaluation Elicitation, SEE)方法,该方法通过一个短周期来挖掘这种潜在能力:该周期包含一个结合校准的强化学习阶段,用于改进回答并预测评审者,随后是一个掩码蒸馏阶段,在保持回答不变的同时优化预测结果。与强化学习基线相比,仅利用160个独特示例(约为其31倍的数量),SEE在三个基准测试中改善了留出校准性能,同时保持了回答质量。诱发的自我评估能力被精确地定位在模型自身的 token 分布中,并且对于从未训练过的评审者具有稳定性,这表明其反映的是可迁移的质量概念,而非单一评审者的偏好。这些结果将基于评审者校准的自我评估问题重新定义为诱发而非习得的问题。
標準Transformer在每一層和每一個token上都均勻地應用自注意力機制,無論輸入是否需要動態的跨token交互。我們提出CHIAR-Former(明暗對比注意力),這是一個4層混合Transformer,根據每個token的頻譜熵(一種理論上有依據的複雜度信號)將每個token路由到三個運算符之一:DCT頻譜混合、RBF核混合或完整自注意力。通過在WikiText-103上進行系統性的消融研究,我們發現了路由崩潰現象:路由 consistently 拒絕RBF,而傾向於選擇DCT和注意力,這表明頻譜混合與動態注意力是互補且足夠的。一個專門設計的僅含DCT+注意力的變體在WikiText-103上達到了Val PPL 36.54——與完整注意力基線(PPL 66.62)相比,提升了45%,同時減少了62.5%的注意力FLOPs。我們將評估擴展到WikiText-2、IMDB情感分類以及合成ListOps運算任務,從而確立了一個明確的運作區間:CHIAR-Former在token多樣性能夠支持頻譜專門化的大規模自然文本上表現優異,而完整注意力在小型數據集和合成模式匹配任務上仍具優勢。這些發現——無論是成功還是失敗——共同定義了頻譜路由在何時以及為何值得採用。
長程智能體任務對基於結果的強化學習構成了根本性的信用分配挑戰:軌跡層級的獎勵僅驗證最終正確性,卻無法提供足夠的指引,區分哪些中間推理步驟或工具互動促成了最終結果。此困難在多輪搜尋智能體中尤為明顯,因為成功的軌跡可能包含誤導性動作,而失敗的軌跡則可能包含有價值的證據蒐集步驟。我們提出PBSD(特權貝氏自我蒸餾),一種在稀疏最終獎勵下進行細粒度信用分配的貝氏校準自我蒸餾方法。PBSD透過驗證答案的後驗機率與先驗機率比率來衡量軌跡品質,並運用貝氏定理將此難以估計的答案端比率,轉換為標準學生模型與特權答案條件教師模型之間的可處理似然比率。對此貝氏證據分數進行自迴歸分解,可產生輪次層級的訊號,藉以識別每個中間輪次是支持還是削弱了驗證結果。因此,PBSD提供一個原則性且優雅的重新加權機制,將稀疏的結果監督轉化為貝氏校準的輪次層級信用訊號,同時完全相容於標準的策略最佳化。實驗結果顯示,PBSD在域內與域外設定中一致地提升了效能,並有效地將短上下文訓練的知識遷移至長上下文推理中,這表明其細粒度的信用分配機制有助於更有效的策略學習,並帶來更佳的泛化能力。
近年來,機器人操作領域的進展主要得益於大規模示範學習。然而,針對人形機器人的全身操控任務,現有數據來源在軌跡品質與可擴展性之間存在難以調和的取捨。真實世界的遙操作能提供最高品質的軌跡,但需要專用的物理空間與耗時的場景重置。模擬則為此困境提供替代方案:無需實體硬體,即可大規模生成乾淨且符合本體結構的數據。本文提出OASIS,這是一個基於模擬數據的人形機器人全身操控框架。OASIS利用3D生成模型,從真實世界影像中自動重建逼真的物體資產。在此基礎上,先於模擬環境中透過遙操作收集軌跡,再於後處理階段對其進行多樣化域隨機化的擴增。憑藉所產生的模擬數據,我們進一步設計了一套分層式視覺運動策略,應用於人形機器人的全身操控。在真實人形機器人上的大量實驗顯示,在零樣本部署條件下,基於模擬數據訓練的策略在多數任務中成功率均高於基於真實機器人遙操作數據訓練的策略。這主要歸因於模擬渲染涵蓋了廣泛的光照與環境變化,而真實機器人數據無法捕捉這些變化。專案頁面請見 https://oasis-humanoid.github.io/。
潛在視覺推理(LVR)在視覺語言模型(VLM)中於感知與答案生成之間插入監督式潛在標記。該領域利用這些潛在表徵與其視覺目標之間的對齊程度(即餘弦相似度或均方誤差)作為訓練損失與品質指標,假設更好的對齊能帶來更佳的答案。我們透過一個包含五種LVR變體的設計矩陣測試此假設,發現該假設恰好相反:餘弦對齊與所有五種變體的準確率呈負相關(r=-0.94)。為解釋此現象,我們提出PRISM,一組推理階段的診斷工具:一個線性探針用於探測答案在何處可被解碼,以及一個破壞性測試用於檢驗潛在表徵是否承載關鍵資訊。結果顯示監督式潛在表徵在很大程度上被繞過:破壞它們僅使準確率最多偏移四個百分點。答案可在潛在表徵的下游而非其本身被解碼,且此解碼能力差距的大小可預測每個變體在擾動下對其潛在表徵的依賴程度。與資訊瓶頸對損失函數的解讀一致,輔助目標實際上是透過共享參數重塑語言模型,而非透過其所名義上最佳化的潛在變數。
本文探討了智能體3D空間理解,即多模態大語言模型(MLLM)智能體透過工具使用進行3D推理。現有方法常誤用工具,且在3D場景下展現出偏頗的工具偏好,導致智能體範式相較於非智能體策略僅有邊際效益提升。我們揭示出3D空間推理任務在不同場景中具有異質性,而這些智能體卻對所有場景採用統一的工具使用策略,而非根據具體場景與任務選擇工具。為解決此問題,我們提出Skill-3D框架,該框架能學習自我進化的場景感知技能。具體而言,Skill-3D識別任務場景,並將智能體的工具使用軌跡記錄於場景記憶(Scene Memory)中;來自相似場景的成功軌跡會被彙總並提煉為可重複使用的場景感知技能,而失敗軌跡則作為教訓附加於該技能。在訓練過程中,一旦類似場景再次出現,便注入對應技能以引導智能體,產生的新軌跡無論成功或失敗,都能進一步優化該技能,形成記憶與技能庫共同演化的閉環。實驗結果顯示,Skill-3D顯著提升了3D空間推理中的工具使用效率(在VSI-Bench上從39%提升至78%),促使智能體正確且充分地使用工具。例如,它在MMSI-Bench上將Gemini-3-Flash提升了67%。此外,我們對技能引導軌跡進行了智能體後訓練,使Qwen3-VL-8B在VSI-Bench上提升了43%。
使大型语言模型(LLMs)能夠執行可靠的多步驟工作流程已成為人工智慧領域的核心挑戰。儘管近期LLMs在代理能力方面取得進展,多數代理系統仍缺乏用於規範、驗證及除錯其工作流程與執行軌跡的形式化方法。此挑戰與數學中長期存在的問題相似——自然語言的歧義性促使了形式語言的發展。受此典範啟發,我們提出**Lean4Agent**,據我們所知,這是首個利用依賴類型形式語言Lean4來建模與驗證代理行為的框架。**Lean4Agent**推出**FormalAgentLib**——一個可擴展的Lean4函式庫,用於在明確假設下形式化建模與驗證代理工作流程的語義一致性,並能從軌跡中定位執行階段的錯誤。基於**FormalAgentLib**,我們進一步開發**LeanEvolve**,該工具應用**FormalAgentLib**的結果來修訂工作流程以提升其能力。在SWE-Bench-Verified的困難子集與ELAIP-Bench子集上,使用五個頂尖LLM進行的廣泛實驗表明:通過驗證的工作流程平均比未通過者高出**11.94%**,而**LeanEvolve**進一步將SWE效能平均提升**7.47%**。此外,**Lean4Agent**為使用具表達力的依賴類型形式語言來形式化建模與驗證代理行為開闢了新領域。
混合專家模型(MoE)已成為前沿語言模型的主流架構,但其運作時須將所有專家參數載入記憶體,這使得它在記憶體受限的部署場景中較不理想。現有的壓縮方法雖能減少專家數量,但輸出仍是具有相同基本限制的MoE模型。我們提出首個系統性框架,可將已訓練的MoE模型轉換為標準的全密集架構:先對專家進行評分、篩選與分組,再將它們拼接成密集前饋神經網路,並透過來自MoE教師模型的知識蒸餾進行精煉。我們在Qwen3-30B-A3B上針對多種選取專家數量,評估了7種評分方法、5種分組方法及2種幅度縮放方法,共產生350種配置。研究發現評分方法的選擇影響最大,我們新穎的「多樣性感知評分」在Qwen3-30B-A3B、DeepSeek-V2-Lite與GPT-OSS-20B上始終優於先前的方法。在參數數量匹配的受控比較下,MoE轉密集模型經過約4B token的蒸餾後,其平均下游任務準確率比密集轉密集剪枝高出6.3個百分點,且訓練時鐘速度加快了1.6倍。
反思型智能體依賴於自我生成的反思作為記憶,隱含假設了智能體能準確診斷自身失敗。我們證明此假設可能系統性地失效:在ALFWorld與HumanEval中,智能體會儲存對任務的自信但錯誤的解讀,並在多次試驗中持續依此行動,即使環境每次都會重置為正確的任務。我們將此失敗模式稱為「記憶虛構」,並引入「反思重複率」(RRR),這是一種基於日誌的指標,用於檢測對錯誤反思內容的重複依賴。透過RRR,我們在ALFWorld中識別出16個凍結環境,其中121次反思完全未提及正確目標物件,並在HumanEval中發現4個類似案例。我們的緩解方法以程式化提取軌跡層級的失敗信號取代開放式自我診斷,將正確物件提及率從0%提升至86%,RRR從0.64降至0.10,並成功解決ALFWorld中16個凍結環境中的3個,顯示反思記憶可能強化而非修正錯誤信念。
被動長波紅外(LWIR)高光譜成像在遠距離幾何構型下,依賴於大氣吸收與發射以及反射輻射亮度,因此需要進行大氣校正才能獲取目標物體的相關資訊。儘管其重要性不容忽視,但由於實際操作與建模上的困難,此校正工作在很大程度上被忽略。本文提出一個輕量級的基於集合的深度學習框架,該框架以在不同遠距離範圍收集的多個輻射亮度測量值為輸入,並聯合估計大氣透過率、大氣路徑輻射以及共同的下行輻射光譜。我們利用稀疏自編碼器分析所學習的特徵表示,並觀察到:儘管缺乏位置監督,部分潛在特徵仍會對測試資料中地理上一致的子集產生活化。在基於MODTRAN生成的遠距離LWIR資料集上的實驗結果表明,所有估計產品的頻譜失真均較低。該資料集與程式碼已公開於:https://factral.co/SAE-LWIR/
跨視角地理定位透過將地面圖像與航空圖像資料庫進行匹配來估算其地理位置。現有方法透過大規模檢索或精確姿態估計來處理此問題,但無法同時兼顧兩者:基於檢索的方法能實現廣域搜索,卻犧牲了定位精度;而姿態估計方法僅能在狹窄搜索空間內達成高精度。若直接串接這些流程,會導致誤差傳播與特徵表示不一致。我們將跨視角地理定位表述為一個統一的問題,要求同時實現城市規模的檢索與精確的三自由度姿態估計。我們提出CIPER(跨視角圖像檢索與姿態估計變換器),這是一個透過互利特徵學習同時執行兩項任務的單一架構。CIPER使用共享的變換器編碼器搭配任務特定標記,將全局檢索特徵與空間定位線索分離。為跨越地面與航空視角之間的巨大領域差異,我們引入一種雙向變換器姿態解碼器,該解碼器以地面特徵作為空間查詢進行雙向交叉注意力。進一步地,集合預測策略能在統一的多元任務目標下實現穩定的三自由度回歸。在VIGOR、KITTI與Ford Multi-AV資料集上的實驗展示了競爭力,特別是在有限視野與任意方向條件下。程式碼已於 https://github.com/yurimjeon1892/CIPER 公開。
無參考忠實度指標會逐一驗證模型對事實基準提出的原子主張,並且日益用於評估基於事實的生成。我們證明這類指標存在一個共同盲點:它們僅測量精確率——所述主張是否有根據?——因此會獎勵不表態,因為模型幾乎不發言就能獲得近乎完美的忠實度。我們利用一級方程式賽車遙測數據使此現象可量化,該領域的策略性事實基準可確定性地、關鍵的是完整地推導出來:針對每個決策,我們知道所有影響結果的事實。這種完整性(在開放領域忠實度基準中不存在)讓我們能同時精確測量召回率(相關事實的覆蓋率)與精確率。在一個包含7,253個決定實例、橫跨150場比賽的多語言(英/西/葡)基準中,最精確的前沿模型僅涵蓋不到一半的相關事實,並在F1上排名墊底。因此要求覆蓋率會重新排序系統;此效應在第二個完整事實基準領域(NOAA天氣預報)中再次出現。一項提示消融實驗顯示低覆蓋率並非提示不足所致:明確要求模型全面作答並未縮小差距。我們將忠實度與覆蓋率結合成單一分數,驗證該指標(受控擾動;無正則表達式提取器與跨系列LLM提取器之間的一致性,系統級斯皮爾曼相關係數1.0),並提供一種無需參考的驗證器引導生成方法,可同時提升精確率與召回率。我們發布該基準、結構化註釋、指標、基線模型以及互動式演示。
大语言模型(LLMs)透過上下文學習整合語言資源,為極低資源語言的機器翻譯(MT)提供了前景可期的方法。然而,LLMs 在翻譯過程中往往難以有效應用語法資訊。受近期思維鏈推理進展的啟發,我們探討了低資源機器翻譯是否能從結構化的語言分析與語法推理中間步驟中受益。我們提出一套流水線,可從通用依存關係樹庫、詞典及語法規則庫自動生成逐步的語言推理軌跡。我們以錫伯語和奇唐語為測試案例,在三種設定下評估這些軌跡:上下文學習(ICL)、監督微調(SFT)以及強化微調(RFT)。結果顯示,語言推理軌跡作為推理時的引導最為有效:在 ICL 中,可靠的句子特定軌跡顯著提升了大多數模型、語言及指標上的翻譯表現。相比之下,將語言推理軌跡作為訓練數據僅能帶來較小且不一致的增益,因為模型學會了軌跡格式,但經常生成錯誤內容。這些發現表明,當提供可靠語言分析時,LLMs 能利用語法資訊進行低資源機器翻譯,然而學習生成此類分析仍是一大瓶頸。
企業屬性圖在模式結構、內部術語、領域假設、治理限制以及使用者互動模式上均有極大差異。因此,一個與部署相關的Text2Cypher基準測試,必須反映使用者與代理實際對該圖提出的問題與查詢。建立此類基準測試相當困難,因為模式與數值具有獨特性,且圖結構會隨時間變化。每個自然語言-查詢配對必須可執行、使用真實圖實體、維持多樣性,並在查詢類型與難度層級上保持平衡。我們提出PIPE-Cypher,這是一套本地端基準生成流程,能將運作中的屬性圖與可選的種子查詢(來自客戶問題、分析人員日誌或代理工具呼叫)轉換為平衡的自然語言轉Cypher基準。PIPE-Cypher結合了模式剖析、反向查詢基礎化、受限生成、確定性Cypher治理、執行驗證、編輯處理、多樣性控制,以及經過校準的本地LLM評判器。透過本地Qwen3.5-9B進行生成與評判,PIPE-Cypher輸出3,000個經接受的FinBench/SNB範例,完成三組經審核的消融實驗套件,以人類標籤校準評判器行為,並評估11個本地下游模型。所產生的基準測試刻意具有判別性:零樣本遷移表現薄弱,而少樣本控制則顯示,模式專屬的範例庫能協助相容的模型系列。整體而言,PIPE-Cypher讓Text2Cypher基準測試成為一個可重複的流程,並隨著圖本身、其使用者及其目標工作負載而演進。
我們提出了EMMA,一個物理信息驅動的多模態框架,能直接從原始影片、音訊及基於圖像的時間序列觀測中,恢復系統所有可識別的動態參數。不同於先前僅依賴影片的方法——這些方法常受限於被遮蔽的狀態、隱藏的致動輸入,或需假設已知初始條件與座標系——EMMA在一個統一的連續時間模型中,對顯式參數、隱式動態分量及校準不變量進行聯合推論。EMMA利用液態時間常數網路(LTC)從異質模態中學習潛在動態,同時透過物理約束的損失函數,確保與控制微分方程式的一致性。統一的特徵處理管線能實現影片軌跡、聲學特徵及圖表量測值之間的一致對齊,使EMMA能在無需分割遮罩、可微分渲染或專用感測器的情況下,估計強迫動態、隱式動態及多變量動態中的參數。在超過100個情境中,包含五個標準動態基準測試(75段Delfys影片)、具有隱藏輸入的真實世界無人車及四軸飛行器系統,以及涵蓋生物與混沌系統的模擬圖表案例研究,EMMA展現出穩健的多參數恢復能力,並顯著優於現有的單一模態及方程式發現基線方法。我們的結果確立了EMMA作為一種通用且可擴展的解決方案,能從機會性多模態資料中提取符合物理一致性的模型。程式碼與資料可於以下網址取得:https://github.com/ImpactLabASU/EMMA-CVPR2026