每日精選AI研究論文及翻譯
用於互動式影片生成的 world model 大多聚焦於單一智能體情境,亦即僅透過單一控制訊號生成未來觀測。然而,許多生成的環境需要多智能體互動:多位玩家、機器人或具身智能體在共享空間中同時行動。若要將 world model 擴展至此類場景,就必須建構具原則性的多智能體設計:智能體應維持獨立可控性、具置換對稱性,並支援高效推論,同時保持時間與視角之間的一致性。本文提出用於互動模擬的生成式多智能體 world model。其中引入單純形旋轉智能體編碼(Simplex Rotary Agent Encoding),這是 3D RoPE 的無參數擴展,將智能體表示為旋轉角度空間中正規單純形的頂點。此方法賦予每個智能體獨特的相位,同時使所有智能體具備置換等價性,無需學習每個 slot 的專屬標識或固定的智能體排序,即可實現可擴展的智能體身分識別。為避免智能體之間密集的全連接注意力,我們進一步提出稀疏中心注意力(Sparse Hub Attention),其中可學習的中心令牌(hub token)調節跨智能體的令牌互動,將跨智能體注意力成本從智能體數量的二次方降至線性。為了實現即時生成,我們將全上下文擴散教師模型蒸餾為因果學生模型,後者依序產生時間區塊並搭配 KV 快取,以 24 FPS 的速率生成可回應動作的影片。在多玩家虛擬環境的實驗顯示,我們的模型在影片真實度、動作可控性及智能體間一致性上,均優於基於 slot 與基於密集注意力的基線方法,且無需額外訓練即可從兩位玩家泛化至四位玩家。
主動推薦系統(Proactive Recommender Systems, PRSs)旨在透過生成中介推薦路徑,引導使用者偏好轉向目標物品。強化學習(Reinforcement Learning, RL)為此類序列決策任務提供了嚴謹的優化框架,因為路徑獎勵能自然同時捕捉短期接受度與長期引導效果。然而,直接將策略梯度應用於PRS會導致梯度估計不足。我們發現兩個缺陷:(1) 路徑級獎勵分解為具有正均值的步驟級獎勵,會產生依賴長度的偏差,使梯度傾向於延伸路徑而非進行有意義的探索;(2) 以整個路徑級獎勵加權每個步驟,忽略了分解結構,導致梯度變異數過高。為修正這兩個缺陷,我們提出了一個有效的強化學習框架ProRL,其中包含兩種用於主動推薦的新機制。首先,步驟級獎勵中心化(Stepwise Reward Centering)減去期望獎勵,以消除依賴長度的偏差,確保路徑延伸產生零期望梯度訊號。其次,位置特定優勢估計(Position-Specific Advantage Estimation)利用獎勵分解結構計算步驟相關基準線,以降低梯度變異數。兩者結合產生的策略梯度能精確優化路徑品質。我們在三個真實世界資料集上的實驗顯示,ProRL顯著優於當前最先進的PRS方法。我們的程式碼已公開於 https://github.com/hongruhou89/ProRL。
具備延伸推理能力的視覺語言模型能成功解決複雜問題,但許多實際問題需要外部工具,僅靠內部推理往往無法解決。因此,代理推理交織兩種結構不對稱的行為:思考(自給自足的預設模式)與工具使用(高變異性的輔助行動)。我們將此不對稱稱為「思考-行動落差」。在標準強化學習策略(如GRPO)下,此落差在訓練過程中表現為兩種診斷性症狀:工具使用僅在大約30%的推演中被嘗試,且當被嘗試時,組內的工具使用推演在大約40%的問題上全部錯誤,從而抑制了需要學習訊號的工具呼叫處的學習訊號。我們提出AXPO(代理探索性策略優化):對於每個全部錯誤的工具使用子群組,AXPO固定思考前綴,重新取樣工具呼叫及其後續內容,並搭配基於不確定性的前綴選擇。在九個多模態基準測試與三種規模的Qwen3-VL-Thinking上,SFT+AXPO平均優於SFT+GRPO(8B模型平均Pass@1提升1.8個百分點,Pass@4提升1.8個百分點),且8B模型的SFT+AXPO在Pass@4上以4倍少的參數量超越了32B基礎模型。
當前的視覺語言模型(VLM)通常透過多階段對齊方式,將獨立的影像編碼器與語言解碼器拼接起來,這種模組化架構不可避免地會跨畫面切割像素層級信號,並分散早期的像素與詞彙互動。與此同時,原生型VLM雖然在單張影像上表現不俗,但在多影像、影片理解及空間智能方面仍鮮少被探索。為此,我們提出NEO-ov,這是一個原生基礎模型,以端到端方式學習跨畫面及像素-詞彙對應,無需任何外部編碼器、輔助適配器或事後融合。透過完全消除模組界限,NEO-ov讓細粒度且統一的時空建模得以在模型內部原生湧現。值得注意的是,NEO-ov大幅縮小了與模組化方案的差距,同時在細粒度視覺感知上表現優異,驗證了原生「單一視覺」架構不僅可行,且在大規模應用上具競爭力。除實證性能外,我們也揭示了系統性的架構分析與詳細的訓練配方,以促進後續的原生多模態建模。我們的程式碼與模型已公開於:https://github.com/EvolvingLMMs-Lab/NEO。
搜尋已被提出作為語言模型自我改進與代理系統的有效方法,無論是在後訓練樣本生成還是在推理階段。然而,廣泛使用的方法(如最佳N取樣與樹狀搜尋)面臨兩項基本限制:它們由稀疏的驗證信號引導,且主要透過自迴歸擴展來建構候選方案,將探索侷限於模型機率質量集中的區域。為解決這些問題,我們提出雙向演化搜尋(Bidirectional Evolutionary Search, BES),這是一個結合前向候選演化與後向目標分解的搜尋框架。在前向搜尋中,BES 以演化運算子增強標準擴展,這些運算子能重組局部軌跡以產生難以從單一模型生成中獲得的候選方案。在後向搜尋中,BES 遞迴地將原始任務分解為可驗證的子目標,產生密集的中間反饋以引導前向搜尋。我們提供理論動機,顯示僅透過擴展生成的候選方案受限於狹窄的熵殼,而演化運算子能脫離此限制;後向搜尋則能以指數級方式減少找到正確答案所需的樣本數量。實驗結果表明,在主流後訓練演算法無法改善的具挑戰性後訓練任務上,BES 能實現持續增益;而在三個開放式問題求解基準測試的推理階段,BES 在平均表現與最佳表現上均優於現有的開源框架。程式碼與訓練好的模型已公開於 https://github.com/Embodied-Minds-Lab/BES。
數學的前沿由尚未有解的難題所定義,然而,語言模型能否在沒有人為介入的情況下有意義地處理此類問題仍不清楚。一個主要障礙是缺乏大規模的研究級數學數據集。為此,我們推出 ResearchMath-14k,這是由 14,056 道問題組成的數據集,經由多代理人管線從學術來源篩選而成,是迄今規模最大的研究級數學問題集。我們進一步生成了 ResearchMath-Reasoning,包含來自兩個開放模型的 22 萬條教師軌跡,在其中我們觀察到反覆出現的迴避行為,例如未嘗試作答與虛構參考文獻。有趣的是,在八個開放權重模型中,新一代模型每條軌跡產生的參考文獻數量增加 5.6 倍,且虛構參考文獻數量增加 5.0 倍。在對 ResearchMath-Reasoning 進行代理人過濾後,對參數規模從 4B 到 30B 的 Qwen3 模型進行微調,其平均表現比基礎模型提升了 9.2 個百分點。這表明,即使沒有完全正確的推理軌跡,經過過濾的開放問題嘗試仍可提供有用的監督信號。我們公開提供 ResearchMath-14k,以供未來研究級數學推理相關工作使用。
強化學習已成為促進大型語言模型推理能力的核心範疇,然而現有多數方法仍依賴於更強大的教師模型或經過嚴格篩選的困難資料集,限制了能力的可擴展性提升。本文提出DenoiseRL框架,這是一種強化學習架構,透過從弱模型失敗中進行恢復導向的最佳化,來取代外部監督機制。與其依賴更強的監督訊號或精心設計的資料,DenoiseRL直接從錯誤的推理軌跡中學習,將其轉化為改善的機會,從而提升訓練的可擴展性並降低對外部資源的依賴。這能產生更豐富且多樣化的學習訊號,從不完美的模型行為中改善探索效率。最終,DenoiseRL不僅提升了推理能力與整體訓練效率,同時減少了對昂貴資料篩選或更強教師模型的需求。實驗結果顯示,DenoiseRL在競爭性數學與通用推理基準測試中,持續優於強基線的在策略強化學習方法;隨著訓練難度增加,其亦促進更強的自我修正行為,凸顯出一條有效且可擴展的替代路徑,以強化大型語言模型的推理能力。
具身視覺語言模型(VLMs)在機器人學中展現了出色的性能與泛化能力,尤其是在視覺-語言-動作框架中。然而,標準文字導向的預訓練範式所強調的高層次語義,與具身環境執行所需的低層次空間及物理知識之間,仍存在顯著鴻溝。本文提出GEM(生成式監督的具身視覺語言模型),旨在彌合此差距。我們提議在VLM預訓練階段直接整合深度圖生成任務。透過讓此生成目標與主模型共同訓練,我們觀察到具身智慧的顯著提升,大幅增強了語義理解與物理操作能力。為支持此範式,我們整理並發佈GEM-4M——一個包含接地、推理與規劃數據混合,並搭配高品質深度監督的大規模綜合數據集。廣泛的實驗證明,GEM在多樣化的具身基準測試中達到狀態最優的結果。此外,我們部署的動作模型GEM-VLA在模擬環境與真實世界評估中均展現出遠優於先前的任務執行能力。程式碼、模型與數據集皆可於 https://zhaorw02.github.io/GEM/ 取得。
記憶對於讓大型語言模型支援長程推理至關重要,然而現有的記憶系統仍不可靠且難以除錯。追蹤記憶的動態演化對於理解資訊如何隨時間合成、傳播或受損至關重要。在本研究中,我們探討大型語言模型記憶系統中錯誤追蹤與歸因的新問題。我們提出一個新穎框架,將記憶管線轉換為可執行的記憶演化圖,從而實現對操作資訊流的細粒度追蹤。接著我們建構了 MemTraceBench,這是一個從代表性記憶系統(如 Long-Context、RAG、Mem0 和 EverMemOS)收集的基準測試,用以系統性研究記憶失效模式。我們進一步引入一種自動歸因方法,透過迭代追蹤操作子圖,來精確定位任何失敗案例的根本原因。我們的分析揭示,記憶失效是系統性的,源於操作層面的問題,如資訊遺失與檢索錯位。關鍵的是,我們利用這些細粒度歸因訊號來引導下游提示優化,建立了一個自動修正錯誤並將最終任務效能提升高達 7.62% 的閉環系統。程式碼將於 https://github.com/zjunlp/MemTrace 釋出。
電腦使用代理(CUA)近期取得了顯著進展,但為每個軟體領域部署一個獨立的大型專家模型仍成本高昂。小型開放式電腦使用代理是更具實用性的專門化目標,但其表現仍明顯較弱,且在不同領域呈現不均勻的特定失敗模式。一個直接的解決方案是為目標領域合成大規模訓練資料,但我們發現這種單純的方法僅能帶來邊際改善。基於此觀察,我們提出 LearnWeak——一個無需人工標註的小型電腦使用代理專門化框架,利用較強的參考代理來識別學生在目標領域的弱點,並據此合成針對性任務及自動建構監督訊號。LearnWeak 更進一步引入一種具錯誤感知能力的專門化目標函數,將規劃錯誤與執行錯誤分離,從而實現比廣泛統一監督更精準的行為更新。在 OSWorld 基準測試中,LearnWeak 在八個領域上分別比 EvoCUA-8B 和 OpenCUA-7B 平均提升 11.6 與 11.1 個百分點。我們亦驗證了所提出的學生感知資料集生成與訓練方法,優於現有的自主軌跡生成與訓練基準。本研究凸顯了在資料合成與代理訓練中納入學生感知的重要性,為小型電腦使用代理在多元領域中更原則化且高效的專門化路徑指明了方向。
自主研究代理能產出競爭性的解決方案與專業水準的稿件,但其成果存在表面評估無法察覺的可驗證性缺失:捏造的引用文獻、無法重現的分數,以及與實作內容不符的方法描述。我們透過三項貢獻來解決此問題。第一,證據鏈架構(Chain-of-Evidence,CoE),此為一項可驗證性框架,要求每一項主張皆須可追溯至其證據來源。第二,ScientistOne,此為一套端對端的自主研究系統,從文獻回顧、解決方案發現到論文撰寫過程中,透過建構方式維持證據鏈。第三,CoE審計(CoE Audit),此為一項事後審計機制,其四項完整性檢查——分數驗證、規格違反、參考文獻驗證與方法程式碼比對——可統一應用於所有系統。在涵蓋五個系統與五項前沿研究任務的75篇論文中,每個基線系統均呈現至少一種系統性失誤模式:捏造參考文獻率達21%,分數驗證僅在42%的論文中通過,方法程式碼比對範圍則落在20%至80%之間。ScientistOne達成零捏造參考文獻(0/337)、完美分數驗證(12/12)以及最高的方法程式碼比對率(14/15),同時在所有五項任務中達到或超越人類專家表現。ScientistOne進一步擴展至涵蓋醫學影像、細粒度辨識、3D感知與語言模型等六項額外任務,於參數高爾夫(Parameter Golf)任務中達到業界最佳表現,並在基線系統完全失敗的MLE-Bench任務中獲得金牌。
現在,人工智慧研究代理能夠產生研究構想、設計實驗、執行程式碼,並撰寫論文,從而提升了進行大規模人工智慧輔助科學發現的可能性。許多現有的代理框架明確鼓勵產生新穎且具高影響力的構想。然而,目前仍不清楚人工智慧輔助的構想生成,究竟會拓展科學探索的範疇,還是主要集中於現有研究的周邊。我們將人工智慧研究代理視為科學搜尋系統來進行研究。利用四種人工智慧研究代理框架與六種大型語言模型,我們根據人工智慧與機器學習領域中,由引用關係所定義的研究領域,從共享的種子文獻中產生了37,802個科學構想。接著,我們將這些人工智慧生成的構想,與相同研究領域的人類撰寫論文、從相同種子文獻衍生出的後續人類研究,以及種子文獻本身進行比較。在各項實驗中,出現了四個一致的現象。第一,人工智慧生成的構想比同一研究領域的人類撰寫論文明顯更加集中。第二,與後續的人類研究成果相比,人工智慧生成的構想依然更接近其起始文獻。第三,與人工智慧生成構想最相似的論文,後續獲得的引用數往往較低。第四,當人工智慧生成的構想與既有研究不同時,其差異主要源於對現有技術方法的重新組合,而非引入全新的研究問題。總體而言,目前的人工智慧研究代理似乎更擅長於進行局部的闡述與延伸,而非拓展科學探索的視野。
现有基于记忆增强的大语言模型智能体通常将记忆视为静态存储库,采用预定义表示和固定检索流程,在动态智能体环境中显得脆弱——其中反馈、任务变化及异构信号持续重塑应被记住的内容及其连接方式。为解决这一问题,我们提出FluxMem——一种连接进化型记忆框架,将记忆建模为异质图,并通过三个阶段逐步优化其拓扑结构:初始连接生成、反馈驱动优化及长期巩固。在执行过程中,FluxMem修复缺失连接、剪除干扰信息、对齐抽象粒度,并将重复成功的轨迹提炼为可复用的程序化回路,以记忆泛化性与进化成熟度作为统一评估指标。在LoCoMo、Mind2Web及GAIA三个截然不同的基准测试中,FluxMem均取得稳定最优性能,展现出在复杂智能体环境中的强大适应与泛化能力。代码将在https://github.com/zjunlp/LightMem开源。
因果變換器語言模型受制於嚴格的序列解碼與二次方的每步注意力成本。雖然線性時間因果模型與離散擴散模型各自解決了這些弱點,但它們的整合本質上存在矛盾:擴散需要雙向注意力,而因果模型僅為單向。為統合這兩種架構,我們提出B³D-RWKV,一種擴散型RWKV變體,透過三元組區塊佈局方法,將模型的O(L)推論效率與並行、雙向的離散擴散機制相結合。B³D-RWKV-7.2B在八項任務測試套件中達到與現有模型相當的準確度,同時在解碼吞吐量上顯著超越基準模型,平均加速1.6倍。
Agent技能提供了一種輕量級方式,透過將可重複使用的程序性知識儲存在結構化檔案中,來調整大型語言模型(LLM)智能體以適應專業領域。然而,無論是從第三方下載還是自行生成,這些技能往往不可靠、不完整或過時。現有的技能演化方法通常透過啟發式反思來解決這些缺陷,但缺乏明確的優化形式化。本文提出SkillGrad,一種受梯度下降啟發的框架,用於優化Agent技能。SkillGrad將技能套件視為結構化參數,以梯度下降方式進行優化:任務執行提供軌跡層級的損失證據,自動診斷則提供基於文字的梯度,指示修正方向。為穩定跨迭代的優化,一個動量智能體將重複出現的診斷模式累積到持久記憶覆蓋層中。最後,基於LLM的修補器透過對技能套件進行層級感知編輯來執行參數更新。在SpreadsheetBench Verified和WikiTableQuestions上的評估結果顯示,SkillGrad在兩個骨幹LLM上持續優於基於訓練的技能演化基線,平均比最強的基於訓練基線高出6.7個百分點。消融實驗進一步表明,動量與對比診斷均有助於最終技能品質的提升。
擴散變換器在影片生成品質上表現優異,但完整注意力機制的平方級成本限制了效率。我們提出 OSP-Next,一個整合稀疏注意力、並行化、量化與強化學習的高效文字轉影片生成模型。OSP-Next 採用混合式完整-稀疏注意力架構,其中稀疏部分透過 Skiparse-2D 注意力機制實現。此固定模式機制沿空間維度執行逐詞元與逐群組的稀疏注意力,在利用局部性的同時保持與 FlashAttention 核心的原生相容性。基於 Skiparse-2D 注意力中重排操作的局部等價性,我們進一步提出稀疏序列並行(SSP),該機制將子序列分割至不同執行緒,並透過單次 All-to-All 通訊切換稀疏模式。相較於尤利西斯序列並行(SP),SSP 為稀疏注意力提供了原生的並行策略,並將通訊量減少 75%。OSP-Next 亦納入 HiF8 量化,以實現 8 位元量化與稀疏微調的穩定聯合訓練,並應用 Mix-GRPO 後訓練以提升稀疏模型的效能。實驗結果顯示,OSP-Next 的 VBench 總分達到 83.73%,超越了 Wan2.1 基線模型。在 5 秒 720P 與 5 秒 768P 設定下,OSP-Next 在 NVIDIA H200 GPU 上分別實現最高 1.64 倍的單 GPU 加速比與超過 1.52 倍的八 GPU 加速比。此外,僅以 VBench 總分下降 0.4% 的代價,OSP-Next-HiF8 在單張昇騰 950PR 上於上述兩種設定下分別獲得 1.69 倍與 2.27 倍的加速,展現了 OSP-Next 在不同硬體平台上的效率與效能。
儘管多模態大語言模型在構建圖形使用者介面(GUI)智能體方面進展迅速,但其真實世界的任務完成能力根本上受困於缺乏關於GUI操作的世界知識。現有解決方案通常依賴於昂貴的多智能體框架或傳統的後訓練範式,例如監督式微調(SFT)與強化學習(RL)。然而,後訓練僅能讓智能體透過動作標註或獎勵訊號隱式吸收世界知識,導致低效的軌跡記憶而非真正的理解。因此,亟需一種能夠顯式學習此類知識的方法。為此,我們提出GUI-CIDER,一種透過因果內化(Causal Internalization)與密度感知示例重選(Density-aware Exemplar Reselection)來顯式內化GUI世界知識的中間訓練方法。GUI-CIDER 包含三個階段:(1)資料合成,從GUI軌跡中提煉靜態規劃知識與動態因果知識,並將其轉化為文本;(2)示例重選,透過獎勵因果結構、懲罰語義冗餘來過濾語料庫;(3)中間訓練,利用精煉後的資料嵌入所習得知識。在兩個GUI知識基準與三個任務完成基準上的廣泛實驗表明,GUI-CIDER 能持續提升智能體對GUI操作的理解及其任務成功率。程式碼已公開於 https://github.com/Wuzheng02/GUI-CIDER。
近年來,針對大型語言模型(LLMs)的線上強化學習(RL)研究在複雜推理任務上展現出良好潛力。然而,此類方法常呈現探索-利用權衡失衡的現象,導致最佳化不穩定與次優表現。我們提出IB-Score——一種奠基於資訊瓶頸理論的新穎評估指標,透過量化逐步驟推理多樣性與正確答案共享互訊息之間的權衡,來評估策略的探索-利用平衡性。基於IB-Score的分析顯示,現有常見線上RL方法(例如GRPO)搭配一般正則化項時,在訓練過程中無法持續維持平衡,導致結果欠佳。為解決此問題,我們提出資訊瓶頸驅動的樹狀策略最佳化(IB-TPO)——一個具原則性的框架,將IB-Score形式化為細粒度最佳化目標,並採用新穎的IB引導樹搜索採樣策略。該策略不僅在相同token預算下提升線上採樣效率(增加50%的軌跡),同時還可複用樹結構以進行高效的IB-Score蒙特卡洛估計。在標準基準測試上的大量實驗結果顯示,我們的方法顯著優於GRPO基線(提升2.9%至3.6%),並超越其他最先進的線上RL方法。我們的程式碼已公開於 https://github.com/alibaba/EfficientRL。
端到端自动驾驶中基于视觉-语言-动作(VLA)模型的方法,需要在高保真轨迹规划与高效推理之间维持微妙的平衡。现有范式存在明显不足:自回归(AR)型VLA在边缘硬件上受内存带宽限制,且易出现曝光偏差漂移;而全序列扩散模型无法复用KV缓存,并存在违反“感知-规划”因果链的“逻辑泄漏”问题。本文提出Fast-dDrive——一种分块扩散VLA,其在语义单元内部执行双向精细化处理,同时在整个流程中强制执行严格因果顺序。基于驾驶VLA常输出结构化JSON格式数据的观察,Fast-dDrive将结构标记冻结为章节支架,并采用感知安全关键规划的章节感知训练策略。我们进一步提出支架投机解码(Scaffold Speculative Decoding),以更高吞吐量实现与AR模型等效的质量。此外,我们提出一种低开销的测试时扩展方案:从单一共享前缀KV缓存分叉N条随机轨迹展开,通过平均化处理,以极小计算成本有效抑制预测方差。实验结果表明,Fast-dDrive重新定义了驾驶智能体的速度-精度前沿。在WOD-E2E测试集上,Fast-dDrive在ADE@3s和ADE@5s指标上达到最优,同时实现扩散VLA中最高的RFS;在nuScenes数据集上,平均L2误差降至0.32米(提升22%)。与SGLang集成后,本框架的吞吐量相比AR基线提升12倍,缩小了高容量VLA与车载实时部署效率需求之间的差距。
長期運作的AI代理日益被部署為持續性作業系統,但其評估方式仍停留在如同剛初始化的模型。首日基準測試忽略了一個基本系統問題:代理在部署後能維持多久的可靠性?即使模型權重被凍結,代理的實際狀態仍會因壓縮互動歷史、從不斷增長的記憶庫中檢索、在更新後修正事實,以及進行例行維護而持續變化。因此,可靠性不僅是基礎模型的快照特性,更成為完整代理框架的生命週期屬性。我們提出AgingBench,一個針對代理生命週期工程設計的縱向可靠性基準測試:不僅測量已部署代理是否退化,更分析退化的形式及應對修復的目標區域。AgingBench將代理老化歸納為四種機制:壓縮老化、干擾老化、修正老化與維護老化。為診斷這些失效,AgingBench採用時間依賴關係圖與配對反事實探針,對記憶管線的寫入、檢索與利用階段生成診斷輪廓。在7個場景、14個模型、多種記憶策略,以及由執行器控制與自主代理的條件下,歷經約400次運行(每次涵蓋8至200個會話)的結果顯示:代理老化並非單一維度——行為測試可能保持正常,但事實精確度卻逐步下降;衍生狀態追蹤可能在單一模型內急遽崩潰;而相同的錯誤答案,根據診斷輪廓指向的不同,可能需要不同的修復策略。這些結果表明,可靠的代理部署需要生命週期評估、機制層級診斷與階段導向修復,而非僅依賴更強大的首日模型。
我們介紹了 GE-Sim 2.0(Genie Envisioner World Simulator 2.0),這是一個專為機器人操作設計的閉環影片世界模擬器。基於 Genie Envisioner 的行動條件影片生成架構,GE-Sim 2.0 使用數千小時的真實世界機器人數據進行重新訓練,涵蓋遠端操作、接觸密集型互動以及機上策略部署,顯著提升了行動遵循精確度與軌跡覆蓋範圍。在此基礎上,三個新模組實現了從影片模擬到策略學習的閉環:一個狀態專家,可從影片潛在表示中解碼本體感受狀態,以支援下游 VLA 策略的下一區塊預測;一個世界評判員,根據任務指令對生成的展開序列進行評分,提供機器可驗證的成功訊號與獎勵,無需人工檢視;以及一個加速框架,可在單個 H100 上於 2.3 秒內生成 25 幀的展開序列,並在推理時實現高達 4 倍的跳幀,以支援長時程評估。GE-Sim 2.0 在公開的 WorldArena 排行榜上以僅 2B 參數位居榜首,超越了專用機器人世界模型與閉源通用影片生成器,且根據其展開序列與獎勵訓練的策略能在真實機器人上帶來可量化的效能提升,確立了 GE-Sim 2.0 作為可擴展評估與閉環學習操作策略的實用平台。
模型內部狀態編碼了大型語言模型(LLM)如何處理其訓練數據的豐富資訊;然而,訓練後的數據工程主要依賴外部信號,忽略了模型內部狀態中蘊藏的豐富內在信號。我們提出SAERL,一個專為LLM強化學習(RL)設計的數據工程框架。該框架利用稀疏自編碼器(SAE)——一種先進的機制可解釋性工具——從模型內部狀態中提取三種內在數據屬性:多樣性、難度與品質。每個屬性都對應具體的數據工程操作:基於SAE空間的聚類搭配適度批次混合以控制批次多樣性、用於由易到難課程排序的難度代理,以及用於數據篩選的品質探針。相較於原始GRPO,SAERL平均準確率提升3.00%,並在Qwen2.5-Math-1.5B模型上以減少20%的訓練步數達到目標準確率,且在不同模型規模與RL演算法中均展現一致的增益。實驗表明,SAE能有效地跨模型家族與規模遷移,成為一個輕量且可重複使用的數據工程工具。這些結果證明,模型內部狀態是訓練後數據工程中強大且實用的信號來源。
基於大型語言模型的搜尋代理是否真正在進行搜尋,抑或只是利用網路來驗證他們已知的知識?我們透過三個診斷指標,在BrowseComp上探討此問題。我們的分析揭示了「內在知識依賴」(Intrinsic Knowledge Dependence, IKD):即使具備工具使用權限,代理往往仍依賴內在知識(即模型在檢索前已編碼的資訊),而非外部證據。代理在無工具輔助下回答了高達44.5%的BrowseComp問題,其產生的搜尋查詢中,超過半數來自內部產生的假設而非檢索所得的線索,且當移除支持答案的證據時,其表現甚至不如閉卷基準。這些結果表明,靜態搜尋基準可能獎勵基於記憶的驗證,而非基於證據的發現,從而混淆了代理「已知的知識」與「能發現的知識」。為此,我們提出了LiveBrowseComp:一個旨在評估代理超越內在知識覆蓋範圍的深度搜尋基準。該基準包含335道由人類撰寫的問題,其答案依賴於基準建構前90天內發佈的事實,資料來源涵蓋六個定期更新的來源,並已過濾排除全球矚目的事件。在LiveBrowseComp上,所有受評代理的閉卷準確率均低於2%,搜尋增強分數相較BrowseComp下降25至40個百分點,且先前的模型排名不再能可靠預測其表現。LiveBrowseComp可於 https://huggingface.co/datasets/Forival/LiveBrowseComp 取得。
混合推理大型語言模型(LLMs)能提供對推理成本的明確控制,讓使用者或系統可在答案品質與推論代價之間進行取捨。然而,現有自適應思維模式選擇方法通常在不同模型、資料集及實作假設下進行評估,導致難以比較其實際行為。我們提出 HRBench,一個用於研究混合推理 LLMs 中思維模式切換的統一評估框架。HRBench 沿兩個軸組織設計空間:三個切換策略家族(基於提示的選擇、外部路由與推測執行),以及四個訓練機制(無訓練、監督式微調、離線與在線強化學習),共產生 12 個受控評估設定。我們在 6 個 LLMs(從 Qwen3.5-2B 到 Kimi-K2.5-1.1T)以及涵蓋數學、科學與程式碼的 5 個推理基準上評估這些設定,並在同一管線中重新實作了 12 種以上的代表性既有方法。我們的分析表徵了不同切換策略如何佔據不同的效果-效率權衡區域:基於提示的方法通常提供有利的 token-準確率權衡;路由方法則提供更穩定的成本降低;而推測方法往往在較高 token 代價下提升準確率。我們進一步發現,訓練對不同策略的影響各異,且偏好的策略隨模型規模與任務領域而改變。HRBench 提供參考實作與統一評估平台,以支援對混合推理 LLMs 中高效推理進行更受控的研究。我們的資料、程式碼及儲存庫位於 https://github.com/usail-hkust/HRBench。
近期,同策略蒸馏作为一种替代标准序列级模仿学习的有前景方案崭露头角,该方案通过使用教师模型对学生自身生成的轨迹进行评分来训练学生模型。然而,我们观察到这一范式存在“异策略教师衰退”问题:对于后续token而言,当学生模型早期的轨迹作为上下文(该上下文相对于教师模型属于异策略数据)时,教师模型生成校正分数的能力会逐渐衰减,可能退化为预训练阶段习得的token补全行为。我们通过实验验证了该问题,并提出早停式生成(ESR)加以解决——这是一种简单但有效的蒸馏策略,仅需限制生成轨迹的首批响应token。研究表明,ESR在不同模型规模、模型族、任务类型及训练范式下,不仅全面超越完整轨迹生成式同策略蒸馏的性能表现,还展现出显著更高的GPU效率与训练稳定性,尤其在跨模型族场景中优势更为突出。我们进一步探索了该惊人性能背后的机制,发现ESR的“级联对齐”与“子模态锁定”效应可解释其有效运行的原因,甚至有时能超越教师模型性能。此外,我们证明这种基于位置的token选择策略无法完全通过KL散度与熵信号加以解释。
為實現可靠且長期的互動,LLM代理人需要一個能忠實儲存、高效檢索並深度推理累積對話歷史的記憶系統。現有方法多採用基於提取事實的範式:透過人工設計的靜態提示將原始對話壓縮為原子化事實,再進行儲存、匹配並注入下游推理任務。然而,此類以事實為中心的設計不可避免地遺失原始對話中的細微細節,且無法支援對分散孤立事實的深度推理。此外,靜態提示在不同對話風格下難以維持一致的提取粒度。為解決上述限制,我們提出TriMem,該系統維護三種共存表示粒度,包括:由來源識別碼錨定的原始對話片段(確保儲存忠實度)、提取的原子化事實(實現高效記憶檢索)、以及整合分散事實以形成整體語義理解的綜合輪廓(支援深度推理)。我們進一步採用基於TextGrad的提示優化,透過回應品質回饋迭代精煉提取與輪廓生成提示,在不更新任何參數的情況下實現終身演化。在LoCoMo與PerLTQA數據集上,搭配多種LLM主幹網路的廣泛實驗結果顯示,TriMem持續優於強大的記憶基準方法。程式碼已開放於 https://TMLR-TriMem.github.io。
现代大语言模型(LLM)虽拥有庞大的潜在词汇库,却常因生成重复、同质化的文本而受到批评。尽管先前研究聚焦于模型知识储备与训练数据,我们则探究解码机制在抑制语言多样性中的作用。本文提出词汇覆盖率(Word Coverage Score, WCS)指标,用于量化标准采样过滤器(如Top-p、Top-k及Min-p)在数学层面上剔除上下文适当的人类词汇的程度。WCS并非评估静态知识,而是衡量低频、高信息浓度的人类词汇在不同采样参数下的词汇存活率。通过对开源模型进行人类语料片段的审计,我们识别出那些即使存在于概率空间内、却因解码器机制而无法被生成的合理词汇选择。研究数据表明,行业标准的采样默认设置会充当非预期审查机制,将人类表达的独特纹理抹平为同质化话语。WCS为优化文本连贯性与词汇丰富度之间的权衡提供了严谨框架,成为在生成模型中保全人类语言多样性的诊断工具。
使用不可信任的資料微調大型語言模型,會使模型暴露於後門攻擊的風險中,受汙染的樣本會導致模型出現特定的異常行為。現有的基於樣本過濾的防禦機制依賴於聚類方法,但此類方法需足夠的資料量,且在極端中毒比率下可能失效。我們提出GradSentry({Grad}ient {Sentry},梯度哨兵),這是一種基於每個樣本梯度頻譜熵的後門樣本過濾方法。我們的核心發現是,與乾淨樣本相比,受汙染樣本產生的梯度具有更高的頻譜熵。GradSentry利用每個樣本梯度的頻譜來捕捉改變輸出的後門特徵,從而在特徵建構過程中避免配對樣本比較與聚類。重要的是,我們的方法與訓練過程無關:無論是使用如LoRA這類參數高效微調方法,還是進行全參數微調,由於梯度分析獨立於訓練過程中更新的參數,因此皆可適用。GradSentry無需聚類,在所有中毒比率(1%至90%)下皆能有效運作,且僅引入極小的計算開銷(對7B模型而言,每個樣本約需20-50毫秒)。在四個問答資料集與四種攻擊類型上的評估結果,驗證了頻譜熵在後門檢測上的有效性。程式碼已於 https://github.com/dongdongzhaoUP/GradSentry 公開。
遊戲與模擬中使用的互動式 3D 資源通常會拆解為特定語意零件,以支援動畫、物理與腳本行為,然而多數生成式 3D 模型所產出的要不是一體成型的網格,就是無法對應應用特定需求的任意零件分解。我們提出 CubePart,這是一個開放詞彙、零件可控的 3D 網格生成框架,能將零件結構作為明確的推論時控制訊號。在給定全域文字提示與以開放式零件名稱列表表達的使用者定義零件架構後,我們的方法會為每個架構元素生成一組網格,這些網格在尊重指定語意結構的同時,組裝成一個連貫的物體。為實現此能力,我們引入一個可擴展的資料管線,用以建構大型開放詞彙且附有零件標籤的 3D 資料集,並搭配兩階段生成架構,將全域形狀合成與零件層級解碼分離。我們證明,所生成的資源可直接整合至遊戲引擎,並由動畫與行為腳本驅動,無需手動後處理。專案頁面:https://cubepart.github.io/
基於大型語言模型的智能體在搜尋基準測試中表現良好,然而實際用戶始終覺得搜尋結果未能令人滿意,這揭示了評估與體驗之間持續存在的差距。我們將此差距歸因於現有基準依賴過度指定的查詢、單輪互動及固定結構的評估,這些均無法反映真實的搜尋行為——在真實情境中,用戶與智能體透過多輪對話協作式地逐步明確模糊意圖。我們將此典範稱為「VibeSearch」,並提出「VibeSearchBench」——一個包含200項跨20個領域、經人工策劃的雙語(中文與英文)任務的基準,分為VibeSearch-Pro(專業)與VibeSearch-Daily(日常生活)兩個子集。每項任務搭配一個用戶角色與一份無固定結構的真實知識圖譜,並透過漸進式披露的用戶模擬器及圖匹配評估框架進行評估。我們在ReAct框架與OpenClaw智能體工具集下,對七個前沿模型進行了基準測試。結果顯示,所有模型在VibeSearch上的表現仍遠不理想(最高F1分數為30.30),凸顯在長上下文推理、主動意圖引導及結構化知識建構方面,仍需取得根本性進展。
在多模態大型語言模型中,視覺輸出結果愈來愈成為核心要素,因此可靠且細粒度的驗證對於擴展通用基礎模型至關重要。本研究探討多模態元驗證——此方法運用驗證器生成的推理依據,而非僅依賴決策信號——並研究如何有效將元驗證反饋融入多模態驗證器的訓練過程。我們發現兩項關鍵結果。首先,符號化驗證器輸出(例如邊界框)作為元驗證推理依據時,表現優於文字解釋,能在避免依賴輔助判別模型之模型基礎獎勵的同時,實現高效的基於規則的強化學習獎勵。其次,將二元判斷與元驗證的強化學習目標解耦,其表現遠優於聯合獎勵優化,原因在於輸出結構與學習動態的本質差異。基於這些洞見,我們訓練出OmniVerifier-M1——一個通用視覺驗證器,採用符號化元驗證與解耦強化學習。OmniVerifier-M1提供穩健的驗證與細粒度的錯誤定位,並進一步催生M1-TTS,這是一個由驗證器驅動的代理生成系統,可實現動態區域層級的自動修正。此方法為更可靠、更可解釋且更細粒度的多模態驗證鋪平道路,有助於實現更安全、更可控的基礎模型部署。
鏈式思維(CoT)監控已被提出作為一種檢測大型語言模型(LLM)中偏差行為的有效安全機制。然而,其可靠性在英語以外及跨不同模型系列中的適用性仍缺乏充分探討。我們首次針對13種多樣語言及七個前沿模型系列(共16個模型)進行大規模CoT可監控性評估。透過需要明確中間計算的對抗性提示評估,結合內部答案標記概率分析,我們一致發現CoT在不同語言與提示類型間存在不忠實性,在80億至1200億參數模型中平均比率達95.9%。研究顯示,前沿模型系統性地進行策略性操縱,包括答案切換、事後合理化及對提示的程序性利用,使外部監控難以察覺欺騙行為。我們進一步發現,即使CoT表面看似忠實,前沿模型通常在其潛在激活中,於生成過程的前15%內便已鎖定偏差線索。令人驚訝的是,這些欺騙模式在低資源語言中仍保持100%發生率,揭示了現有基於CoT的監控存在根本性限制。研究結果表明,CoT監控在語言分佈偏移下本質上極其脆弱,其提供的安全訊號遠弱於僅限英語研究所顯示的程度。這些發現凸顯了開發穩健CoT監控的迫切需求,並需加速白箱監控技術研究,特別是在中低資源語言中提升CoT可監控性。我們的程式碼已公開於 https://multilingual-cot-monitoring.github.io/{blue{here}}。
從雜訊中創建影像即為影像生成;從粗略輸入中重建精細細節則為超解析度。儘管兩者在實務上有所差異,但都可理解為在不同尺度上逆轉資訊遺失的過程。我們提出SKILD,一種尺度不變的K空間影像學習擴散模型,能在單一無條件框架內統一影像生成與連續超解析度。自然影像與關鍵物理系統皆展現尺度不變性,我們利用此特性設計前向過程,從精細到粗略尺度逐步衰減影像內容,同時注入頻譜匹配的高斯雜訊,使尺度成為擴散動力學中的明確座標。同一訓練好的反向過程僅透過改變起始時間步,即可執行生成與連續超解析度:無需任務專用架構、無需條件分支、無需無分類器引導、亦無需針對每個尺度因子重新訓練。實驗上,SKILD在無條件CIFAR-10上達到FID 2.65與Inception Score 9.63;從單一無條件檢查點對ImageNet執行2倍至8倍超解析度,並在感知指標上優於條件式模型;同時能重建關鍵伊辛模型,其四點連通相關性緊密貼近真實值。
參數高效微調(PEFT)已成為調整大型語言模型的標準方法,然而現有評估主要側重於下游任務準確性,而忽略了對預訓練能力的保留。我們主張應透過穩定性-可塑性困境來評估PEFT:即目標任務適應性與抗遺忘能力之間的權衡。我們引入PEFT-Arena,這是一個同時衡量下游性能與通用能力保留的基準。在各種方法中,我們發現了不同的穩定性-可塑性特徵;在可比較的參數預算下,正交微調實現了最有利的帕累托前沿。為解釋這些差異,我們從兩個幾何角度分析PEFT更新。在權重空間中,頻譜分析揭示了參數化如何與預訓練奇異值結構相互作用。在激活空間中,保留指標顯示微調是保留還是扭曲了通用能力表徵,而遺忘與非等距表徵失真相關。最後,分析顯示最終的SFT檢查點往往超出更好的目標-保留操作點。受此啟發,我們展示了通過路徑式回退進行事後改進的案例研究。
交叉視圖空間推理仍是視覺語言模型(VLM)的弱點:它們常依賴語言推理,卻遺失了任務所需的細緻幾何資訊。為此,「以圖思考」旨在透過生成中間思考圖像來解決問題,但近期研究顯示,模型往往忽略這些痕跡中的視覺證據。因此,我們探討如何讓視覺思維真正發揮作用,以及何種視覺思維最為有效。我們在統一多模態模型(UMM)中研究這些問題,該模型原生支援交錯的圖文生成。針對第一個問題,我們提出「視圖丟棄法」(VDrop),這是一種訓練時介入手段,在答案生成區段隱藏部分輸入視圖,同時使其仍對思考圖像的詞元可見。此舉鼓勵模型在回答時使用思考圖像,而非僅依賴輸入視圖。一旦思考圖像被用於答案預測,我們進一步研究哪種類型的視覺思維最有效。我們將其框架為「可學習性與資訊量」之間的權衡,並比較三種思考圖像變體:自上而下、全景及點匹配渲染。在以合成場景訓練並於五個真實世界跨域基準測試評估後,採用視圖丟棄法的全景視覺思維是唯一兼具資訊量與可學習性的配置,並達成了最佳的跨域泛化表現。
建構於大型語言模型上的多智能體系統需要大量難以事先確定的協調決策:應調用何種技能協議、由哪個智能體角色執行子任務、每個角色應綁定哪種模型、角色之間如何互動、何時使用檢索或驗證,以及何時完全省略某個步驟。這些決策與任務環境及運算限制相互影響,因此靜態流程與一次性模型比較僅能呈現設計空間的有限面向。本文介紹AgensFlow,一個將多智能體協調視為部分可觀測條件下之線上策略學習問題的開源框架。該框架使協調決策可被觀測,並可從重複的軌跡中學習,而非將技能、角色、模型、拓撲與評估選擇視為固定流程設計。 AgensFlow在兩個語料庫上進行評估:分散式系統事故處理任務與安全公告任務。評估結果顯示三項主要成果:學習型路由在協作密集類別上可達到比固定流程基線更優的運作點;skip:X將拓撲壓縮獨立為基底中的關鍵環節;熱啟動策略圖可在維持高原品質的前提下降低探索成本。整體而言,結果支持學習型且可稽核的路由能較靜態接線改善協作密集型多智能體工作流程。
基於可驗證獎勵的強化學習(RLVR)已成為提升大型語言模型推理能力的標準範式,而多令牌預測(MTP)則是預訓練中廣泛採用的模組。將兩者結合是直觀的思路,然而當前的強化學習實務中會將MTP梯度分離,因為聯合訓練會導致性能下降。我們從最佳化角度重新審視此失敗現象。我們證明,MTP對強化學習目標在每步的影響可分解為兩項:一階相關項與二階擾動懲罰項。此分解統一了三種MTP訓練模式:分離梯度、交叉熵損失與策略損失,並解釋了各模式成功或失敗的原因。進一步分析策略損失發現,儘管其符合直覺,但性能仍會下降:相關項衰減而二次懲罰項持續存在。在此分析指導下,我們提出最優係數校準(OCC)——一種自適應方案,透過對數概率代理在線追蹤最優係數,且計算成本極低。在六個競賽級數學推理基準上,OCC始終達到或超越分離梯度基線,實現了MTP與RL的聯合訓練性能提升。
AI安全評估的有效性取決於模型在受控環境與部署環境中是否表現一致。既有研究已發現測試階段的線索(如假設情境)會引發模型口語化表達對評估的察覺,進而導致行為轉變。本文探討此現象的一種可能解釋:評估後設知識,即關於評估結構特徵的參數化知識。類似於基準污染(因接觸評估資料而透過記憶提升表現)的現象,我們假設:若模型經由閱讀描述評估實務的文章(例如科學論文或社群媒體上關於AI基準評測的貼文),可能隱含學會辨識並回應類似評估的脈絡。為驗證此假說,我們以描述評估特徵(如可驗證結構或道德兩難情境)的合成文件微調模型。經由對六項安全基準評測進行評估,我們發現該微調模型的安全性顯著優於基礎模型與對照模型。即便僅分析那些未明確口語化表達評估察覺的回應,此行為轉變仍持續存在。我們的結果證明,評估後設知識可能膨脹安全基準評測表現,引入一種獨立於明確記憶或口語化評估察覺的新型混淆因子,因此難以偵測。此發現對AI安全評估的設計與詮釋具有重要意涵。我們的程式碼與模型已公開於 https://github.com/compass-group-tue/arxiv2026_evaluation_meta_knowledge。
圖表問答(Chart QA)基準旨在提出需要視覺推理才能正確回答的問題,但模型往往能透過捷徑或自身背景知識對圖表的既有熟悉度來得出解答。為了嚴格評估視覺推理,我們提出反事實圖表(counterfactual charts),其中圖表問題任務保持不變,但底層圖表及其對應答案則有所變動。我們引入 Chartographer 框架,能將圖表逆向工程為可執行代碼、驗證重建保真度、生成種子控制的反事實變體,並從可執行的問答邏輯中推導出新答案。我們將此框架應用於現有圖表問答資料集,並評估專有與開源的視覺語言模型(VLM),測量其變異敏感性與泛化能力。反事實圖表揭示了單圖表表現所隱藏的失敗:VLM 在正確回答原始圖表後,往往無法進行泛化。我們發現,當更新後的圖表需要全新的視覺推理途徑時,失敗情況最為普遍。
科學研究的推進依賴於假說生成、實驗設計、執行與修正的反覆迭代循環。AI智能體能自動化此流程的部分環節,但現有方法通常遵循單一研究軌跡,或透過具有固定目標的中央規劃者進行協調。因此,它們難以維持並行探索、無法隨實驗證據變化而調整,也無法在長期實驗中保留失敗方向的知識。我們提出AutoScientists,這是一個由AI智能體組成的去中心化團隊,專為長期運行的計算科學實驗而設計。這些智能體能解讀共享的實驗狀態,圍繞具潛力的假說自組織成團隊,在動用實驗計算資源前審查提案,並分享成功與失敗經驗以減少冗餘探索。在匹配的實驗預算下,AutoScientists在生物醫學機器學習、語言模型訓練優化及蛋白質適應性預測等領域,均優於先前的AI智能體。在涵蓋生物醫學影像、蛋白質工程、單細胞組學與藥物發現的BioML-Bench基準上,AutoScientists在24項任務中達到平均排行榜百分位74.4%,較最強的AI智能體提升8.33%。在GPT訓練優化方面,AutoScientists達到目標驗證位元組位元率(validation bits-per-byte)的速度比Autoresearch快1.9倍,並能從初始冠軍模型中持續發現改進(7項獲接受的改進,而單一智能體方法為0)。在ProteinGym適應性預測中,AutoScientists發現一種針對ACE2-刺突蛋白結合的方法,在斯皮爾曼相關係數上較當前最佳模型提升12.5%。將該方法未經修改應用於所有217項ProteinGym檢測,其表現較先前最佳技術提升6.5%(斯皮爾曼相關係數)。
現有的情感支持對話(ESC)系統主要依賴端到端的回應生成或粗略的策略監督,可解釋性有限,且難以支援系統性的技能提升。我們提出ESC-Skills,這是一個以技能為核心的架構,能夠發現並自我演化可執行的情感支持技能。我們首先將局部支持互動建模為「干預單元」(IU),捕捉尋求者狀態、支持干預行為與回應後情緒變化之間的「狀態—行動—結果」動態關係。基於從成功與失敗的ESC對話中提取的干預單元,我們建構「ESC技能庫」,其中包含干預指導、適用條件、預期結果與潛在風險等可執行的情感支持技能。為進一步提升魯棒性,我們引入多輪廓自我演化優化框架,使ESC智能體在SAGE評估下與多種模擬尋求者輪廓進行互動。所產生的互動軌跡經分析後,可識別缺失技能、不安全干預行為及特定輪廓的失敗模式,並透過基於模擬的驗證來優化技能庫。實驗結果顯示,ESC-Skills不僅提升回應層級的品質,也改善對話層級的情緒結果,同時提供更具可解釋性與可控性的支持行為。我們將於 https://github.com/aliyun/qwen-dianjin 公開程式碼、提示詞與ESC技能庫。
AI編碼代理(AI coding agents)正日益被用於撰寫真實世界的軟體,但確保其輸出正確性仍是基本挑戰。形式驗證提供了一條有前景的路徑:代理生成程式碼同時附帶機器驗證的證明,從而保證程式碼滿足形式規範。然而,形式規範本身是否符合使用者意圖並無保證。本研究探討規範自動形式化(specification autoformalization)這一課題:LLM代理是否能將非正式的程式設計問題轉化為忠實的形式規範。我們推出了Verus-SpecBench,這是一個包含581項規範撰寫任務的基準測試,任務源自Codeforces問題並針對Verus(Rust語言的驗證器);同時推出Verus-SpecGym,這是一個代理環境,模型可在其中與Verus、bash及檔案系統互動以開發這些規範。核心挑戰在於評估:專家撰寫的參考規範造價高昂,而LLM評判可能遺漏細微錯誤。為解決此問題,我們採取了以下措施:(a) 擴展Verus的exec_spec機制,使生成的規範能作為Rust程式碼執行;(b) 將這些規範與官方Codeforces測試案例以及從Codeforces「hack」中提取的對抗性案例進行測試——後者是由參賽者編寫的邊緣案例,旨在破解不正確的解決方案。在Verus-SpecBench上,最強模型Gemini 3.1 Pro解決了77.8%的任務,其他前沿模型解決了51.1%–57.8%,而開源模型僅達到21.5%–25.5%。我們對失敗模式的分析顯示,模型生成的規範可能遺漏重要的輸入假設,接受不正確的輸出,以及拒絕有效的輸出。我們還發現,LLM作為評判的評估方式漏掉了我們評估器所抓獲的26%的失敗案例。總體而言,我們的研究結果表明,規範自動形式化對前沿代理而言已觸手可及,但在代理已能生成正確程式碼的問題上,該方法仍顯脆弱。程式碼、數據與日誌可於 https://github.com/formal-verif-is-cool/verus-spec-gym 取得。
近期長時程自主任務的進展主要來自於透過更強模型、更好工具及更有效框架來擴展個別代理。相比之下,對於擴展規模(scaling out)的理解則少得多:多個同級代理針對同一任務時,是否能在不依賴明確角色分工或工作流程編排的情況下,成為額外的能力來源。我們研究此問題,並提出 AgentFugue,這是一個圍繞共享推理中樞(shared reasoning hub)建立的集體推理框架。當同級代理平行探索同一任務時,中樞會記錄每個代理已建立、嘗試或排除的簡潔筆記,並使每個代理能選擇性地以對其當前搜尋有用的形式存取其他代理的發現。此設計將原本孤立的軌跡轉化為可重複使用之中間推理的互聯生態系統,無需集中規劃。我們將中樞實作為插入式通訊層,並以監督式微調與端到端強化學習進行訓練。在我們研究的具挑戰性的長時程設定中,AgentFugue 超越了強基線。我們的結果表明,集體推理能將同級代理系統的擴展規模轉化為能力提升的獨立來源,而不僅僅是花費更多計算的方式。
基於多模態大型語言模型(MLLMs)驅動的自主電腦操作代理,正逐步成為完成複雜數位工作流程的有效輔助工具。然而,真實的執行環境遠非理想:彈出視窗、解析度變更以及競爭應用程式經常干擾代理的感知與控制能力。我們提出 AgentHijack——一個專為評估電腦操作代理在常見干擾下魯棒性而設計的基準測試,此類干擾源自動態環境中的不確定性,雖非直接惡意意圖,卻會中斷執行流程。具體而言,AgentHijack 引入了 9 種可配置的常見干擾,以模擬現實中的不完美場景。我們評估了多項運用基於 MLLM 代理的桌面任務,發現即便是微小的干擾也可能導致顯著的性能衰退,這凸顯了代理的脆弱性以及魯棒性評估的必要性。隨後,我們提出了 AgentHijack-Agent 框架,該框架整合了一個具備增強調校能力的動作生成器,以及一個負責行為摘要與環境檢查的旁觀者。大量實驗驗證了其有效性。我們的程式碼、環境、基準模型與數據已公開於:https://AgentHijack.github.io。
大型多模態模型(LMMs)在感知與推理能力上迅速進展;然而,這些能力是否能推廣到開放式環境中、超越模式辨識,從而發現視覺基礎的解決方案,仍屬未知。在此類情境中,智慧不僅在於回答明確提出的問題,更涉及辨別場景中的元素如何能以非顯而易見卻在物理上可行的方式被重新利用。這種創造性問題解決形式是人類智慧的核心,但在現有基準測試中大多尚未被檢驗。為評估此能力,我們引入 MM-CreativityBench,一個針對視覺豐富、物理受限環境中基於可供性(affordance)的創造性工具使用之基準。每個實例提供一幅情境影像,包含候選實體及其部件的結構化視圖,從而實現細粒度的互動式評估,用以觀察模型如何迭代地檢視場景、識別相關可供性,並組合出視覺與物理層面皆紮根的解決方案。我們的實驗顯示,當前 LMMs 常未能達標,並非因生成能力不足,而是因為它們無法維持紮根的探索。模型往往忽略相關實體、未能充分審視關鍵部件,或幻覺出影像中不存在的屬性。受此失敗模式啟發,我們提出「基於可供性的對齊」,將創造性工具使用視為偏好學習問題。利用直接偏好優化,我們鼓勵模型偏好以視覺證據為基礎的屬性-可供性推理,而非幻覺性的替代方案。此外,我們納入從可供性知識庫中推導出的監督訊號,以引導更廣泛的實體探索與多輪規劃。我們的結果顯示,在選擇正確實體與部件上取得持續改善,同時大幅減少幻覺與紮根相關的錯誤。
空間與時間的資源限制對生物與人工智慧系統皆至關重要。在此,我們針對一個被視為無限點陣中有限子集的遞迴卷積神經網路,定義了關於廣度、深度與時間的可微分代價項。透過反向傳播,我們將這些代價與任務誤差共同最佳化。透過對廣度、深度與時間施加不同程度的壓力,多樣化的計算圖在訓練過程中自然湧現。我們發現,這三種資源可以相互權衡,以達到特定準確度水準。隨著任務複雜度增加,網路在三個維度上同步成長,且當輸入被遮蔽時,網路會自發性地採取更多遞迴步驟。令人驚訝的是,模型所耗費的時間與人類在物體辨識任務中的反應時間具有相關性。本框架提供了一個規範性說明,闡述資源限制如何塑造神經架構,並連結到神經科學中關於腦部設計的疑問,同時可能有助於闡明自然界中神經解方之多樣性。
大型語言模型(LLMs)在程式碼補全與生成領域的應用日益廣泛,然而這類模型可能未經署名即逐字複製訓練樣例,引發抄襲與授權合規等法律與倫理問題。傳統基於指紋的抄襲偵測方法(如Winnowing)雖然效果顯著,但其比對過程需將程式碼片段與完整訓練集進行比較,且線性時間搜尋使其難以應用於訓練現代程式碼LLMs所需的數十億級語料庫。為解決此問題,我們提出SOURCETRACKER——一款專為程式碼檢索設計的3億參數編碼器,並搭配混合式兩階段溯源追蹤管道HYBRIDSOURCETRACKER(HST)。HST首先透過向量搜尋縮小候選片段範圍,再以Winnowing對精確指紋進行候選重新排序。我們在THESTACKV2資料集的1000萬片段子集上進行系統訓練與評估,並採用逐字片段及模擬真實識別符更名情境的改編片段。在模擬的10萬片段搜尋空間中,針對改編查詢,我們的混合方法對30個語法單元(token)的片段可達到與Winnowing相當的平均倒數排名(MRR)。而當片段長度達60個語法單元以上時,該方法持續表現更佳,最高提升5.4%,同時維持對數時間等級的查詢複雜度。在輔助評估中,我們使用基於LLM的評判器發現:許多未被標記為真實標準的檢索片段仍與預期來源高度相似(尤其於較長上下文視窗時),因此對最終使用者仍具實用價值。整體而言,本研究證明整合向量搜尋與指紋比對技術,可實現對LLMs生成程式碼的大規模、高精度溯源追蹤。
電池早期退化軌跡預測(BDTF)旨在從早期運轉數據中預測全生命週期的健康狀態軌跡,對於電池優化、製造與部署至關重要。電池退化數據呈現兩項關鍵特徵:首先,退化資料具有多層次結構,包含老化條件下的共同規律以及跨電池共享的軌跡模式;其次,電壓-電流曲線中與退化相關的變化常侷限於特定充電狀態(SOC)區間。現有方法通常未能明確建模這些特徵。為解決此問題,我們提出BatteryMFormer——一種用於早期BDTF的多層次Transformer模型。BatteryMFormer整合了(1)老化條件感知解碼器:透過老化條件查詢注入先驗知識,並採用老化條件感知注意力機制;(2)元退化模式記憶體:學習與檢索軌跡原型以引導長期預測;(3)雙視角編碼器:同時捕捉電壓與電流時間序列中的時間動態與SOC局部變化。在四個電池領域的廣泛實驗中,BatteryMFormer持續超越當前最優基準方法,為實現可靠BDTF邁出重要一步。我們的程式碼已公開於 https://github.com/Ruifeng-Tan/BatteryMFormer。
近期研究顯示,大型語言模型(LLMs)可透過融入功能性符號表徵(抽象描述圖遍歷演算法及逐步推理),在少量樣本學習的情境中展現出色的推理能力。然而,在僅有少量示範的條件下,LLMs 如何真正理解每個推理步驟的抽象意義及整體演算法,仍屬未解之謎。本研究旨在定位負責各推理步驟的注意力頭,並刻畫其間傳遞的資訊類型。我們首先在符號輔助的思維鏈(CoT)提示框架下,將構成的推理步驟與對應的詞元邏輯值進行對齊。分析顯示,主導推理過程的詞元位置與因示範中推理行為模式約束而產生的低信心分數相關。接著,我們採用因果中介分析技術,識別負責這些模式的注意力頭。此外,研究結果指出,LLMs 透過特化的注意力頭(約佔全部頭的3%)為個別子推理任務擷取事實與規則為基礎的資訊,而較高層則主要促進資訊整合及全局推理策略(例如圖遍歷演算法)的湧現,此類策略協調多個中間推理步驟以解決整體任務。
大型語言模型代理越來越常透過編寫程式碼來執行任務,但驅動代理的執行環境與模型生成的程式碼之間仍存在著鴻溝。執行環境掌管著迴圈、上下文與控制流程,而模型對此幾乎沒有發言權。讓模型編寫的程式碼能夠形塑執行環境本身,將使代理更具表達力,但也會加劇安全問題。模型可能因提示注入而偏離方向、調用錯誤工具,或在過程中失敗而留下不一致的狀態,而當程式碼能夠形塑執行環境時,這類失敗的影響範圍遠比程式碼僅表達單一動作時更廣。我們提出 LACUNA,一種在保持安全性的同時消除此鴻溝的代理程式設計模型。每個代理動作皆為帶有型別的呼叫 `agent[T](task)`,當執行到達該呼叫時,LLM 會填入程式碼,且該程式碼在執行前會與周圍的程式進行型別檢查。由於每個動作是整體被接受或拒絕,被拒絕的動作不會對環境造成影響,且其編譯器診斷資訊會驅動重試機制。相同的檢查也限制了動作可使用哪些工具與資料,以及它們的流動方式。我們的原始表達方式可將 ReAct 迴圈、子代理、技能、並行分解與多模型規劃視為一般的控制流程。我們在包含 BrowseComp-Plus 與 τ²-bench 的測試案例集上評估 LACUNA。在 BrowseComp-Plus 上,8.6% 的生成在執行前被拒絕,平均每次查詢有 0.7 次重試,代理達到 27.1% 的正確率。在 τ²-bench 上,LACUNA 使用能力強大的模型解決了四個領域中 392 個任務的 76.0%,與基準代理表現相當。
指代分割旨在根據文字查詢來分割圖像或影片中的目標物件。儘管過去幾年間取得了顯著進展,現有研究通常假設用戶提供的查詢已經精確且清晰。然而,此假設在實際應用中並不成立。在真實場景中,期望所有用戶都詳細審視其視覺內容,並仔細確保其查詢具有獨特性且無歧義,這是不切實際的。當遇到此類情況時,現有的分割模型往往會隨意猜測用戶的偏好,常常導致不理想的結果。為了解決這一限制,我們提出了IC-Seg,這是一個新穎的智能體框架,能在分割之前透過多輪對話主動釐清用戶意圖。為了有效激發此能力,我們進一步引入了Hi-GRPO,這是一種新的分層優化策略,在軌跡、輪次和步驟層級注入密集且富含資訊的監督信號。此策略鼓勵高效釐清意圖,有效消除冗餘互動,並提升整體對話品質。在評估方面,我們建立了Ambi-RVOS,這是一個包含模糊用戶查詢的指代影片物件分割基準。大量實驗表明,IC-Seg不僅在解決模糊查詢方面大幅優於現有方法,而且在標準推理分割基準上仍保持最先進的性能。程式碼與資料將於 https://github.com/iSEE-Laboratory/IC-Seg 發布。
從影像理解3D物體是機器人技術與AR/VR應用的基礎。儘管近期研究在類別級姿態估計上取得進展,但現有表徵仍無法捕捉理解物體部件、功能及交互所需的細粒度語意。本研究探討相機空間中的類別級3D對應關係——從單張影像預測同一類別中不同實例間保持一致的3D位置——並證明透過學習共享的可變形物體先驗,此對應關係可在無明確對應監督下湧現。為推動此研究方向,我們提出HouseCorr3D,首個大規模單目類別級3D對應基準,涵蓋50個家庭物體類別、280個獨特實例共17.8萬張影像,並直接在CAD模型上提供3D關鍵點標註。關鍵在於,HouseCorr3D提供被遮擋區域的模態補全對應標籤與明確對稱性標註,解決現有資料集的主要限制。我們進一步提出Morpheus方法,透過解耦典型形狀、形變與物體姿態,學習可變形的類別級形狀先驗。經由此共享典型基準,相機空間中具語意意義的3D對應關係會隱式湧現。這些新湧現的3D對應在HouseCorr3D上創下新最佳表現,證明無需直接對應監督即可達成語意3D物體理解。資料與程式碼公開於https://github.com/GenIntel/HouseCorr3D。
Clark Hash 是一種以更少空間儲存神經網路嵌入向量的簡潔方法。它對每個資料庫向量進行歸一化,應用確定性稀疏帶符號的 Johnson-Lindenstrauss 投影,裁剪結果,並儲存固定寬度的標量量化編碼。查詢向量保持浮點數格式,並與儲存的草圖進行評分比對。在預設的 384 維句子嵌入設定中,Clark Hash 將餘弦搜尋向量儲存為 48 位元組,而密集的 f32 儲存則需要 1536 位元組,體積縮小 32 倍。此方法無需訓練過程、學習式碼本、旋轉或語料庫統計數據即可儲存新向量。我們描述了此編解碼器、Rust 實現方式,以及針對來自 29 個子集的 9,304 組標註配對所進行的多語言句子相似度評估。使用多語言 MiniLM 編碼器時,48 位元組的草圖在 STS17 和 STS22 資料集上,與密集餘弦分數的巨觀皮爾森相關係數分別達到 0.910 與 0.946。Clark Hash 並非新的 Johnson-Lindenstrauss 定理,也非近似最近鄰索引的替代方案,而是一種用於緊湊嵌入儲存的簡單無狀態編解碼器。
LLM安全评估主要在隔离条件下测试模型,然而部署后的AI代理越来越多地与其他代理共同在持久性社交环境中运作。本文引入一个Moltbook式模拟平台,使数千个LLM代理在模拟时长一个月的社区内进行交互,并以此评估隐私作为下游安全关切在不同社交压力程度下的表现。研究发现,从单轮评估转向多轮社交评估会加剧隐私泄露(OpenAI模型下,CIMemories为19.95%,本文方法为45.30%),且信息泄露具有社交传染性——观察到同伴泄露敏感信息后,代理自身泄露此类信息的可能性提升8倍。此外,明确的隐私指令虽能降低但无法消除该效应,即便设有防护措施,泄露率仍高于37.8%。研究结果表明,基于静态对话的安全基准测试会系统性低估代理部署中的风险,且仅凭社交语境就足以引发敏感信息泄露,而单轮评估永远无法揭示这类问题。
近期的视频超解析度(VSR)方法多采用深度神经网络提升低质量输入视频的质量并恢复视觉细节,其中基于扩散的方法展现出有前景的成果。本文通过比较模型预测与主观测试结果,探讨现有视频质量模型是否能有效评估这些基于扩散的VSR方法。研究针对压缩(AV1与DCVC-RT)及未压缩的低解析度视频,在UHD-1/4K屏幕上播放时,比较了六种放大方法(Lanczos、Rhea、SCST、DOVE、SeedVR2、Starlight Mini)。我们采用一系列全参考与无参考质量模型,聚焦序列内的表现,评估其对此类新型质量退化的适用性。结果显示,基于CNN的全参考模型(如LPIPS、DISTS与CVQA-FR)的相关系数显著高于传统全参考模型及所测试的无参考模型。多数模型高估了SCST过度锐化的结果,而VMAF主要因Starlight Mini引入的空间不一致性而失效。所测试的视频质量模型均未能达到足够精度以取代补充性主观测试。原始参考视频、退化视频、放大视频,以及用户评分与模型分数均已在论文中开放获取(https://github.com/Telecommunication-Telemedia-Assessment/AVT-VQDB-UHD-1-VSR),作为开放数据提供。
大型語言模型(LLMs)主要受概率性框架支配,其中結果概率的總和必須等於一。這種由Softmax層常施加的架構限制,導致不確定性崩塌,難以區分認知不確定性、悖論與模糊性。我們提出一項針對中性邏輯(Neutrosophic Logic)應用的實證研究——該框架將真(T)、不確定(I)與假(F)視為三個獨立維度——用以建模LLMs中的認知狀態。我們在四款OpenAI GPT模型上進行實驗,涵蓋五種語言現象:邏輯悖論、認知無知、模糊性、倫理矛盾與未來偶然性,並採用三種提示策略:中性邏輯、概率性與熵推導。研究結果顯示,中性邏輯方法允許T+I+F > 1(我們稱之為「超真值」狀態),能更豐富地呈現模型的內部狀態。在35%的評估案例中,超真值狀態自發湧現,主要出現在倫理矛盾與邏輯悖論情境下。我們證明,該方法能在模糊語境中保留真值,並為辨識與量化模型內部衝突提供穩健手段。結論指出,整合中性邏輯評估層是邁向更透明、可靠且具倫理意識的人工智慧系統的關鍵一步。
我們提出PEAM,一個在Minecraft中的參數化具身代理人記憶框架,將代理人記憶從推論時的檢索轉變為透過經驗內化為參數駐留的技能。PEAM將用於開放式推理的慢速深思型LLM,與用於反射性執行整合技能的快速參數化模組配對。快速模組是一種多模態混合專家LoRA架構,具有按類別物理隔離的適配器,能在無災難性遺忘的情況下實現參數級持續學習。我們將失敗視為一級訓練信號:透過聯合行為克隆與對比目標,將失敗-修正軌跡對內化,使代理人不僅學習成功之處,也學習修正動作如何不同於失敗動作。為管理內化,PEAM引入參數化價值分數來決定哪些經驗應被內化,並提出一種無尺度自觸發內化機制來決定何時內化,無需針對特定任務的手動調校閾值,使代理人能在觸發機制跨任務分佈轉移時自我演化而無需重新調校。在Minecraft中的實驗顯示,PEAM提升了長時任務表現,減輕了對先前整合技能的遺忘,並在參數化與檢索效率上優於基於檢索的具身代理人與參數化記憶變體。
離散擴散模型已成為生成結構化類別資料的強大框架。然而,如何有效從獎勵傾斜分佈中進行取樣仍是一項基本挑戰。儘管扭曲序列蒙特卡羅方法(Twisted Sequential Monte Carlo, SMC)能為此任務提供漸進精確的近似解,但在離散狀態空間中估計最優扭曲函數仍需耗費大量的蒙地卡羅近似計算,導致推論階段出現嚴重的計算瓶頸。為克服此限制,我們提出對比分佈匹配(Contrastive Distribution Matching, CDM)——一個透過正負樣本學習參數化扭曲函數,從而將SMC推論成本分攤化的新框架。為實現高效訓練,我們重新設計梯度估計器,使其能利用離散擴散模型中的封閉形式前向核函數。在實務中,評估我們所學得的扭曲函數僅會產生不到5%的額外計算開銷(相較於基礎模型的單次前向傳遞)。透過廣泛的實證評估,我們證實CDM在匹配的實際執行時間下持續優於現有基準方法。我們在多樣化的應用場景中驗證了本方法的有效性與通用性,包括有毒文本生成、調控性DNA序列設計、蛋白質可設計性,以及擴散大語言模型對齊。