每日精選AI研究論文及翻譯
路由器是混合专家模型(Mixture-of-Experts)的核心组件。作为专家代理,路由器矩阵的各行通过计算与MoE输入的相似度,决定激活哪些专家子集。理想情况下,每个路由行应能将专家矩阵编码为代表向量,使其与token的点积更好地反映token与专家的亲和度。然而,目前尚无设计准则来强制实现这种压缩。本文提出将每个路由行与对应专家的主奇异方向对齐,因为该方向提供了矩阵最具表达力的数学描述。基于此原则,我们提出采用流形幂迭代(Manifold Power Iteration, MPI)重新设计路由器。具体而言,该方法引入"幂迭代-再收缩"(Power-then-Retract)范式:先对路由权重执行幂迭代步骤,再通过收缩施加范数约束,以确保效率与稳定性。理论上,我们证明MPI能驱动路由行收敛至对应专家的主奇异方向。实验上,我们预训练了从1B到11B参数规模的MoE模型,证实这种对齐有助于构建更高效的MoE模型。
科學進步依賴於探索、實驗與抽象化的反覆循環。研究人員測試候選方向、解讀證據,並將所得經驗應用於後續嘗試。我們研究AI代理如何自主運行此循環,並在長期時間跨度中持續進行。為此,我們提出Arbor,一個通用自主研究框架,結合了長效協調器、短期執行器,以及假設樹精煉(HTR)——一棵持續存在的樹,將跨時間的假設、產出物、證據與提煉出的見解連結起來。協調器管理樹上的全局研究策略,而執行器則在隔離的工作樹中實現並測試單個假設。當結果返回時,Arbor更新樹結構,傳播可複用的經驗,精煉搜索前沿,並接納經驗證的改進。此設計將自主研究從一系列局部嘗試,轉變為一個策略、執行與證據隨時間累積的過程。我們在自主優化(AO)設定下評估Arbor——在該操作設定中,代理通過迭代實驗改進初始研究產出物,無需逐步人工監督。在模型訓練、框架工程與數據合成等六項真實研究任務中,Arbor在所有任務上均取得最佳保留測試結果,其平均相對保留增益超過Codex與Claude Code在相同任務介面與資源預算下的2.5倍。在MLE-Bench Lite上,Arbor搭配GPT-5.5達到86.36%的Any Medal,是我們比較中最強的結果。
環境作為基於大型語言模型(LLM)的代理在多樣場景中的互動系統,對於驅動模型能力的持續演進具有關鍵作用。儘管其重要性顯著,現有研究仍缺乏系統性的分類與深入分析。本文從環境工程生命週期的角度,系統性地探討當前代理環境的研究,涵蓋其建模、合成、評估與應用。具體而言,本文首先從八個屬性與八個領域的視角介紹代表性環境,詳細分析其發展路徑並凸顯其核心能力。其次,針對自動化環境合成,提出兩種範式,包括符號合成與神經合成。本文同時展示各範式中不同的環境評估方法。第三,從代理-環境共同演化視角探討相應的環境應用。具體而言,本文從四個互補視角描述動態環境中代理演化的主要途徑:以記憶為中心的經驗演化、以編排為中心的工作流程演化、以軌跡為中心的離線演化,以及以探索為中心的在線演化。同時,識別出三種環境演化範式,即神經驅動、難度驅動與規模驅動的方法。最後,討論數個具前景的未來方向,包括環境即服務(Environment-as-a-Service)、多代理環境(Multi-agent Environments)以及神經符號環境(Neural-Symbolic Environments)。
通用型代理(如OpenClaw)越來越常被用作自主工具使用者,但其編碼能力難以在SWE-bench下衡量:通用代理本身並不符合評分所需的乾淨Docker工作區、修補程式及預測合約條件。我們推出Claw-SWE-Bench,這是一個多語言、SWE-bench風格的基準測試與配接器協議,能在固定提示詞、執行時間預算、工作區合約、修補程式提取流程及評估器的公平設定下,比較異質代理框架(即「爪」)。完整基準測試包含來自SWE-bench-Multilingual及SWE-bench-Verified-Mini(經未來提交清理後)的350個GitHub問題解決實例,涵蓋8種語言及43個儲存庫。我們同時釋出Claw-SWE-Bench Lite以加速驗證,這是透過成本感知與排名感知程序,從17個校準欄位中選出的80個實例子集。在完整基準測試中,採用最小直接差異配接器的OpenClaw僅獲得19.1%的Pass@1,而完整配接器搭配相同GLM 5.1骨幹模型則達到73.4%,顯示配接器設計對啟用OpenClaw風格的框架有效執行編碼任務至關重要。在OpenClaw搭配九個模型的掃描與五個框架搭配兩個模型的掃描中,模型選擇使Pass@1變化29.4個百分點,而固定模型下的框架選擇則變化27.4個百分點;準確率相近的系統,其API總成本可能差異甚大。因此,Claw-SWE-Bench將框架與成本核算視為SWE風格編碼代理評估的主要軸線,同時提供完整基準測試與低成本參考集,以利可重現比較。數據公佈於https://github.com/opensquilla/claw-swe-bench及https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench。
獎勵模型是文生圖後訓練的核心,但視覺偏好具有主觀性,將其表示為評分標準分數的分佈,遠比用確定性標量來表達更為恰當。現有的標量、分數標記和成對獎勵模型過度壓縮了不確定性與細粒度分數差異,而基於推理的生成式獎勵雖能提供更強的判斷,但部署成本高昂且難以直接用作優化信號。我們提出 Z-Reward,這是一個教師-學生獎勵建模框架,將重度推理判斷與高效獎勵部署加以解耦。教師模型為大型視覺語言模型(VLM),利用推理來推斷符合評分標準的分數分佈,並通過分組直接分數優化(GDSO)訓練;該方法將來自分佈期望的策略梯度獎勵與對分數分佈及分數差距的直接點式與成對監督相結合。學生模型則通過推理內化分數蒸餾(RISD)訓練,將教師的推理條件分數分佈轉移到緊湊型視覺語言模型中,而無需在推理時使用顯式推理鏈。在我們內部標註的評估集上,27B 的 GDSO 教師模型達到了 89.6% 的人類偏好準確率,優於 SFT、RewardDance 和 GRPO;而 9B 的 RISD 學生模型達到 88.6%,不僅優於 OPD 基線,且與規模更大的教師模型表現相近。我們進一步展示,Z-Reward 可作為文生圖優化的可微分獎勵信號,相較於 SFT 基線,實現了 41.3% 的人類偏好淨提升。
表格编码器通常通过任务特定的端到端流程进行评估,因此即使在处理相似的表格信号时,不同训练范式的模型也难以直接比较。我们提出TRL-Bench,一个多粒度的表格表示学习(TRL)基准,它标准化了跨范式的表示级评估:每个编码器通过其支持的封装器导出行嵌入、列嵌入或表嵌入,共享的轻量级探测头在三个套件中对这些嵌入进行探查:TRL-CTbench(列/表)、TRL-Rbench(行)以及TRL-DLTE(涵盖所有三种粒度的组合式数据湖表富集)。为了支持这种标准化设置,我们发布了精心整理的基准资产和任务重构,包括50个OpenML数据集(含123个经过验证的目标)、16个行对链接重写,以及从1,379个父表衍生的包含47,772个表的DLTE数据湖。在20个模型和16个任务中,TRL-Bench显示,一旦下游条件标准化,编码器质量便具有能力特异性,而非由单一排行榜捕获。在TRL-CTbench中,通用文本编码器通常在具有强表面文本信号的任务上领先,而表格专用编码器则在预训练目标与任务对齐时胜出。在TRL-Rbench中,表内预测和跨表链接偏好不同的训练机制,其中原子链接性能与DLTE流程中行匹配阶段的表现高度相关。在TRL-DLTE中,最强的流程结合了能力匹配的专用编码器,而非重复使用单一编码器,而最佳端到端质量取决于非加性组合适配性,而非单一阶段的边际排名。TRL-Bench为在共享下游条件下衡量导出表格表示中的可复用信号提供了通用协议。代码与数据:https://github.com/LOGO-CUHKSZ/TRL-Bench
從自我中心影片中進行空間推理本質上具有挑戰性,因為可觀察的證據受到攝影機軌跡的限制。現有方法依賴於單輪推理,迫使模型透過語義先驗而非可驗證的證據來解決幾何模糊性。我們主張空間推理應當是可反覆檢視的:在有限證據下形成的結論,應在獲得互補視角時保持可修正的空間。基於此觀點,我們提出「先推理,再推理」(Reason, then Re-reason, ReRe)方法,這是一個無需訓練、在推論階段運作的框架,包含兩個階段:在推理階段,多模態大語言模型(MLLM)從原始影片形成空間假設;在再推理階段,該模型透過觀察合成的全新視角影片來驗證或修正該假設。為了實現有效的跨視角重新檢視,我們設計了一條「幾何到影片」的流程,從預測的3D幾何中渲染出策略上互補的全新視角畫面。這些畫面採用抬升的傾斜視角並涵蓋場景範圍,同時保留MLLM原生的影片介面,無需修改架構。在VSI-Bench和STI-Bench上的廣泛評估顯示,ReRe大幅提升開源MLLM的表現,使其能與專利的頂尖模型相匹敵。專案頁面:https://zhenjiemao.github.io/ReRe/
隨著基於LLM的程式碼代理能力持續提升,其預期角色已從既有程式碼庫中的局部錯誤修復,擴展至根據高階規格設計並實現完整的軟體倉庫。然而,由於缺乏大規模、可驗證的完整倉庫生成資料,訓練代理完成此類長週期軟體工程任務仍相當困難。本文提出DeNovoSWE,一個大規模的完整倉庫生成資料集。DeNovoSWE包含4,818個高品質實例,每個實例要求根據文件生成完整倉庫。此資料集經由精心設計的沙盒化代理工作流程自動構建,無需人工標註即可實現可擴展的資料篩選。DeNovoSWE建構時採用了「分而治之」與「批評-修復」理念。為平衡資料品質與多樣性,我們進一步引入難度感知的軌跡過濾策略。在DeNovoSWE上微調Qwen3-30B-A3B可大幅提升長週期軟體工程性能,使其在具挑戰性的BeyondSWE-Doc2Repo基準測試中,得分從5.8%提升至47.2%。
视觉-语言-动作(VLA)模型通过大规模预训练继承了语义基础,并在分布内操控任务中表现出色。然而,这种语义基础建立在静态图像-文本对之上,而操控是一个连续的高接触性过程,这种预训练无法捕捉其动态特性。我们提出World Pilot,一种VLA框架,通过两条互补路径将世界-动作模型(WAM)的先验知识注入决策链。潜在引导层基于场景演化潜变量对感知层进行条件约束,而动作引导层提供预测轨迹作为运动先验输入动作生成器。这两个先验共同赋予VLA场景演化的前瞻视角以及轨迹级运动提示,与语义条件并存。即使仅使用未经动作后训练的、基于视频预训练的世界模型提供场景演化先验,该机制依然有效。在LIBERO-Plus零样本泛化(OOD)基准测试中,World Pilot达到84.7%的综合成功率,并在四项真实机器人操控任务的所有场景中均取得最高成功率,尤其在视角、几何结构、可变形状态和位姿变化的场景下优势最为显著。项目网站:https://world-pilot.github.io/
Transformer主導了現代序列建模,但其二次注意力機制帶來了巨大的計算成本。次二次架構提供了一個可擴展的替代方案。然而,究竟哪些設計能產生最有效的序列模型,目前仍不明確。我們比較了三種領先的方法:xLSTM、Mamba-2 和 Gated DeltaNet。我們在具有複雜依賴關係的任務上評估這些模型:(1) 程式碼模型的預訓練,(2) 從大型語言模型蒸餾程式碼模型,以及 (3) 時間序列基礎模型的預訓練。在這些設定中,xLSTM 提供了最強的整體性能。為了解釋 xLSTM 的優勢,我們提出了一個統一的公式化描述,並分析了底層的架構機制,重點關注狀態追蹤和記憶動態。我們的結果顯示,xLSTM 通過其閘控機制實現了更靈活且穩定的記憶修正。我們在受控的合成長度泛化任務上驗證了這些發現。總體而言,我們的研究結果表明,xLSTM 在複雜任務上的優勢源於其穩健的狀態追蹤與累積能力。
組合數學是奧林匹亞級別數學解題的核心,需要深入的離散推理、創造性建構以及嚴謹的結構洞察。近期證據顯示,即便是當今最先進的前沿模型,在奧林匹亞組合問題上的表現仍不均衡,暴露出創造性數學推理方面的差距。我們提出ComBench,這是一個針對大型語言模型組合推理能力進行評估與診斷的奧林匹亞級組合數學基準。ComBench包含100道經人工註解的競賽級問題,依兩種互補情境編排:分析為核心的問題,主要要求嚴謹的數學論證;以及建構為核心的問題,在正確性論證之外還需要明確的建構方案。評估流程結合了以評分量表引導的證明評分與確定性建構驗證,從而揭示證明品質與建構有效性不一致的案例。對前沿開源與閉源模型的實驗顯示,ComBench遠未飽和:最強模型在整體平均表現上達到65.4%,在整體Best@4上達到75.3%。我們進一步發現,嚴謹證明推理與建構實現是兩種不同的能力:Kimi-K2.6在分析為核心的證明評分上落後於GPT-5.5,但在建構為核心的Best@4上超越後者;而存在性與建構問題在代表性前沿模型中始終是最困難的。
基礎模型的最新進展已轉向具備多步驟推理與工具使用的代理行為。然而,開源努力主要集中於以文字為主的場景,長程多模態任務仍未充分探索。此差距在需要持續時間理解與迭代互動的影片任務中尤為明顯。我們提出InternVideo3,這是一個透過多模態上下文推理(MCR)強化上述能力的框架。MCR將理解視為一個閉環過程,該過程圍繞一個共享且持續演變的上下文進行,其中包含觀察、指令、推理、工具操作與記憶。這將長影片理解框架化為證據累積與驗證。為確保效率,我們引入多模態多頭潛在注意力(M²LA),這是一種保留標記的重參數化方法,壓縮KV快取狀態同時保留完整標記流。我們的分階段訓練包括持續預訓練、短到長監督微調、基於規則的強化學習,以及在策略蒸餾。實驗結果顯示InternVideo3在Video-MME、MLVU與EgoSchema等基準上表現優異。我們進一步將該模型實例化為配備檢索工具的影片代理,展現出穩健的基於證據的行為。我們的結果表明,高效的上下文處理與閉環推理對於將開放多模態模型適應至長程視覺基礎代理至關重要。
大型語言模型(LLMs)日益廣泛應用於程式碼生成,引發其可能被濫用於產生惡意程式碼的擔憂。與此同時,語法約束解碼(Grammar-Constrained Decoding, GCD)已廣泛用於透過強制語法有效性來提升LLM生成程式碼的可靠性。本文揭示了一個違反直覺的風險:這種以可靠性為導向的技術本身可能成為攻擊面。我們發現一種名為CodeSpear的新型越獄攻擊,它利用GCD誘使LLM生成惡意程式碼。實驗表明,僅施加良善的程式碼語法約束,即可有效越獄LLM。 為應對此漏洞,我們提出CodeShield安全對齊方法,即使在攻擊者控制的語法約束下,仍能穩健地維持安全行為。CodeShield透過教導模型在GCD下生成蜜罐程式碼,在程式碼模態中對齊模型。此類蜜罐程式碼在語義上無害(不執行惡意請求),且結構多樣(難以透過語法緊縮抑制)。同時,當自然語言可用時,CodeShield仍保留自然語言的拒絕回應。在4個基準測試中對10個主流LLM的實驗顯示,CodeSpear優於具代表性的越獄基線方法,平均攻擊成功率提升超過30個百分點。CodeShield則能在維持良性效用的同時,恢復CodeSpear攻擊下的安全性。我們的研究揭示了GCD的根本性風險,呼籲高度關注其潛在安全影響。
強化學習(RL)已成為現代大型語言模型的關鍵組成部分,然而在RL訓練流程中,展開階段(rollout stage)仍然是主要的瓶頸。儘管多令牌預測(MTP)透過推測解碼提供了一種加速展開的自然解決方案,但許多研究觀察到,MTP接受率在RL訓練期間會顯著下降,導致加速性能受限。為解決這一瓶頸,我們提出了Bebop,一項關於MTP在LLM後訓練中的系統性研究,並提供了將MTP整合到大規模RL流水線中的實用方案。首先,我們揭示了MTP接受率根本上受模型熵的波動所約束,且與RL階段熵的增加呈現明顯的負線性關係。其次,我們表明,與貪婪草稿採樣相比,機率拒絕採樣在很大程度上緩解了RL中熵引入的干擾。我們進一步發現,傳統的MTP訓練目標(交叉熵或KL散度)在此類設定中並非最優,因此我們提出了一種新穎的端到端總變差(TV)損失,直接最佳化多步拒絕採樣的接受率,使得接受率提升約10%,在數學推理、程式碼生成和智慧體任務中實現了高達95%的接受率以及最高25%的額外推論吞吐量增益。第三,我們在RL期間測試了多種線上MTP訓練策略,並表明,採用端到端TV損失和拒絕採樣的預RL MTP訓練在整個RL過程中實現了穩定的接受率和加速,從而消除了昂貴的線上MTP更新需求。我們提供了大量的實驗與分析來驗證我們的發現。實驗結果表明,我們的方法在Qwen3.5、Qwen3.6和Qwen3.7模型的非同步RL訓練中實現了高達1.8倍的端到端加速。
基於可驗證獎勵的強化學習(RLVR)是提升大型語言模型推理與智能體行為的一大可行方法。然而,依賴大量展開(rollout)的策略最佳化常受限於獎勵對比不足——當提示過於簡單或複雜導致回饋變異過低時,以及當僅有結果獎勵對多回合展開中每一步決策賦予相同的終端評估時,此問題尤為明顯。過去的研究主要將有限的展開資源分配給有潛力的提示,但僅在提示層級利用樣本資訊,忽略了同一展開中不同回合在前綴層級的資訊差異。本研究針對多回合智能體強化學習,將每個ReAct風格的思考-行動-觀察回合建模為語義獨立的節點,使預算分配能從提示根節點延伸至帶有後續展開的回合層級前綴,從而自然形成樹狀結構的展開。我們提出「基於樹狀展開分配之對比探索框架(TRACE)」,這是一個統一的展開分配框架,能在固定抽樣預算內強化獎勵對比。技術上,TRACE將展開預算分配至最可能產生混合終端獎勵的提示根節點與中間前綴。一個共享且可泛化的預測器根據這些錨點的前綴歷史估算條件成功機率,以引導資源分配。由此產生的自適應樹狀結構豐富了僅依賴結果的回饋,並增強策略更新的訊號。實驗結果顯示,TRACE在典型智能體基準測試中達到具競爭力的表現與效率提升,例如在等量抽樣成本下,將Qwen3-14B模型的多跳問答平均準確率提升2.8個百分點,優於各項對比基線。
視覺語言模型(VLM)將影像投影為數百至數千個視覺令牌,使得解碼器在注意力計算與KV快取記憶體上的推論成本高昂。現有的視覺令牌縮減方法多遵循「排序與捨棄」範式:對視覺令牌評分、保留精簡子集、並永久丟棄其餘部分。我們證明此不可逆操作相當脆弱,因為視覺令牌的重要性會隨解碼器深度而改變;在某一階段排名較低的令牌,可能在后續層級中變得相關,尤其是對接地敏感查詢而言。為此,我們提出Reroute,一種無需訓練的外掛模組,將捨棄改為可恢復的路由。在每個路由階段,被選中的視覺令牌通過解碼器區塊,而被延遲的令牌則跳過該階段,並在下一個路由決策時重新進入候選池。Reroute復用現有的注意力評分排序規則與逐階段排程,維持其所增強之剪枝方法的理論TFLOPs與KV快取預算類別。在以LLaVA-1.5與Qwen為骨幹的FastV、PDrop及Nüwa變體上,Reroute在激進的令牌縮減下仍能改善接地表現,同時維持一般VQA任務效能。這些結果表明,VLM令牌縮減不應僅視為不可逆剪枝,亦可視為可恢復路由。程式碼可於此處取得:https://github.com/elmma/mllm-reroute/
在語言模型表示中找出可解釋方向,對於理解與控制模型行為至關重要。稀疏自動編碼器(SAE)已成為此領域的標準工具,但將其作為預設的第一視角,往往需要訓練、儲存並評估大型過完備字典。此瓶頸限制了快速探索,並引發一個根本問題:在訓練另一個神經字典之前,從激活幾何中已能見到多少可解釋結構?我們的直覺很簡單:許多可解釋方向對token具有選擇性,而這些方向應比隨機方向更不似高斯分佈。因此,我們重新審視獨立成分分析(ICA)——一種尋找非高斯方向的經典方法——作為語言模型可解釋性的緊凑視角。我們發現ICA在大型語言模型可解釋性方面一直被低估,因為先前的應用常依賴現成的ICA實作,這些實作對LLM激活值較為脆弱,且缺乏用於檢查與評估所恢復方向的系統化工具。為填補這些缺口,我們介紹ICALens,這是第一個用於穩定、高效且可審計地對LLM表示進行ICA分析的實用工作流程。它結合了經GPU並行優化的FastICA流程,以及LLM專用穩定性方案與更佳的適配診斷方法,從而實現高效可靠的分層分析。在GPT-2 Small、Gemma 2 2B與Qwen 3.5 2B Base上,ICALens無需逐層基於梯度的字典訓練,即可高效恢復出緊凑且人類可解釋的方向。在SAEBench上,ICA在稀疏探測中與公開SAE競爭力相當,並在中小預算下的目標探測擾動中勝過後者。這些結果表明,ICA不應被視為弱基線,而應作為探索語言模型表示時高效且具互補性的第一視角。
自主式大型語言模型(LLM)訓練常被框架化為配方搜尋,導致訓練框架(harness)大致保持靜態。此限制在代理型強化學習(agentic RL)中尤為尖銳,因為動態變化的瓶頸與稀疏的標量回報會掩蓋多樣的失敗模式。我們提出 EvoTrainer,一個透過經驗回饋共同演化 LLM 策略與訓練端框架(harness)的自主訓練框架:它診斷推演層級的證據、修訂診斷結果、回測干預措施,並累積可重複使用的技能。在數學推理、競賽程式碼生成,以及儲存庫層級的軟體工程評估中,EvoTrainer 在相同資料、程式碼庫與評估協議下,匹配或超越了人工設計的強化學習基準,其中在長時程代理型軟體工程(SWE)任務上獲得最大增益。軌跡分析顯示,保留的策略在不同領域間產生分歧;演化中的診斷機制能避免將無效的高分分支提升為有效;而可重複使用的技能則影響後續的搜尋。自主式 LLM 強化學習應超越配方搜尋,邁向策略與解讀策略之訓練框架的共同演化。
我們介紹 Embodied-R1.5,這是一個統一的具身基礎模型(EFM),將全面的具身推理能力(涵蓋具身認知、任務規劃、修正與指向)整合至單一架構中,朝向通用物理智能邁進。藉由三條自動化資料建構管線,顯著擴展關鍵能力的資料覆蓋範圍,我們建構了超過 150 億 token 的大規模資料系統,並設計了多任務平衡的強化學習配方,以緩解異質任務間的衝突。我們進一步引入了規劃器-接地器-修正器(PGC)閉環框架,使單一模型能夠在長時域任務中自主執行並自我修正。僅以 80 億參數,Embodied-R1.5 便在 24 個具身 VLM 基準測試中的 16 項達到最先進水準,超越了 Gemini-Robotics-ER-1.5 與 GPT-5.4 等領先模型。得益於內化的具身能力,Embodied-R1.5 只需少量資料即可微調為 VLA,在 4 個流行的操作基準套件中優於 π_{0.5} 等領先 VLA 模型。我們進一步進行了廣泛的零樣本真實機器人實驗,驗證了在指令跟隨、可供性接地、關節物體操作以及長時域複雜任務方面的效能,展現出對物理世界的強大泛化能力。我們開源了模型權重、資料集、訓練程式碼以及 EmbodiedEvalKit(一個專為具身任務量身打造的評估框架),以促進未來 EFM 的研究。
基于可验证环境的强化学习(RL)已成为提升大型语言模型(LLMs)推理能力的有力方法。虽然先前研究表明,扩大环境规模可提升RL性能,但现有的人工或单独构建方法受限于线性扩展瓶颈,从而阻碍了可扩展的推理泛化。本文提出RACES(递归自动化环境组合框架),该框架将可验证环境视为可组合的构建模块,支持递归装配。其核心见解在于:当一个环境的上域(输出类型)与另一环境的定义域(输入类型)匹配时,二者可自动融合为新的可验证环境,实现递归组合。RACES基于300个独立环境实现,并定义了四种组合算子(顺序、并行、排序与选择),可诱导多样化的推理模式。大量实验表明,在这些组合环境上的RL训练持续提升了推理泛化能力。具体而言,RACES使DeepSeek-R1-Distill-Qwen-14B在六个基准测试上的平均得分提升3.1分(从48.2增至51.3),并将Qwen3-14B的性能从58.8提升至61.1——这些基准测试在训练环境构建过程中均未出现。此外,RACES仅使用50个基础环境即可达到与300个独立环境训练相当的性能,充分体现了环境利用的高效性。
預訓練的影片生成模型作為具備湧現任務求解能力的視覺世界模型,極具潛力;然而,它們依賴詳細的文字描述,限制了其在規劃與決策上的直接應用。現有方法若非將此推理過程外包給語言或視覺語言模型,便是依賴配有任務執行影片的監督式微調,但這類資料蒐集成本高昂且難以擴展。我們提出一個可擴展框架,透過結合自我蒸餾與強化學習,激發此類模型的任務求解能力。給定一張未標註的場景影像,視覺語言模型會生成一項候選任務及詳細的逐步解決方案。該解決方案作為條件,引導預訓練的影片擴散模型(即「示範者」);我們將其行為蒸餾至僅以影像與簡短任務提示為條件的「執行者」模型。此舉將基於標題生成的執行知識,轉移至無需精心配對任務影片監督的指令條件式任務求解中。我們進一步利用來自視覺語言模型回饋的強化學習優化執行者,充分利用「判斷取樣影片是否符合任務」與「生成解決方案」兩者之間的不對稱性。在我們提出的WorldTasks-Benchmark及DreamGen機器人基準測試上的實驗顯示,在我們基於視覺語言模型的評估協議下,執行者模型表現超越示範者模型,並能具競爭力地遷移至機器人任務。
管線平行度對於訓練大型神經網路至關重要,但現有排程方式在吞吐量、記憶體與最佳化一致性之間需要取捨。同步管線能保持前向/反向的權重一致性,但會產生氣泡;非同步管線消除了氣泡,卻引入了權重版本不一致,通常需要權重暫存、預測或修正機制。我們提出PACI(可控不一致性的管線非同步訓練),這是一種無氣泡的非同步管線方法,能在無需權重暫存、預測、額外參數複製或全域同步的情況下,限制前向/反向版本的偏移。關鍵思路是將局部梯度累積作為版本控制機制:透過相對於管線延遲減緩參數版本的演進,PACI限制了任何微批次所跨越的最佳化器更新次數,同時保持穩態利用率。在GPT風格語言模型預訓練中,PACI達到了與同步1F1B-flush相同的穩定性與最終困惑度,保持相同峰值記憶體佔用,實現了完全利用的管線吞吐量,並相較於最快的flush基準,將訓練達到目標精確度的時間提升了高達1.69倍。這些結果表明,前向/反向不一致性無需消除:當明確受到限制時,可以安全地將其換取顯著的效率提升。
擴散模型持續推動文生圖生成領域的進展。然而,將近期進展歸因於特定的建模與數據選擇仍具挑戰性:目前最先進的開源權重模型提供的消融研究有限,且未公開其訓練資料與完整訓練細節。研究社群需要完全開放(權重、資料與程式碼)的模型作為進一步研究的基礎;然而現有的完全開放模型在效能上仍顯著落後於領先模型。在本專案中,我們透過300多次受控實驗(總計超過70萬個TPU v6e小時),系統性地探討文生圖擴散訓練與推論中的建模與資料設計選擇。實驗結果凸顯多項實證發現(例如在混合策展資料集時,等權重為強效預設策略)與簡潔設計決策(例如擴大文字編碼器適配器可在極少參數增加下提升效能),有助於訓練高效能模型。根據這些洞見,我們僅使用公開資料集訓練了參數量為30億的i1文生圖擴散模型。i1在五個代表性基準(GenEval、DPG、PRISM、CVTG-2K與LongText)上與領先模型競爭,並在平均表現上超越現有最佳完全開放模型29.5個絕對百分點。我們提供i1模型檢查點、訓練與推論程式碼,以及資料處理流程。綜合而言,我們的研究發現與i1配方為未來文生圖擴散模型的開放研究奠定了實用基礎。程式碼已公開在 https://github.com/zlab-princeton/i1。
計算機使用代理(CUAs)依賴於對圖形用戶介面的視覺觀察,其中每個螢幕截圖都被編碼為大量視覺標記。隨著互動軌跡的增長,標記成本迅速增加,限制了在固定上下文和計算預算下可納入的歷史資訊量。與其他領域不同,這導致了使用歷史資訊時效能提升極少或完全沒有提升。為了解決這個效率問題,我們引入了 ReVision,它用於在多模態語言模型上訓練軌跡,透過一個學習到的補丁選擇器來移除冗餘的視覺補丁,該選擇器在保留模型所需空間結構的同時,比較連續螢幕截圖之間的補丁表示。在三個基準測試(OSWorld、WebTailBench 和 AgentNetBench)中,當使用 Qwen2.5-VL-7B 處理包含 5 張歷史螢幕截圖的軌跡時,ReVision 平均減少了 46% 的標記使用量,同時成功率比無丟棄基線提升了 3%。這確立了明確的效率增益,使代理能夠用更少的標記處理更長的軌跡。憑藉這種 improved 效率,我們重新審視了歷史資訊在 CUA 中的作用,並發現當移除冗餘後,隨著納入更多過去的觀察結果,效能持續提升。
代理技能提供了一種輕量級機制來擴展通用代理,但其開放格式使其容易遭受技能投毒攻擊。實際上危險的注入必須保持隱形:若執行有效負載會干擾用戶的正常任務,則產生的失敗訊號會引發對技能的檢查。因此,我們透過攻擊成功率來評估攻擊,這要求注入的有效負載在相同試驗中執行,且用戶的任務仍能通過其驗證器。在此視角下,先前的技能投毒攻擊面臨可靠性與隱蔽性之間的權衡:YAML標頭注入能可靠地載入但易被檢查,而將明確惡意指令置於技能正文中的隱蔽性較高之正文注入則較不可靠,因為脫離上下文的指令會引起代理自身的懷疑。我們提出了POISE,一種位置感知攻擊,將觸發器壓縮為單一、看似無害的正文指令,將其放置在可行位置,並使用情境感知生成器使其與鄰近的設置或前置步驟融合。在採用codex+gpt-5.2的Skill-Inject上,POISE達到了89.3%的攻擊成功率,比隨機放置的正文基線高出28.0個百分點,比僅使用YAML的基線高出2.6個百分點,同時保留了正文放置的隱蔽優勢。此隱蔽性是決定性優勢:由於合法的技能正文自然需要特權工具操作,LLM掃描器過度敏感,在四個判斷器及兩個基準測試中平均誤報74.6%的乾淨技能。POISE融入這些誤報中,僅使5.6%的受毒化變體在乾淨基線之上新增高風險警報,使得現有的靜態防禦失效。
剩餘使用壽命(RUL)預測對於工業預測性維護至關重要,然而許多基於學習的方法仍需依賴大量的特徵工程或大規模標註數據集來訓練任務專屬的序列模型。在本研究中,我們提出一種輕量級學習方法,利用凍結的預訓練時間序列基礎模型(TSFM),並結合一個小型回歸頭,以從多變量感測器數據流進行剩餘使用壽命估計。具體而言,我們採用Chronos-2作為凍結骨幹來提取上下文窗口特徵,並訓練一個輕量級回歸神經網路進行剩餘使用壽命預測。基於兩種設備類型之實際工業感測器數據的實驗結果顯示,在相同的預處理與評估協議下,Chronos-2特徵表現始終優於遞迴、卷積、基於Transformer以及梯度提升等基線模型。我們進一步分析上下文長度的影響,發現較長的歷史資料能顯著提升預測性能,這表明時間序列基礎模型表示法為工業環境中的剩餘使用壽命估計提供了實用且資料高效的替代方案。
許多現代視覺語言模型(VLM)建基於離散符記的自迴歸解碼。儘管基於文本的輸出介面能實現可擴展的預訓練,並在各種任務中展現強大的零樣本泛化能力,但對於需要精確連續輸出的問題——例如定位事件時間邊界或生成機器人控制動作——這些模型表現不佳。為了解決此挑戰,我們提出DRIFT,這是一個通用框架,用於將預訓練的VLM適應至連續解碼任務。DRIFT結合了一個基礎預測器(提供目標輸出的粗略估計)與一個基於流匹配的生成式精化模組(藉由疊代方式逐步改善預測)。這種殘差公式化將生成式建模問題從學習全域輸出分佈轉變為在強先驗周圍建模局部殘差分佈,大幅簡化優化過程。我們在感知與規劃任務(包括視覺定位與機器人控制)上評估DRIFT。跨越多種任務與架構(涵蓋MLLM、VLA與WAM),DRIFT一致性地優於一系列強大的基於迴歸與生成式的方法。
大型語言模型(LLM)主要有兩種參數高效微調(PEFT)技術。低秩適應(LoRA)在 LLM 層間引入額外權重,而軟提示(Soft Prompting)則在 LLM 輸入中添加專屬微調的原始標記。然而,這兩種方法均需修改預編譯且預優化的 LLM 計算圖,因此在高吞吐量引擎(如 vLLM)中無法獲得完整支援。我們提出基於藝術的強化訓練(ART)微調方法,該方法透過僅優化凍結的多模態大型語言模型(MLLM)的原始視覺輸入來注入資訊,從而在預編譯計算圖上實現軟標記方法。此方法依賴將梯度反向傳播至純像素陣列,因此能支援任何微調目標。此外,優化後的視覺輸入可被風格化為與任務相關的運算藝術作品。該方法的有效性已在不同規模的流行開源 Qwen 架構及多項文本基準測試中得到驗證。具體而言,ART 在數學與結構化工具使用基準測試中,準確度可與 LoRA 匹敵。
先前研究表明,指令微调后的大语言模型(LLMs)校准效果不如其基础预训练版本。然而,常用的聊天模板对对话式LLM校准的影响仍鲜有探讨。本研究通过分离后训练算法与聊天格式的效应,深入探究导致校准偏差的机制。我们发现:尽管指令微调本质上损害了校准性能,但聊天模板通过"所有权偏差"进一步加剧了问题——模型对其自身答案的置信度显著高于用户提供的相同内容。在六个最新开源权重LLM、三个基准测试及三种置信度启发方法的大量实验中,模型对自身回答的置信度最高可提升26%。基于这一发现,我们提出一种简单的推理阶段策略:在置信度启发时将模型回答设定为用户输入。该方法无需重新训练即可有效降低过度自信,并将校准性能最多提升26%,从而缩小基础模型与指令微调模型之间的差距。
大型語言模型(LLMs)為翻譯任務帶來了新的潛力,但在處理低資源語言時常出現效能衰退。為解決此限制,我們提出一種針對低資源語言——古邦馬來語進行LLM微調的方法。我們的做法包含設計一套指令,透過利用雙語詞典中的顯式詞彙與語義特徵,並引入持續指令微調(CIT),這是一種可實現基於指令反覆訓練的學習範式。實驗結果顯示,我們命名為Lius的模型在多項評估指標上,比標準指令微調模型提升4至6個百分點,並超越神經機器翻譯(NMT)與多語言LLM模型達10至13個百分點。這些發現凸顯了我們方法在低資源語言翻譯中減少對大規模平行語料依賴的潛力。
大型語言模型(LLMs)廣泛應用於透過自主工作流程處理複雜任務。近期,可重複使用的自然語言技能已成為一種流行範式,用以將程序性知識注入LLM應用中。由於常見技能經常被重複調用,若在每個上下文環境中放置其完整文本,將顯著增加預填充成本與延遲。儘管文字壓縮技術有潛力解決此問題,但現有方法多專注於壓縮文件中的事實性知識,而非程序性知識,因此不足以勝任技能壓縮。本文主張,有效的技能壓縮方法應滿足以下條件:1)保留工作流程與工具協定之間的邏輯依賴關係;2)支援對頻繁更新的社群技能進行輕量級離線壓縮;3)能夠適應不同技能間的多樣複雜度。為此,我們提出SKIM(SKIll coMpression,技能壓縮),一種針對程序性技能的自適應多解析度軟標記壓縮框架。根據每項技能的複雜度,SKIM會生成不同數量的軟標記,不僅提升LLM推論效率,亦保留技能使用的有效性。實驗表明,SKIM能將技能壓縮至原始標記長度的30%至60%,同時在任務表現上優於現有壓縮方法。我們已將程式碼釋出於 https://github.com/bebr2/SKIM。
理解並預測社會信念如何因應事件(從政策變革到科學突破)而演變,仍是社會科學中的一項基本挑戰。基於大型語言模型的常識知識與社交智慧,我們提出疑問:大型語言模型能否模擬社會事件後社會信念的動態變化?在本研究中,我們引入「社會世界模型」概念,這是一個通用框架,旨在捕捉社會信念如何因重大事件而演變。社會世界模型透過挖掘社會資料中的時間模式並優化證據下界來學習社會信念的狀態轉移函數,無需仰賴連結事件與信念變遷的人工標註,亦無需昂貴的普查資料。為評估社會世界模型,我們提出一個基準測試——「SWM-bench」,該基準源自真實世界的預測市場,特別是 Kalshi 與 Polymarket。SWM-bench 包含超過 12,000 筆資料點,涵蓋政治、金融與加密貨幣等多元領域的社會信念預測任務。實驗結果顯示,社會世界模型顯著優於時間序列基礎模型,在 Kalshi 資料上達到最先進成果,並在 Polymarket 資料上展現競爭力,同時為社會信念動態的潛在機制提供可解釋的洞見。
大型語言模型(LLMs)正加速推動科學發現的發展,尤其在產生有效科學假說等高階任務中展現潛力。然而在許多探索情境中,目標並非找出單一最佳假說——因為驗證過程可能充滿雜訊且成本高昂,而科學家若能取得一組高品質的替代假說,便有助於針對下游不確定性進行風險規避,以尋找最理想的解決方案。然而,常用的演化搜索策略往往在假說生成過程中優先考量優化而非探索,導致搜尋過程中的選擇壓力引發多樣性崩潰。為解決此限制,我們將假說搜索重新定義為取樣問題:目標是在固定的驗證預算下,有效產生兼具多樣性與高品質的假說。奠基於此觀點,我們提出 \ours——一種受經典平行回火演算法啟發的演化框架,能在多個溫度層級中搜索假說,並透過跨溫度的原則性資訊交換提升探索能力,同時不影響收斂過程。在分子發現、方程式發現與演算法發現等領域中,本方法在相同驗證預算下持續改善假說品質與多樣性,且所產生的候選方案在更昂貴的下游計算驗證中仍保持穩健性。
通用時間序列基礎模型在無線網路遙測數據上的遷移效果不佳,此類數據具有突發性、零膨脹及跨協定層耦合等特性。本文提出APEX-一個網路原生、僅解碼器架構的Transformer模型,用於預測企業級AP遙測數據,並以DHCP效能衰退作為代表性網路任務進行評估。APEX透過來自約4,500個生產環境無線網路(約10萬條AP時間序列,每AP含34項指標)的10通道多變量遙測數據進行預訓練,並提供APEX-Large(2.69億參數,雲端部署)與APEX-Edge(1050萬參數,邊緣部署)兩種版本。在192步(4天)的DHCP效能衰退基準測試中,APEX-Large的MAE較最強基礎模型基線(Toto)降低18%,較SARIMA降低38%,異常檢測F1值達0.93;而APEX-Edge則可在AP級邊緣硬體上實現次秒級、隱私保護的推論。結果表明,網路原生的預訓練方式可作為主動式無線網路運維的實用基礎。
隨著推薦系統朝向具備代理能力、多輪對話介面的方向發展,評估範式已難以跟上腳步。現行的基準測試往往依賴「以大語言模型作為裁判」的評估方式,容易引入主觀性、高成本與不一致性。我們提出 τ-Rec,這是一個專為代理式推薦系統設計的基準,它用可驗證獎勵取代主觀評估,並採用一種「揭示標籤引出(RTE)機制」來控制任務限制條件在對話過程中如何呈現。透過讓代理面對結構化目錄謂詞進行測試,並採用 pass^k 可靠性指標,τ-Rec 為一致性的推理能力提供了系統性的檢驗。我們針對五個模型系列、九種配置進行評估——包括 GPT-5.4、Claude Sonnet 4.6、Gemini 2.5 Flash、DeepSeek V4 Flash、Qwen3-32B 及 GPT-5 mini——結果顯示出陡峭的可靠性斷崖;即便是表現最佳的模型,在 pass^1 上也僅達約 57%,在 pass^4 上更僅約 38%,突顯出當前對話式代理部署中的關鍵差距。所有程式碼與資料均已公開於 https://github.com/nbharaths/tau-rec。
在現代人工智慧開發過程中,訓練資料的策選是最具影響力卻也最耗費人力的一環:實務工作者需反覆提出、實作、評估並根據含雜訊的基準回饋來修正資料政策。我們探討通用型編碼代理是否能自動化此資料策選循環。為此,我們提出 *Curation-Bench*,一個以代理為核心的基準評測,固定模型、訓練配方與評估套件,同時賦予代理命令列權限,使其能檢視資料、實作政策、提交至固定的訓練/評估流程,並進行修正。在視覺語言指令微調的實例中,現成的代理能在十次迭代內達到已發表的強力資料篩選基準。然而,軌跡分析顯示存在持續的「執行-研究落差」:代理主要調整局部策略變體,而非探索全新的策略家族,即使已提供策略指南與論文參考亦然。要求每次迭代引用、具體實例化並改編既有方法的支架,能促使代理轉向以方法為導向的探索。經支架輔助的代理在無人類設計輸入下,自主組合出一套資料篩選策略,其表現超越已發表的強力基準,卻僅需其十分之一的資料預算。總體而言,現有代理能執行策選循環,但可靠的資料研究需要支架式的方法改編,而非僅依賴開放式提示。程式碼與基準評測已開源釋出。
推理模型的後訓練通常結合監督式微調與基於可驗證獎勵的強化學習,最常見的是使用GRPO。然而,此演算法面臨稀疏獎勵、探索範圍有限以及模式崩潰等問題。基於近期關於自蒸餾的研究,我們提出反饋蒸餾(Feedback Distillation)訓練方法,該方法讓模型在詞元層級上,配對其自身於語言模型所產生的特權反饋條件下的分佈。反饋蒸餾能提供詞元層級的監督,並可注入外部知識。在Lean4定理證明任務上評估我們的方法後發現,反饋蒸餾在生成軌跡的多樣性上優於GRPO,從而實現更高的策略熵與更佳的pass@k縮放表現。這兩種方法具有互補性:從反饋蒸餾的檢查點初始化GRPO,其效果優於單獨使用任一種方法。總體而言,我們的結果為改善複雜推理的後訓練提供了有前景的方向。
現代大型語言模型(LLM)的訓練流程日益依賴其他模型來生成資料、過濾語料庫、判斷輸出成果,並引導開發決策。這種依賴關係具有遞迴性:某個模型可能依賴於上游的構件,而該構件自身的依賴關係僅記錄在獨立的發行版與構件中。因此,完整的依賴結構分散於異質的公開構件間,其複雜度與遞迴深度遠超人類的追蹤能力。我們提出 ModSleuth,這是一套具備代理能力的系統,可基於來源證據,從公開構件中遞迴式重建 LLM 的依賴關係圖。我們發現,現階段的主要挑戰已非資訊擷取,而是定義何謂依賴關係,並在不一致的文檔中調和構件參照。我們透過形式化方法來應對這些挑戰:區分直接與間接依賴、以操作為中心的關係來呈現異質管線角色,並在名稱、版本與儲存庫之間解析構件身分。將 ModSleuth 應用於四個富含公開構件的 LLM 發行版後,我們成功回取得 1,060 項來源可驗證的依賴關係,並建構出現代 LLM 開發的大型依賴關係圖。這些圖表揭露了多跳授權義務、訓練與評估的耦合、發行版與訓練時構件之間的差異,以及難以透過其他方式發現的文檔不一致問題。我們釋出 ModSleuth 及其產生的依賴關係圖,以支援對現代 LLM 日趨複雜的生態系統進行透明化的分析。
稀疏注意力機制可降低長上下文大型語言模型推論的計算量與記憶體頻寬需求。然而,仍有兩項關鍵挑戰待解決:(1) KV快取容量隨序列長度增長,若卸載至CPU記憶體則會產生PCIe傳輸瓶頸;(2) 稀疏選取步驟本身仍維持O(T²) 的計算複雜度,在長上下文情境下可能主導注意力機制的整體成本。我們提出SparDA,一種分離式稀疏注意力架構,它在查詢、鍵與值之外,為每一層新增第四個投影——預測投影(Forecast)。該預測投影能推斷下一層所需的KV區塊,從而實現前瞻性選取,可將CPU到GPU的預提取與當前層的執行重疊。由於預測投影與注意力查詢相互分離,本研究的GQA實作中每個GQA群組僅使用一個預測頭,相較於原始多頭選取器可降低選取開銷。SparDA僅增加不到0.5%的參數量,且僅透過匹配原始選取器的注意力分佈來訓練預測投影。在兩個經過稀疏預訓練的8B模型上,SparDA達到與基準相當或略優的正確率,相較於稀疏注意力卸載基準可提供高達1.25倍的預填充加速及1.7倍的解碼加速。透過在單一GPU上支援更大的可行批次規模,SparDA更進一步達到比未卸載稀疏基準高出5.3倍的解碼吞吐量。我們的原始碼已於 https://github.com/NVlabs/SparDA 公開。
腦部磁振造影在神經發育、老化與疾病研究中扮演核心角色。其中一個關鍵應用是腦齡預測,透過MRI數據估算個體的生物腦齡。有效的BAP模型需要大型、多樣化且年齡平衡的數據集,然而現有的3D MRI數據集存在人口統計學偏斜,限制了公平性與泛化能力。取得新數據成本高昂且受倫理限制,因此促使生成式數據擴增技術的發展。當前生成方法多基於潛在擴散模型,該模型在學習所得的降維潛在空間中運作,以因應體積MRI數據的記憶體需求。然而,這類方法推論速度通常較慢,可能因潛在壓縮而引入偽影,且鮮少以年齡為條件,進而影響BAP效能。在本研究中,我們提出FlowLet,這是一個條件式生成框架,透過在可逆三維小波域中利用流匹配技術,合成以年齡為條件的3D MRI,有助於避免重構偽影並降低計算需求。實驗顯示,FlowLet能以極少的取樣步驟生成高保真體積影像。使用FlowLet生成的數據訓練BAP模型,可改善低代表性年齡組別的效能,而區域基礎分析則確認了解剖結構的保存。