每日精選AI研究論文及翻譯
音訊本質上是一種互動式模態,然而現今的大型音訊語言模型(LALMs)仍屬離線模式,而串流音訊模型各自僅能處理單一任務,例如串流語音辨識或語音對話。現在是時候將它們統一為一個在線大型音訊語言模型(LALM):一個透過永遠在線的感知-決策-回應迴圈,即時聆聽聲音、環境與指令,並當場做出反應的模型。我們將此模式正式定義為音訊互動模型,並以 Audio-Interaction 實現——這是一個統一的串流模型,既能保留離線任務執行能力,又能新增線上通用音訊指令遵循功能,涵蓋從對話到完整語音交談,並能從串流的語義中判斷何時回應。為了實現此目標,我們提出 SoundFlow 框架,該框架端到端地實例化感知-決策-回應迴圈,從資料、訓練到部署,透過原生串流資料建構、理解感知訓練,以及非同步低延遲推論,實現穩定的即時互動。我們進一步建構了 StreamAudio-2M,一個包含 2.6M 項目的串流語料庫,涵蓋 7 項基礎能力與 28 個子任務,以及用於評估主動式音訊干預的 Proactive-Sound-Bench。在 8 個基準測試中,Audio-Interaction 在主流音訊任務上保持競爭力,同時解鎖了離線 LALM 無法達到的能力,包括即時語音辨識、串流音訊指令遵循,以及主動式協助。
我們推出 Cosmos 3,一個全模態世界模型系列,旨在統一的混合變換器架構中聯合處理並生成語言、圖像、影片、音訊和動作序列。透過支援高度靈活的輸入輸出配置,Cosmos 3 無縫整合了物理 AI 的關鍵模態——有效將視覺語言模型、影片生成器、世界模擬器和世界動作模型納入單一架構。我們的評估顯示,Cosmos 3 在各種理解與生成任務中樹立了新的業界標竿,證明全模態世界模型可作為具身智能體的可擴展通用骨幹。根據技術報告撰寫時的評估,經過後訓練的 Cosmos 3 模型被 Artificial Analysis 評選為最佳開源文字到圖像及圖像到影片模型,並被 RoboArena 評為最佳策略模型。為加速物理 AI 的開放研究與部署,我們在 Linux 基金會的 OpenMDW-1.1 授權條款 (https://openmdw.ai/license/1-1/) 下,公開程式碼、模型檢查點、精選合成資料集與評估基準,網址為 https://github.com/nvidia/cosmos 及 https://huggingface.co/collections/nvidia/cosmos3。專案網站為 https://research.nvidia.com/labs/cosmos-lab/cosmos3。
深度研究智能体通过搜索、工具使用、证据审查和答案合成的长程轨迹来解决问题。基于最终答案的评估可以判断智能体是否成功,但无法揭示轨迹中哪些环节导致答案不可靠。本文研究深度研究智能体的跨度级错误定位问题。我们从两个智能体框架、三个骨干模型和三个基准测试中收集了2,790条真实轨迹,将原始日志转换为语义跨度,并通过LLM辅助的专家审查标注有害错误跨度。基于这些标注,我们构建了TELBench,一个包含1,000个实例的基准数据集,用于在正常探索、失败搜索、初步假设和无害噪声中识别错误跨度。此外,我们提出了DRIFT,一个以声明为中心的审计框架,该框架追踪智能体的声明,检查这些声明在轨迹证据中得到支持的程度,并标记出因无支持或矛盾声明而影响答案路径的跨度。跨模型系列和审计框架的实验表明,DRIFT将跨度级错误定位和首次错误准确率提升了最多30个百分点。我们的工作为深度研究智能体的可靠性提供了过程级视角。
基于评分的强化学习(Rubric-based RL)利用大语言模型作为裁判(LLM-as-a-Judge, LaaJ),根据评分标准对模型输出进行打分作为奖励。然而,策略模型可能会利用裁判中的潜在偏差,导致奖励破解(reward hacking),从而产生无效或危险的训练结果。在实际的基于评分的强化学习中,这类破解行为往往表现微妙,并与多种裁判偏差交织在一起,使得分析、检测和缓解都变得困难。本文提出CHERRL——一个针对基于评分的强化学习的可控破解环境。通过向LaaJ注入已知偏差,CHERRL能够稳定复现奖励破解、清晰观察奖励发散,并精确识别破解的起始时间点。这为研究基于评分的强化学习中奖励破解的机制与缓解方法提供了一个干净的实验测试平台。为展示其用途,我们从可发现性和可利用性的角度分析了不同的裁判偏差,并探索了一种基于代理的系统,用于从训练日志中自动检测奖励破解的起始时间。代码与环境已在 https://github.com/THUAIS-Lab/CHERRL 公开。
少步蒸馏已成为加速先进视觉生成模型的有效策略,然而先前的工作主要聚焦于蒸馏目标。本研究从互补视角重新审视少步蒸馏,重点关注决定学生模型性能的关键训练方案。以Qwen-Image-2.0作为典型实例,我们系统探究了统一文本到图像生成与指令引导图像编辑蒸馏中的三个因素:数据组成、教师引导及任务混合。实证分析揭示了若干非直观行为,这些发现推动了Qwen-Image-Flash的研发。总体而言,我们的结果表明,有效的少步蒸馏不仅需要精心设计的目标函数,更离不开对整个训练流程的原则性组织。
機器人、擴增實境(AR)與自動駕駛領域中的多模態代理,必須透過連續的自我中心視角流來推理場所與佈局,且常需運用當前視野之外的證據。現有基準測試若非在完整影片上進行離線評估,便是針對事件而非空間結構。我們提出 OVO-S-Bench,一個全人工標註的串流空間智能基準測試,涵蓋 348 部來源影片中的 1,680 個問題。標註工作由 12 位受訓標註員完成,每位同時擔任盲審交叉審查者,總計耗費約 804 人時進行多輪品質保證。每個問題附有查詢時間戳與證據區間,且評估時模型僅能看見查詢前的影片前綴。問題橫跨四個抽象層級:即時自我中心感知、時空情境追蹤、空間模擬與推理,以及異中心映射。在 38 個專有與開源的多模態大型語言模型(MLLM)中,Gemini-3.1-Pro 以 59.2 分落後人類專家的 86.6 分達 27 分,其中異中心映射是主要的瓶頸。值得注意的是,經過串流與空間微調的 MLLM 表現反而不如基礎骨幹模型。我們進一步發現,當鏈式思考推理未能扎根於串流時,會放大空間錯誤。透過揭露這些限制,OVO-S-Bench 為下一代串流空間 MLLM 建立了一個高難度的測試平台。
大型推理模型(LRMs)因在思維鏈(CoTs)上採用基於可驗證獎勵的強化學習(RLVR)而取得了顯著進展。然而,由於長思維鏈自然包含試錯過程,且主流RLVR方法傾向於選擇結果正確的CoT軌跡進行記憶,長思維鏈中的冗餘探索不可避免地得到強化,從而導致LRMs的「過度思考」問題。先前解決此問題的嘗試主要為較短軌跡賦予更多優勢,但其學習信號仍基於結果,無法減少長思維鏈中冗餘探索的記憶。為此,我們提出ThoughtFold框架,利用細粒度偏好學習來減少冗餘探索,以實現高效推理。ThoughtFold採用內省策略,識別每個正確軌跡中的冗餘部分,生成一系列候選子軌跡。基於此譜系,我們引入一種遮蔽偏好優化目標,明確懲罰冗餘探索,並鼓勵模型直接銜接關鍵推理片段,從而有效地將其推理鏈折疊為更簡潔的路徑。大量實驗表明,ThoughtFold顯著提升了效率。它將DeepSeek-R1-Distill-Qwen-7B的Token使用量減少約56%,同時保持最先進的準確率。
隨著多模態模型朝長篇影片理解邁進,記憶成為一項關鍵能力。儘管在開發影片資料集與基準方面投入了大量努力,現有研究主要聚焦於感知與推理,卻尚未系統性地評估記憶:模型記住了什麼、資訊被保留得多麼忠實、以及記憶在干擾下仍能維持多少穩健性。為填補此缺口,我們提出 M^3Eval,這是首個專為探測多模態模型中不同記憶面向而設計的全面性評估框架與基準。本設計立基於認知心理學,透過精心建構的任務,孤立出記憶的關鍵面向。運用 M^3Eval,我們對代表性多模態模型進行了廣泛實驗,揭示出一致的弱點與獨特行為。我們發現:模型在處理並行影片串流時難以維持解纏表徵;其干擾模式與人類記憶中觀察到的模式有顯著差異;在空間域中記憶來源的定錨比時間域更可靠;以及展現出有限的符號記憶。整體而言,我們的基準為未來研究提供了有價值的資源,同時我們的發現凸顯了記憶作為一項根本但尚未充分開發的能力,並為在多模態模型中設計更有效的記憶機制提供了洞見。我們的程式碼與資料集可於 https://pku-value-lab.github.io/m3eval-homepage 取得。
多智能體推理系統採用「生成再傳遞」的範式,迫使端到端延遲與管線深度呈線性增長。我們提出StreamMA,這是一種多智能體推理系統,能將每個推理步驟在生成後立即串流傳遞給下游智能體,從而將相鄰智能體執行管線化以降低延遲。令人驚訝的是,這種管線化也提升了有效性:由於多步驟推理的品質不均勻,且早期步驟比後期步驟更可靠,因此使用這些可靠的早期步驟而非完整鏈路,能防止容易出錯的後期步驟誤導下游智能體。我們透過首次對串流、序列及單一協定進行的閉合形式聯合分析,正式論證了這兩項優勢,推導出有效性排序、加速上限及成本比率。在涵蓋數學、科學與程式碼的八項推理基準測試、兩個前沿大型語言模型(Claude Opus 4.6與GPT-5.4)以及三種拓撲結構(鏈式、樹狀、圖狀)中,StreamMA均優於兩個基準模型(在HMMT 2026上平均提升7.3個百分點,最高提升22.4個百分點;Claude Opus 4.6-high)。除這些貢獻外,我們還發現了一項「步驟層級縮放定律」:增加每個智能體的步驟數能持續提升有效性與效率,這是一個與智能體數量縮放正交且可組合的全新縮放維度。
我們提出Echo-Infinity,一個面向即時無限影片生成的自迴歸(AR)框架,採用可學習的演化記憶,以恆定代價動態過濾、抽象和壓縮任意長度的歷史資訊。現有方法主要使用預定義的KV快取排程、固定比例啟發式壓縮或推理時的RoPE適配來管理記憶。由於快取視窗有限且忽略自迴歸生成雜訊,這些設計無可避免地丟失歷史資訊並放大累積誤差。受人類記憶鞏固機制啟發,Echo-Infinity用可學習的記憶查詢(Memory Query)取代手工設計的記憶管理,當過去幀從局部視窗中被逐出時,透過注意力機制和門控機制更新這些查詢。查詢與影片擴散變換器(DiTs)進行端到端最佳化,形成一種支援任意壓縮比且計算量不隨影片長度變化的恆定代價演化記憶。這些查詢還可作為可泛化的生成先驗,即使僅使用最佳化後的初始狀態也能提升生成品質。我們進一步引入統一相對RoPE方案(Unified Relative RoPE Recipe),將錨點幀的起始位置固定為id 0,並使最新幀的id在訓練和推理過程中最多增長到DiTs預訓練的最大時間RoPE id,從而將模型從有限RoPE約束中解放出來,並消除訓練-測試之間的RoPE外推差距。在長影片和短影片生成任務中,Echo-Infinity均達到了最先進的效能,據我們所知,首次實現了24小時(超過130萬幀)的即時滾動生成,為無限影片生成提供了切實可行的路徑。
LLM代理正快速從程式碼助手演變為自主軟體工程系統。然而,現有的評估方法仍主要集中於靜態、孤立且短期的基準,無法捕捉真實生產工作流程的動態複雜性。因此,基準表現可能難以反映在涉及長執行鏈、工具互動、依賴管理及迭代反饋循環的實際運行環境下的實際能力。為此,我們提出RAMP,一個基於生產環境的基礎設施,用於評估長程軟體工程代理。RAMP建構於YatCC整合平台之上,透過標準化的編排與執行介面提供統一的運行時評估架構。RAMP引入了具有序列依賴性與複雜工具鏈互動的真實編譯器建構工作負載,同時具備階段性恢復機制,可用於分析部分工作流程失敗下的執行行為。該框架進一步納入以效用為導向的多維度指標,共同評估成果品質與流程效率。我們對15個主流模型進行運行時評估,觀察到常規孤立基準幾乎無法察覺的顯著能力下降。任務完成率在序列工作流程中逐步崩潰,從初始階段的100%降至最終階段僅20%,且所有受評模型均未能成功完成整個流程。運行時分析揭示了系統性的失敗傳播與顯著的資源效率不足,可比模型間的計算成本差異高達三個數量級。這些發現表明,RAMP將代理模型評估推向持續、運行時可觀測且基於生產環境的評估。
同策略自蒸餾(語言模型依賴於特權上下文來監督自身生成)為稀疏獎勵強化學習提供了一種有前景的密集監督來源。實際上,該方法可實例化為一種輔助的全詞彙學生對教師反向庫爾貝克-萊布勒散度損失。因此,我們提出SDPG,一種自蒸餾策略梯度框架,該框架將群組相對驗證器優勢與歸一化標準差、精確的全詞彙同策略自蒸餾以及參考策略KL正則化相結合。實驗結果表明,SDPG在穩定性和性能上優於RLVR及自蒸餾基準方法。代碼已開源於 https://github.com/lauyikfung/SDPG。
記憶是長時程大型語言模型代理不可或缺的能力,使其能夠保存並運用於長時間互動中累積的資訊。現有的記憶代理方法通常透過強化學習在下游任務上進行端到端訓練。然而,為記憶密集型場景收集高品質的標註問題成本高昂,且產生的訓練資料往往缺乏足夠的多樣性,無法涵蓋一般的記憶行為。本研究提出MemTrain,一個自我監督的訓練框架,旨在全面提升大型語言模型代理的上下文記憶能力,以利於更有效的下游後訓練。MemTrain在未標註的維基百科語料庫上引入兩個耦合的代理任務:(1)端到端的遮蔽重建目標,要求模型在多輪記憶更新後還原被遮蔽的實體,從而從最終結果的角度促進記憶維持;(2)中間記憶回憶目標,要求模型利用中間記憶狀態重建被遮蔽的歷史資訊,從而鼓勵在互動過程中進行忠實壓縮並保持記憶完整性。這兩個目標透過GRPO進行聯合優化。在長文本問答與基於搜索的問答基準測試上的大量實驗證明,MemTrain在不同模型中持續提升下游記憶密集型推理效能,相較於直接進行特定任務的後訓練,最高可達17.67個百分點的增益。
寬基線匹配(WBM)需要整合幾何理解、視角變化、細粒度感知及遮擋推理,使其成為部署於物理環境中的多模態大型語言模型(MLLMs)在空間推理上極具挑戰性的測試平台。然而,目前的多模態大型語言模型在這些能力上缺乏系統性的評估與訓練框架。我們提出 ReasonMatch-Bench,這是一個依據視角位移與匹配粒度進行分層的基準測試,涵蓋室內、室外及以物體為中心的場景,結果顯示現有多模態大型語言模型在精細的寬基線對應任務上仍力有未逮:在一個困難的 90 樣本子集中,人類標註者達到 84.0 的 F1 分數,而現有最佳基準模型僅達 37.2。為彌補此差距,我們建立了一套可擴展的數據生成流程,能自動從大規模影片-3D 資料庫(包含 RGB-D 影片及運動恢復結構重建)中擷取寬基線視角對,從而提供多樣且可驗證的監督訊號。我們進一步提出動態對應強化學習(DCRL),該方法結合影像層級視角漸進與點層級對應課程,透過可驗證的獎勵機制改善 WBM 訓練,而無需明確的思維鏈監督。大量實驗顯示,DCRL 大幅提升了 ReasonMatch-Bench 的表現,並可遷移至相關的空間基準測試,同時在數個基準測試上維持一般的視覺理解能力,並有適度提升。
網絡上豐富的程序性知識對於幫助智能體解決長期任務具有巨大潛力。然而,這類知識通常具有多模態、異質性、雜訊等特點,且隱含假定人類執行者,導致難以直接作為智能體所需的技能使用。為彌合人類導向指南與智能體可執行技能之間的鴻溝,我們將此問題形式化為「指南到技能學習」:將現實中的指南轉化為可執行技能,並從智能體可觀測的軌跡中持續改進。為評估現有智能體在此任務上的能力,我們提出 MMG2Skill-Bench,這是首個針對此問題設計的基準測試。我們進一步提出 MMG2Skill 閉環框架,將指南編譯為可編輯技能,在執行過程中以固定視覺語言模型智能體為基礎,並根據軌跡層級的根本原因反饋(而非使用基準分數)修訂技能。在圖形用戶界面控制、開放式遊戲與策略性卡牌遊戲中,以六種視覺語言模型為骨幹,MMG2Skill 在每個模型-領域設定下均持續優於原始基線智能體,各骨幹的宏觀平均增益介於 +12.8 至 +25.3 個百分點。消融研究顯示,直接以原始指南提示智能體可能導致性能下降,而結構化技能構建與軌跡驅動修訂均為觀察到的改進所必需。在可推斷成功與否的任務中,基於分析器的早期停止可進一步防止後期性能衰退,並在成功信號適當校準時節省 25%-53% 的嘗試次數。
車道級地圖是自動駕駛與車道級導航的關鍵基礎設施,然而為數百座城市建置並維護標準化車道網路仍高度仰賴大量人力。近期提出的端到端向量化映射方法可直接從感測器資料預測車道幾何形狀與拓撲關係,但此類方法通常將地圖規格與交通規則視為隱式且依賴數據集標註的監督信號。此外,在複雜場景(如標線磨損、缺失或遮蔽)中,僅憑視覺證據往往無法充分判定正確的車道配置,導致規格違規成為人工後期編輯的主要來源。我們提出 MapAgent,一種工業級代理架構,透過強化向量化主幹網路以生成合規的車道級地圖。MapAgent並非僅在地圖預測中加入代理循環,而是將主幹網路感知能力與明確的規格驗證、約束感知推理,以及基於有限步驟、由驗證驅動的「判斷者-規劃者-工作者」循環中的確定性地圖編輯相結合。其中,視覺語言判斷者透過同時檢視視覺證據與草稿向量來診斷錯誤,而可呼叫工具的規劃者則產生最小修正編輯並在編輯後進行重新驗證。為保持城市級規模的可擴展性,MapAgent僅在主幹網路信心度較低的圖磚上選擇性觸發,在維持處理量的同時僅增加少量額外開銷。在真實數據集上的實驗顯示,相較於強勢的生產級基線方法,MapAgent持續獲得改善,特別是在複雜與長尾場景中。此外,MapAgent已整合至百度地圖,支援全國超過360個城市的車道級地圖生成,並將整體生產自動化率提升至95%以上,證明了MapAgent在大規模車道級地圖生成中的實用性與有效性。
大型語言模型中的同策略蒸餾(OPD)正從全面追蹤KL散度監管轉向更具選擇性的訓練範式。近年來的OPD方法日益聚焦於選擇哪些軌跡值得學習、哪些標記最具資訊量,以及哪些監管訊號最可靠。受此趨勢啟發,我們重新審視OPD的優化粒度,提出\fireicon\ FiRe-OPD(過濾後重新加權),該方法在軌跡與標記層級聯合調整監管訊號。具體而言,FiRe-OPD首先過濾軌跡以移除低品質的生成樣本,隨後在保留的軌跡內應用軟性重新加權機制,以強化資訊量豐富的標記。相較於硬性標記選擇,FiRe-OPD透過軟性加權機制有效減輕資訊損失並提升優化穩定性,從而實現更細粒度的OPD優化。我們在強到弱、單教師及多教師設定下驗證了FiRe-OPD的有效性,並展示其相較於近期標記層級OPD方法的優越性(例如:在強到弱設定中於AIME 2024提升6.25分,在多教師設定中於Miner提升18.81分)。我們的程式碼已公開於 https://github.com/YuYingLi0/FiRe-OPD。
我們提出AAD-1,這是一種用於一步自回歸圖像到影片生成的非對稱對抗蒸餾框架。當前最先進的方法採用對抗蒸餾,但會遭遇運動崩潰與訓練不穩定的問題,導致生成靜態影片。AAD-1透過架構與訓練策略上的兩項關鍵設計來解決這些挑戰。我們的架構核心見解在於打破生成器與判別器之間的對稱性:生成器保持因果性以保留自回歸取樣能力,而判別器則雙向關注完整的時空上下文,並為整個影片序列產出單一的整體真實性評分。這種非對稱設計使判別器能有效偵測導致自回歸生成中運動崩潰的全域時間失敗與長程漂移。為穩定訓練,我們引入分階段策略,首先使用分布匹配引導出穩定的單步生成器,提供一個預熱階段,在對抗蒸餾開始前將學生分布拉近教師分布。在VBench上的大量實驗證明,AAD-1在一步自回歸影片生成中達到最先進的效能。
前馈式3D高斯泼溅方法通过单次前向传播从已知或无姿态图像中重建场景,但现有方法为每个输入像素预测一个高斯点,使得表示预算受限于相机分辨率而非场景复杂度。因此,一面平坦墙壁与一个纹理丰富的物体虽然几何需求差异巨大,却会产生相同数量的高斯点。我们提出ZipSplat——一种基于标记的前馈模型,将高斯点布局与像素网格解耦。多视图骨干网络提取密集视觉标记,并通过k均值聚类将其压缩为紧凑的场景标记集。交叉注意力与自注意力机制精炼这些标记后,轻量级MLP将每个标记解码为一组具有无约束3D位置的高斯点。由于推理时执行聚类,单一训练模型即可覆盖质量-效率曲线而无需重新训练。ZipSplat无需真实姿态或内参即可运行,但在DL3DV和RealEstate10K数据集上以比像素对齐方法少约6倍的高斯点数量创下新最先进水平,分别超越最佳无姿态基线2.1dB和1.2dB PSNR。此外,它零样本泛化至Mip-NeRF360和ScanNet++,优于所有可比基线。项目页面:https://veichta.com/zipsplat。
高品質的預訓練數據是現代語言模型的核心要素,但德語資源的發展遠不如英語資源:它們通常規模較小、精心策劃程度較低、文檔記錄不足,且很少透過受控的訓練實驗進行驗證。我們介紹KletterMix,一個高品質的德語語料庫,用於語言模型預訓練和退火,設計為自然語言處理與建模社群可重複使用的數據集成果。KletterMix的建構方式是將一個最先進的英語預訓練語料庫翻譯成德語,同時保留文檔邊界、元數據、來源結構和主題多樣性。這種建構方式產出一個具有現代預訓練數據集規模和多樣性的德語語料庫,同時允許與其英語來源進行直接比較。我們透過一系列廣泛的語料庫層級分析來記錄該數據集,包括翻譯品質、文檔長度分布、主題覆蓋、來源組成和地理元數據。使用COMETKiwi,我們展示了翻譯後的文檔在各個領域都達到高品質,表明仔細的翻譯可以保留原始語料庫大部分的語義和風格豐富性。除了數據集建構之外,我們還評估KletterMix作為訓練數據的效果。透過對比既有德語語料庫的受控預訓練和退火消融實驗,我們顯示在KletterMix上訓練的模型在德語下游評測中取得了可衡量的改進。這些結果證明,精心策劃的翻譯數據能顯著增強德語預訓練數據生態系統。
科學與工程進展本質上是一個長週期的迭代過程:提出變更、運行實驗、測量結果,並持續修正人工製品。然而,現有針對前沿模型的基準測試主要評估單輪回應或短週期代理軌跡,未能捕捉在長時間跨度內持續迭代改進的挑戰。為填補此缺口,我們推出 AutoLab,一個全新的超長期閉環優化基準測試。AutoLab 包含 36 項由專家精心設計的實際任務,涵蓋四個不同領域:系統優化、謎題與挑戰、模型開發,以及 CUDA 核心優化。每項任務從一個正確但刻意次優的基線開始,要求代理在嚴格的實際時間預算內進行改進。評估 17 個最先進模型後發現,成功的首要預測因子並非代理初次嘗試的品質,而是其反覆執行基準測試、編輯內容並納入實證回饋的持續性。儘管 claude-opus-4.6 展現出強大的長期優化能力,但多數前沿模型(包括數個專有模型)要嘛提前終止,要嘛在最小進展下耗盡預算。這些結果凸顯了時間意識與持續迭代在自主代理中的重要性。我們開源完整的基準測試、評估框架及任務資料,以加速邁向真正具備長期能力的代理研究。
現有針對多模態大語言模型(MLLM)生成網頁產品的基準測試,僅透過局部證據評估互動表現,未能捕捉決定網頁功能性的需求驅動狀態與轉換。本文提出WebRISE框架,將任務需求編譯為可觀測狀態、使用者意圖轉換及DOM/視覺斷言組成的互動合約圖(ICG),實現與實作無關的瀏覽器執行。WebRISE涵蓋442項任務,橫跨五種輸入模態(文字、Markdown、草圖、圖像、影片),包含5,495個狀態轉換與5,271項需求驗證,明確區分使用者陳述功能與隱含產品層級約束。在14個MLLM測試中,最強模型僅達65.6%轉換有效性與66.3%需求覆蓋率,且視覺品質無法反映行為表現(Markdown輸入下Qwen3.6-35B-A3B的V值達80.8,T值僅15.5)。影片提供最強互動訊號(隱含覆蓋率較文字提升10.6個百分點),但隱含約束仍持續存在;錯誤注入測試顯示,ICG基評分偵測狀態錯誤的效率為檢查點式評估的2至16倍。
結構化財務審計驗證對於語言模型智能體而言相當困難,因為正確性取決於結構化證據而非純文字。模型必須將報表事實連結到分類法概念、遍歷計算或維度關係,並在應用審計規則前重新計算預期值。我們提出 AuditFlow,這是一個基於圖形結構的多智能體框架,將自適應搜尋與確定性驗證分離。AuditFlow 從靜態的 US-GAAP 分類法圖和動態的 XBRL 申報圖建立符號化環境,並透過型別化工具公開事實檢索、分類法遍歷、數值檢查與規則評估等功能。兩位初級審計員分別從監管與證據角度檢查每個案例,而一位高級審計員則負責解決分歧並可要求進一步調查。最終報告透過證據聚合進行融合,產出審計結論、預期值、證據鏈與可信度評分。在基於 FinAuditing 的 FinMR 樣本上,AuditFlow 在 GPT-5.5 下達到 82.09% 的聯合審計準確率,超越最強基線 14.93 個百分點。移除確定性檢查後準確率降至 17.91%,顯示符號化環境承擔了模型無法可靠替代的驗證步驟。
擴展人形機器人的移動操作需要跨不同物體、全身動作及場景幾何的機器人相容示範,然而遙操作與動作捕捉難以規模化,因為每次資料收集均依賴於實體設置、穿戴設備的演員及機器人操作。我們提出 GRAIL,這是一套在部署前完全虛擬化的數位生成流程:它結合 3D 資產、模擬器就緒場景及來自影片基礎模型(VFM)的先驗知識,無需重建實體環境或遙操作機器人即可合成互動。不同於還原未經約束的真實世界影片,GRAIL 從完全指定的 3D 配置出發——在影片生成前即已知物體幾何、相機參數、度量尺度、環境深度及機器人比例的角色,並在重建過程中重複使用這些資訊。此特權設定能更有效調節 4D 復原,透過基於模型的物體追蹤、人體運動估計及互動感知最佳化,重建出深度模糊與形態錯配較少的度量 4D 人-物互動(HOI)軌跡。我們將復原的運動重新對應至人形機器人,並訓練互補的任務通用追蹤器:一個用於操作的物體感知潛在適應器,以及一個用於地形穿越的場景感知追蹤器。GRAIL 生成超過 20,000 個序列,涵蓋撿取、物體操作、坐下及地形穿越。僅使用 GRAIL 生成的資料,我們透過模擬到真實(sim-to-real)流程訓練以自我為中心的視覺策略,並部署於 Unitree G1 人形機器人上,在真實世界多樣物體撿取任務中達成 84% 的成功率,而在爬樓梯任務中則達到 90% 的成功率。
電腦使用型智能體將語言模型的應用範疇,從單純的文字生成擴展至與檔案、終端機、瀏覽器及外部工具進行持續互動。此一轉變帶來了難以從單一提示或最終回應中察覺的安全風險,原因是危害往往僅在需多步驟執行的軌跡中浮現,而其中個別動作看似於局部無害。我們提出 BraveGuard,這是一個自我演化防禦框架,旨在從開放世界的威脅訊號與真實的智能體軌跡中訓練守護模型。BraveGuard 會挖掘近期研究資料,以識別新興風險與攻擊模式,將其具體化為可執行的電腦使用任務,收集智能體的軌跡展開結果,並導出軌跡層級的監督訊號,用以訓練守護模型。當出現新的威脅或驗證失敗時,此流程可重複執行,形成適應性的防禦循環,而非靜態、以基準測試為主的訓練過程。我們透過訓練多種守護模型主幹(包括 Qwen3-Guard 與 Llama-Guard 變體)來具體化 BraveGuard,並在軌跡層級的智能體安全基準測試中評估這些守護模型。BraveGuard 能持續提升電腦使用軌跡之安全性偵測表現。在 AgentHazard 基準測試中,相較於現成的守護模型,其偵測準確率大幅提升;在平均守護模型設定下,準確率從 38.79% 提升至 82.38%。這些結果顯示,立基於開放世界威脅發現與真實智能體執行的守護監督,能夠超越固定的分類架構與合成提示層級資料,改善安全監控。BraveGuard 為面臨不斷演進之真實世界風險的電腦使用型智能體,提供了一條可擴展的適應性防禦路徑。
前沿大型語言模型的快速進展導致廣泛的基準測試飽和(benchmark saturation),限制了現有資料集區分模型能力或提供有效訓練訊號的作用。例如,在 LiveCodeBench 上,前沿模型在簡單分割(easy splits)中達到超過 99% 的 Pass@1,且在各難度等級中平均超過 90% 的 Pass@1。構建新的、具挑戰性的資料集通常需要大量人力,形成進展瓶頸。我們提出 BenchEvolver,這是一個以解答為中心的演化框架(solution-centric evolutionary framework),能自動將現有程式問題轉化為更困難的變體。BenchEvolver 並非從零生成問題,而是透過結構化轉換來演化參考解答,並從演化後的解答推導出對應的題目陳述與測試。此設計將生成過程奠基於可執行的語意(executable semantics),從而能大規模構建高品質、多樣化且難度較高的任務,同時確保正確性可驗證。將 BenchEvolver 應用於 LiveCodeBench 與 SciCode,我們獲得了難度顯著提升的演化任務,同時保持有效性、參考解答正確性與多樣性。我們進一步整理出 LiveCodeBench-Plus,這是一個包含 91 道問題的基準測試,結合了演化任務與原始 LCB-v6 中的困難任務,其中前沿模型的 Pass@1 範圍落在 27.5% 到 62.6%,恢復了對強大程式模型的清晰區分能力。重要的是,演化任務即使對生成它們的模型本身仍具挑戰性,因此能支援自我改進。我們更進一步證明,在演化後的 LCB 任務上進行強化學習(RL)能提升留出式(held-out)程式設計表現:對於 gpt-oss-20b 模型,種子訓練加上演化訓練(seed+evolved training)在 LCB v6 Hard 與 LCB-Pro Easy 上分別達到 +8.7 與 +8.3 的 Pass@1 增益,較僅使用種子訓練的增益分別高出 70.7% 與 34.8%。我們的結果顯示,BenchEvolver 能將飽和的基準測試轉化為前沿等級的評測套件與可重複使用的訓練訊號。
一群智能体如何在无中央控制的情况下,自我编排与自适应,形成更强大的集体智能?受弗里德里希·哈耶克关于市场去中心化协调的经济理论启发,我们通过一个智能体经济体来研究该问题——该经济体中智能体通过竞拍获取行动权、交换支付,并从环境奖励中积累财富。这些简单的经济信号催生了去中心化的信用分配机制,无需全局编排或显式通信协议即可驱动规划。智能体群体通过经济选择进化:高效智能体积累财富并通过开发机制发生变异,而低效智能体则破产并被探索机制所取代。我们证明,从弱智能体初始化开始,该经济体能够涌现出多步推理策略,并在五项智能体任务(包括数学推理、金融研究、科学研究、加速器设计与分布式系统优化)中超越更强的一体化基线模型。此外,我们提供了关于经济动态如何塑造智能体行为的理论洞见,将局部激励机制与长期全局表现相联系。我们的研究结果为多智能体智能开辟了新路径:与其设计协调机制,不如构建去中心化激励结构,使集体智能自动涌现。
理解神經網路訓練過程中結構化內部結構如何湧現,是深度學習研究的核心問題。我們透過群複合任務來探討此現象:訓練一個兩層神經網路,用以預測有限群 G 中元素的 g₁ ∗ g₂ 結果。藉由將投影梯度流提升至傅立葉域,我們證明訓練動態由表示論能量泛函上的黎曼梯度上升所支配。我們證明,在隨機初始化條件下,該流驅使每個神經元幾乎必然收斂至單一不可約表示,而跨層傅立葉係數則達成旋轉秩-對齊。此框架提供了特徵學習的表示論詮釋,並刻畫了矩陣值群表示中一種新穎的低秩壓縮現象。此外,對於阿貝爾群,我們給出完整的總體層次描述:隨機初始化促進跨非平凡表示的均勻多樣化,並誘導哈爾均勻相位,透過多數投票機制聯合近似指示函數。我們進一步證明,相位對齊與表示競爭均以指數收斂率出現。
权重空间模型合并通常被形式化为检查点上的代数操作,然而在大语言模型(LLM)规模下,限制性资源往往是必须读取的专家权重集。我们提出MergePipe——一种预算感知执行层,它将LLM合并视为专家访问集问题:在给定合并算子和共享权重坐标系中的检查点族的情况下,在显式I/O预算约束下选择需要访问的专家增量块。MergePipe对参数块建立索引,构建确定性访问计划,并通过可重放的清单执行由此产生的预算感知合并。该计划天生具有预算可靠性,并在完整预算下恢复全量读取合并;对于固定系数的加法算子,省略更新的误差由被省略增量块的范数界定。在Qwen和Llama的合并工作负载中,MergePipe将专家读取I/O减少高达一个数量级,并实现高达11倍的加速。代表性预算扫描显示,与全量读取合并相比,参数偏差为O(10^{-3})量级,且下游基准测试未出现单调退化。
训练数据归因(TDA)旨在将模型的预测结果追溯至其训练数据。TDA的黄金标准依赖因果干预,通过观察数据增删时模型的改变来推断影响,但对大型语言模型(LLM)而言,反复重训练在计算上极具挑战。因此,现有方法大多通过梯度在参数空间中近似这一效应。然而,追踪数十亿参数的梯度不仅计算成本高昂,还依赖于局部近似。本文提出一种范式转变:我们不估计参数变化,而是在激活空间中建模训练数据的功能性效应。我们提出STRIDE(基于引导的训练数据影响分解框架),该框架将TDA形式化为压缩感知框架下的稀疏恢复问题。STRIDE学习轻量级的"引导算子",用以模拟训练数据子集导致的行为偏移。通过测量这些算子如何扰动测试预测结果,我们利用稀疏线性分解恢复单个训练样本的影响。STRIDE在LLM预训练归因任务上达到当前最优水平,同时速度较现有方法提升一个数量级(13倍)。我们进一步通过下游应用验证其实用价值,包括数据筛选、数据污染检测及定性分析。
道义推理是指通过将明确的规则和规范应用于具体案件事实来回答问题,例如根据法规计算税务责任,或决定移民上诉的结果。基于大型语言模型的道义推理面临一项关键技术挑战:相关规则集可能冗长且相互引用,导致模型在特定推理步骤中可能仍无法定位所需规则。我们提出道义代理推理(Deontic Agentic Reasoning, DAR),这是一种按需让模型与法规进行交互的代理推理架构。我们在DeonticBench的困难子集上,通过多种框架对DAR进行评估。在这些情境下,我们发现代理框架能够推动道义推理任务的前沿发展,但改进并不均衡:较弱的模型在数值类任务上往往性能下降,同时消耗大量额外令牌。
大型語言模型(LLMs)正日益被提出作為臨床代理,然而靜態、單回合的基準測試無法捕捉模型在整個診療過程中如何動態提供照護:收集資訊、規劃治療,以及在連續的病人狀態中調整長期管理。醫學教育長期以來透過標準化病人(SP)來應對類似的挑戰:這些經過訓練的演員能一致地扮演臨床案例,提供逼真的練習與客觀、基於腳本的評估。在此,我們引入 MedSP1000,這是一個基於標準化病人建立的互動式基準測試,用於評估臨床代理,包含 1,638 個標準化病人案例與 24,602 個經同儕審查的軌跡層級評分量表。MedSP1000 將經同儕審查的標準化病人教學案例轉化為可執行的場景,包含定義好的標準化病人案例腳本、臨床環境背景,以及經人類驗證的結構化評分量表。在每次模擬評估運行中,臨床代理與病人代理及環境控制器進行閉環互動,其行為會根據原始材料中專家制定的標準,在整個診療過程中進行評分。將 MedSP1000 應用於一系列通用型與醫學專科的大型語言模型,我們發現,在靜態基準測試上的表現無法可靠地轉移到這類教育場景中。表現最佳的模型 GPT-5.5 僅完成專家定義評分量表中 60.4% 的項目,而最強的醫學專科模型則達到 40.0%;增加測試時計算並未帶來可衡量的提升。這些結果顯示,當前的大型語言模型,包括針對醫學調整的代理系統,尚未足夠可靠以安全整合至實際臨床實務。更廣泛而言,MedSP1000 展示了過程層級、標準化病人式的評估如何揭露單回合基準測試所忽略的臨床相關失敗模式。
语音翻译系统日益涵盖语音到文本翻译(S2TT)、语音到语音翻译(S2ST)、离线翻译以及流式生成,其输出在模态、语音实现及时序行为方面存在差异。现有评估实践虽涉及翻译质量、语音及时序质量等重要维度,但这些方面常采用独立协议进行评估,难以全面比较异构系统。为填补这一空白,我们提出OpenSTBench——一个统一的、多维度的评估框架,将异构语音翻译输出组织为共享评估格式。OpenSTBench支持离线与流式场景下的S2TT及S2ST系统,并联合评估翻译质量、语音质量、说话人保留、情感与副语言保真度、时序一致性及延迟。通过在代表性语音翻译系统上的实验,我们表明:翻译质量较强的系统在语音质量及时序质量上仍可能存在显著差异。OpenSTBench提供了可复现的分析协议,用于考察这些跨维度差异,支持面向应用的语音翻译系统比较。代码与数据集可在https://github.com/sjtuayj/OpenSTBench获取。
訓練與擴展大型語言模型需要大量計算資源,這促使了高效的次二次架構以及原則性的超參數調整方法的發展。雖然最大更新參數化(μP)已能實現標準Transformer的零樣本超參數遷移,但其在線性模型——特別是具有結構化狀態轉移和複雜架構的模型——中的延伸應用,至今仍鮮少被探討。通過嚴謹地在前向傳遞、門控機制與循環狀態動態中傳播座標尺度估計,我們推導出閘控Delta網路(Gated Delta Network)的縮放規則。語言模型預訓練的實驗證實,我們的配置能在AdamW與SGD兩種優化器下,實現跨模型寬度的穩定學習率遷移,而標準參數化則無法達成此遷移,這驗證了我們分析的正確性與實際應用價值。
我們提出了 Stable-Layers,這是一個強化學習架構,透過僅使用來自視覺語言模型(VLM)的回饋來微調預訓練的圖層分解模型,從而消除對配對監督的需求。以 Qwen-Image-Layered 為基礎,我們應用結合 LoRA 適配的 Flow-GRPO,對每張影像取樣多個候選分解,使用 VLM 進行評分,並根據群體相對優勢來優化策略。關鍵挑戰在於設計可靠的獎勵訊號:單獨對樣本評分的 VLM 傾向於將其判斷壓縮到狹窄的範圍內,使得 GRPO 缺乏組內變異來學習。我們透過兩階段評估流程解決此問題,該流程將基於五項編輯中心標準的結構化逐樣本評分,與基於網格的校準步驟相結合,在該步驟中 VLM 會並列重新評分所有候選方案。與基礎模型相比,Stable-Layers 在 Crello 資料集上產生的分解具有更強的圖層分離、更少的空白或偽影層,以及更低的每層重建誤差。
儘管當前的多模態模型在開放式視覺編輯方面表現出色,但執行精確的單一答案編輯仍是一項重要障礙。為探究此挑戰,我們提出PaintBench,這是一個可動態擴展的基準測試,針對20項基礎精確視覺編輯操作,涵蓋四大類別:幾何變換、結構操控、顏色變更及符號推理。透過可配置複雜度的程序化生成,本基準能產生實際上無限且抗污染的評估套件,而確定性像素級評估則消除了對易有偏見的評判模型的依賴。在11個圖像編輯模型中,我們發現整體表現低落,目前表現最佳的業界領導者僅達17.1%(mIoU)。任務分解揭示了特別具挑戰性的操作類型(幾何變換、大多數結構操控、基於公式的顏色變更)以及模型特定的專業領域。細粒度的基準診斷進一步顯示,由物件數量、背景複雜度、色彩配置及編輯區域大小等場景變化所引發的效能衰減。為測試PaintBench分數在應用任務表現上的泛化能力,我們建立了一個用於數據可視化編輯的程序化確定性評估(TinyGrafixBench),並發現其與PaintBench分數存在強線性相關(R^2 = 0.91, p < 0.001)。總體而言,PaintBench為衡量與推動精確多模態視覺編輯的進展提供了嚴謹的基礎。
大型語言模型代理正從請求-回應助手演變成長期運行的軟體執行個體:它們在模型調用之間維持狀態,分派子任務、等待外部事件、請求人類授權、生成工具、執行必須能被恢復與稽核的副作用。本論文提出 Agent libOS——一種受程式庫作業系統啟發的LLM代理執行時基礎設施。Agent libOS運行於傳統主機作業系統之上;它不實作硬體驅動程式、核心態隔離或POSIX相容作業系統。相反地,它將代理視為一個AgentProcess:一個可排程的執行主體,具備程序身分、父子血緣關係、生命週期狀態、從AgentImage衍生出的工具表、型別化物件記憶體、明確能力、人類佇列、檢查點、事件與稽核記錄。其核心設計原則為:工具是類似libc的包裝器;執行時原語則構成權限邊界。檔案系統存取、物件存取、休眠、人類核准、即時工具註冊以及外部副作用,皆在明確能力與策略規範下,於原語邊界進行檢查。 我們描述了該系統的設計、威脅模型、Python原型以及以安全為導向的評估。當前原型實作了非同步排程、命名空間局部的物件記憶體、執行時整合的人類核准、一次性權限授予、每程序工作目錄、Shell與映像註冊原語、基於libOS系統呼叫中介的Deno/TypeScript即時工具、檔案系統/物件橋接工具、可注入的資源提供者基礎設施、確定性演示、真實模型煙霧測試腳本,以及截至撰寫時共123項迴歸測試。Agent libOS並非旨在提升規劃器準確度,而是展示一種執行時基礎設施,在此基礎上,長期運行的LLM代理得以被排程、授權、恢復與稽核,無須將工具派送視為信任邊界。
人類能輕鬆感知空間佈局、建立認知表徵、推理空間關係,並將此類推理轉化為日常三維環境中的行動。儘管近期的視覺語言模型(VLM)在基於觀察的空間感知與推理任務上展現出令人期待的表現,但其能否構建連貫的空間理解、據此採取行動,並透過多輪回饋修正行動,仍是未知數。為探討此問題,我們提出 SpatialAct——一個基於模擬環境的基準測試,用於探討三維場景中基於行動的空間推理。從最具挑戰性的設定「多輪互動式改進」出發,我們進一步設計其分解任務「單步錯誤檢測與修正」,並搭配五項基礎空間能力任務,以診斷模型失敗的根本原因。實驗結果揭示了明確的「推理到行動」差距:現有 VLM 雖能在孤立空間推理任務上表現良好,但在多輪回饋中難以維持連貫的空間信念、產出可靠行動,表現明顯遜於人類。這些結果表明,即使抽象化低階控制,當前 VLM 智能體在行動引發的環境變化下,仍缺乏穩健的空間狀態追蹤能力。
LLM在風險決策任務中可能表現出謹慎,但看似謹慎的輸出並不一定代表其與人類決策機制一致。我們以聖彼得堡博弈作為受控測試平台,探討此區別——該經典悖論中期望報酬無限,但人類通常願意支付較低且有限的價格。我們評估了28個LLM,使用結構化提示組合,包含原始博弈;操縱截斷、重複遊戲、數值稟賦及職業身份的控制決策變體;要求模型以人類決策者角度推理的人類視角提示;以及基礎模型與其指令微調版本的配對比較。在原始博弈中,多數模型產生有限出價,呈現類似人類的風險行為。然而,此結果層面的相似性掩蓋了顯著的機制層面差異。控制變體顯示,模型往往偏離原始博弈中的人類行為,轉向條件性與計算理性行為。人類線索提示與指令微調通常降低出價並減少某些可見病態,但多數機制層面的反應模式仍大致不變。這些發現表明,風險決策中的行為對齊可能僅是表面層面的:LLM能產生類人類風險決策,卻不展現人類一致的機制。因此,高風險LLM決策評估應超越結果相似性,審視對齊是否建立在機制層面的一致性之上。
庫普曼理論將非線性動力學轉化為線性譜問題。然而在計算中,一切取決於一個困難的有限維度選擇:觀測量必須具有表達力、在動力學下近乎不變,且理想上需與複合運算相容。深度庫普曼方法學習靈活的坐標,而結構保持方法則在固定字典上強制執行算子恆等式。我們結合這些概念,提出深度嵌入乘性動態模態分解(Deep Embedded Multiplicative Dynamic Mode Decomposition,DeepMDMD),該方法學習一個潛在空間及其劃分,同時將庫普曼乘積規則作為精確代數約束強制執行。訓練過程在精確乘性算子更新與可微分潛在聚類步驟之間交替進行,後者促進庫普曼閉合性。其結果是在學習到的潛在單元上形成一個有限轉移映射。該映射的非零譜位於單位圓上,其字典由動力學而非環境幾何決定,預測在潛在坐標中進行後再解碼至物理空間。在哈密頓、混沌及流體實例中,DeepMDMD學習到的字典遠比幾何MDMD劃分產生的字典更為緊湊且動力學上更一致。它減少了頻譜污染,揭示了更豐富的連續譜結構,並在嚴重噪聲下提供穩定預測。在高維流場中,包括一個158,624維的圓柱尾流及噪聲Re=20,000的頂蓋驅動流,DeepMDMD在狀態空間MDMD失敗之處仍能保留相干結構與長時間譜統計量。這些結果表明了一條實用的庫普曼學習法則:學習坐標,約束代數。
自回归网格生成通過將網格標記化為序列並以語言建模方式訓練模型而受到關注。然而,現有方法存在兩項根本限制:(i) 標記化效率低下,導致標記序列過長,無法擴展至高多邊形網格;(ii) 缺乏幾何感知引導,因為生成僅以全局形狀嵌入為條件,而非局部表面線索。我們提出 MeshWeaver,這是一種自回歸框架,將網格生成視為表面編織過程,直接預測下一個頂點而非獨立坐標。其核心為多級稀疏體素編碼器,通過三種互補方式將幾何上下文注入生成過程:提供體素特徵作為頂點表示、通過交叉注意力引導標記預測,以及作為結構支架約束生成圍繞輸入表面。我們的層次化設計能在單次解碼步驟中實現從粗到細的頂點預測,同時將生成模型與 3D 幾何緊密耦合。大量實驗證明,MeshWeaver 實現了 18% 的頂尖壓縮比,能生成高達 16K 面的網格,並顯著提升幾何保真度,優於先前方法。
擴散模型已成為現代生成式AI的基石,驅動著視覺、語言、音訊等多模態領域的進展。儘管取得巨大成功,此類模型仍會產生幻覺——即落在真實數據分布支撐集之外、不合理的樣本——進而降低可靠度與信任度。本研究首先透過實驗驗證先前提出的假說:在影像生成擴散模型中,分數平滑性會導致幻覺,並提出基於密度的觀點。我們進一步將此概念形式化,將幻覺機率質量與學習所得分數函數的利普希茨常數相互連結。受此啟發,我們提出一種變異數引導的分數調變(VSM)策略,透過控制分數雅可比矩陣,降低分數平滑性,從而更逼近真實分數,進而減少幻覺。在合成數據集與真實世界數據集上的實證結果顯示,我們的方法能有效降低高達約25%的幻覺,同時維持高保真度與多樣性,為建立更可靠的擴散式影像生成提供了嚴謹的方法論基礎。此外,我們也提出兩個具有極端語義變異的評測基準,用於系統性評估幻覺現象。程式碼與數據集已公開於 https://github.com/bhosalems/VSM。
圖語言模型已成為將大型語言模型應用於圖學習任務的一個有潛力的方向。通過將圖拓撲結構與節點信息轉化為圖標記,圖語言模型使大型語言模型能夠同時處理結構化的圖輸入與文本指令。然而,目前仍不清楚大型語言模型內部如何解讀這些圖標記,以及圖標記是否作為圖結構有意義的載體。在本研究中,我們通過代表性圖語言模型架構中的圖標記行為,分析大型語言模型如何處理圖信息。 研究結果。我們發現,圖語言模型中圖標記的內在顯著性並不等同於圖信息的利用程度。圖匯聚標記持續表現為激活級異常值:這些標記可透過在少數隱藏狀態維度上的巨量激活值來識別,並且傾向於出現在圖標記的早期位置。然而,這種激活級顯著性並不意味著這些標記是圖信息的主要載體。與語言模型及視覺-語言模型中的經典注意力匯聚點不同,圖匯聚標記不一定能吸引查詢標記的最大注意力權重。通過剪枝、重定位與交換等干預實驗,我們證明圖匯聚標記對於下游預測而言,並非最重要的語義或結構標記。 影響。綜合來看,這些結果表明,當前圖語言模型將圖結構映射至大型語言模型的標記空間後,所產生的圖標表徵並未自然形成完全可用的拓撲感知內部表徵;相反,它們展現出激活級顯著性與圖語義實用性之間的分離。這種分離指出了現有圖標記構建、定位與對齊機制的局限性。
大型語言模型透過延伸的鏈式思維推理能提升最終答案的正確性,但常導致代幣使用效率低落,且推理過程難以控制。現有的高效推理方法雖能透過縮短、提前終止或壓縮推理軌跡來控制思考長度,卻未能明確調控模型的思考方式。本文提出「自主鏈式思維引導」(Agentic Chain-of-Thought Steering, ACTS),將推理引導形式化為馬可夫決策過程,由一個控制器代理在推論時自適應地引導已凍結的推理器。在每個步驟中,控制器觀察目前的推理軌跡與剩餘的思考預算,接著發出一個引導動作,包含推理策略與一段引導詞,用以啟動推理器的下一步驟。此方法能在保留推理器生成連續性的同時,實現預算感知的策略控制,達成高效推理。我們以自行建構、具多重預算增強的合成引導軌跡來初始化控制器代理,並進一步透過帶有預算條件獎勵塑形的強化學習進行優化。多項基準測試結果顯示,ACTS 在顯著節省代幣的同時,能達到與完整思考相當的表現,並在不同推理器與任務間實現可控的準確率與效率權衡。相關程式碼已公開於 https://github.com/Andree-9/ACTS。
等變性理論預測:將對稱性作為架構先驗,可將樣本複雜度降低|G|倍;此論點廣被引用,但卻鮮少以控制混淆變項的尺度法則加以量測。在受控的C_n對稱任務中,我們報告三項發現。第一,軌道大小相同且計算量匹配的錯誤群組控制,表現劣於無任何約束(聯合成對信賴區間[+0.79, +3.26]排除零值,對各估計量穩健);錯置的約束不僅無助益,反而具有主動危害性。第二,配備測試時軌道平均的資料增強基線,與等變模型表現完全一致——在匹配的單元上,逐週期驗證曲線完全相同——因此架構與增強之間的差距是有條件地取決於非對稱的測試時計算,而非無條件成立。第三,相對交換率beta_diff = 1.28在符號與數量級上與理論值1.0一致(單層信賴區間[+0.92, +2.05]);較保守的雙層拔靴法(種子×群組大小)則將區間擴大為[-0.63, +1.72](包含零值),而在間距為sqrt(2)的較細N網格上進行的複製實驗結果不明確(點估計值-0.82)。方法學貢獻——可消除共享難度混淆項的相對率估計量、錯誤群組控制,以及預先指定的失敗分類法——可遷移至任何強度可參數化的歸納偏置。誠實界定範圍:主要估計量beta_diff是在初步分析顯示存在正斜率可識別性問題後,事後採用的;實驗設計從未經過外部預註冊;且標題數字僅基於粗N網格上七個群組大小的普通最小平方法斜率。本研究為探索性研究,非確認性量測;錯誤群組結果是最清晰的發現,也是我們報告時最有信心的結果。後續工作將進行使用新鮮種子的註冊複製。
遷移學習旨在通過從源域遷移知識來促進目標域的學習。源域通常包含語義上有意義的樣本(例如圖像),以實現有效的知識遷移。然而,近期一項研究觀察到,由簡單分佈(例如高斯分佈)構成的噪聲域,可在半監督設定下作為替代源域——該設定中僅有少量目標樣本被標記,其餘多數保持未標記狀態。基於此驚人發現,我們提出一個新問題,稱為「半監督噪聲適應」(Semi-Supervised Noise Adaptation, SSNA),旨在利用合成的噪聲域提升目標域的泛化能力。為解決該問題,我們首先建立一個刻畫噪聲域對泛化影響的泛化界限,並在此基礎上提出噪聲適應框架(Noise Adaptation Framework, NAF)。大量實驗表明,NAF能有效利用噪聲域以收緊目標域的泛化界限,從而帶來性能提升。相關代碼已公開於 https://github.com/AIResearch-Group/SSNA。
強化學習(Reinforcement Learning, RL)已成為一種主流的後訓練範式,使大型語言模型(Large Language Models, LLMs)得以從獎勵中學習。我們觀察到,社會規範在結構上與獎勵函數極為相似:二者皆定義了可量化的結果、門檻值與例外情況,但往往僅部分明確定義制度背後的意圖。我們假設,RL訓練過程可能利用這些模糊地帶,因此提出疑問:模型在RL過程中廣為人知的獎勵破解傾向,是否會升級為更具後果性的失敗模式——即「社會漏洞利用」(societal hacking):發掘社會運作規則中的漏洞。為研究此現象,我們引入了SocioHack,一個包含72種社會環境的沙盒測試平台。我們發現,在這些環境中,獎勵破解自然發生,並導致法規漏洞的發現。模型學會了破解社會規則,並產出在技術上合規、卻違背法規原意的策略;而現行LLM的防護機制僅能提供有限的緩解效果。因此,為訓練模型而收集真實世界的反饋時需要更加謹慎,且我們需要下一代後訓練範式,以在真實社會中安全地迭代優化大型語言模型。
AI眼鏡為AI代理提供了一個極具潛力的平台,使其能作為個人化記憶助手。若要真正發揮效用,此類系統必須超越短期影片理解,針對人類在實際、個人或社交目的下,於長時間的自我中心影片串流中所經歷的記憶缺口進行處理。然而,現有的自我中心資料集大多聚焦於動作辨識或短片中的通用問答,衡量的是感知能力而非真實的人類記憶需求。我們引入了SuperMemory-VQA,這是一個用於評估AI助手在實際、長時程記憶任務上表現的自我中心視覺問答(VQA)資料集。該資料集包含52.9小時以AI眼鏡錄製的日常活動,包括同步的RGB影片、音訊轉錄、眼動追蹤、慣性測量單元(IMU)以及同時定位與地圖建構(SLAM)軌跡。透過經人工驗證的標註流程,我們建構了4,853組有根據的問答對,涵蓋物體與位置記憶、意圖回想、視覺場景回想、時間線重建、對話記憶以及情境內檢索。每個問題都以選擇題形式呈現,並附帶明確的「無法回答」選項,以測試對幻覺的穩健性。對領先的代理框架與大型語言模型(LLM)主幹的基準測試顯示,現有系統在真實世界的記憶任務上仍遠未達到可靠程度,凸顯了對於新的、基於證據的AI記憶架構的需求——此類架構應僅在證據充足時才進行回答。參與者調查進一步支持,我們的問題具有現實性、實用性,且與日常記憶需求相符。
在計算化學與生物物理學領域中,一項長期存在的挑戰是高效地對分子的玻爾茲曼分佈進行採樣。生成式建模的進展被提出用於克服傳統採樣技術的限制,通過消除模擬的計算成本。一個有前景的方向是沿著溫度階梯迭代微調擴散模型,其中訓練數據是在推論時退火過程中透過重要性抽樣生成的。不幸的是,這些方法需在分數場上計算散度來估計重要性權重,使其難以應用於較大的系統。在此,我們提出可擴展推論時退火(SITA),該方法重新訓練基於流量的模型,以在逐步降低的溫度下生成樣本,並利用能量基模型來促進快速的替代似然計算。我們在丙胺酸二肽與丙胺酸三肽上展示了最先進的性能,同時避免了昂貴的散度項。我們的代碼可在 https://github.com/countrsignal/sita.git 取得。
學習無限維函數空間之間的映射(即算子學習)對許多機器學習應用至關重要。儘管基於Transformer的算子廣受歡迎,但它們通常依賴於逐token的注意力機制。這類方法將連續場視為離散token,往往忽略全局函數結構。我們提出了函數注意力(Functional Attention),將注意力重新解釋為自適應基底之間的函數對應。受幾何函數映射啟發,我們的方法以結構化線性算子取代softmax親和力,從而得到一種緊湊、可泛化且解析度不變的表徵,能明確捕捉全局依賴關係。實驗表明,函數注意力在多項算子學習任務(包括求解PDE、3D分割與回歸)中能達到最先進的性能,同時對不同離散化方式保持穩健。專案頁面位於 https://github.com/xjffff/FUNCATTN。
低秩適應(LoRA)成功實現了文字生成圖像中的個性化,透過將預訓練擴散模型適應至特定的視覺概念與風格。然而,將此類模型延伸至多概念定制仍具挑戰性。直接組合多個LoRA權重或其輸出常導致概念間的干擾,造成視覺品質下降,並降低對個別概念參考圖像的保真度。本文提出一種簡單而有效的方法,透過最佳化組合多個LoRA模組的輸出來實現多概念定制。我們利用生成過程中從對應提示詞標記推斷出的各概念相對重要性,並引入兩種方法——W-Switch與W-Composite——採用提示詞感知的重要性加權策略,根據觸發詞在目標提示中的語義影響來加權每個LoRA。此外,我們透過提出一個新的基於影像的相似性評估框架來擴展現有定量評估指標,該框架透過比較現實世界參考圖像與生成影像中自動分割的概念區域,評估影像保真度與身份保留。我們在ComposLoRA測試平台上評估所提出方法,並在視覺品質、身份保留與合成性方面,相較現有最先進方法展現出持續改進。定性評估(包括基於大型語言模型的評估與使用者研究)進一步驗證了所提出方法的有效性,並與新引入的基於影像的定量指標一致。我們的程式碼已公開於https://github.com/GeorgeTsoumplekas/Prompt-Aware-Multi-LoRA-Composition。
統一多模態模型(UMMs)已成為實現通用多模態智慧的一個有前景的範式。隨著它們被部署到實際應用中,有效更新內部知識變得至關重要。儘管知識編輯在純文字模型中已趨成熟,但在UMMs中,成功修改文字輸出的編輯是否也能遷移至影像生成,目前仍不清楚。為研究此問題,我們提出UniKE——首個針對UMMs跨模態知識編輯的基準測試,包含2,971個涵蓋屬性與關係編輯的編輯主體。透過基於VQA的視覺驗證,我們發現一個顯著的模態差距:文字側的有效性可達約92%,而直接影像生成下的最佳整體VQA準確率僅為18.5%。我們進一步提出推理增強參數編輯,該方法在生成前明確啟動編輯後的知識,從而提升所有受評模型-編輯器配對的整體VQA準確率,最高提升18.6個百分點。機制分析表明,此差距與編輯後的文字表徵與視覺生成的條件路徑之間的部份對齊有關,即足以改變文字輸出的編輯可能仍過於薄弱或對齊不足,無法引導影像合成。這些發現顯示,文字知識編輯無法保證可靠的跨模態遷移,並呼籲開發具模態感知能力的編輯方法。我們的代碼與數據可在 https://github.com/gxx27/UniKE 取得。
LLM代理預算超支是一個有文獻記載的生產環境故障類別:單一重試迴圈可能在運維人員察覺之前就耗費數千美元,而能夠預防此類問題的進程內完整性屬性(無別名引用、無雙重支付、無委託後使用承載成本的值),即使有被強制執行,也是透過臨時包裝器而非型別系統來實現。我們的核心貢獻在於實證:一份涵蓋21個編排框架(2023-2026年)中63起經確認的生產事故目錄,每起事故均附有引用的GitHub議題,並在報告中提供經濟損失(美元),將其組織成一個八類故障分類法(評估者間Cohen's kappa係數 = 0.837,N = 113),外加47筆補充性結構條目。作為針對此分類法評估的一項緩解措施,我們建構了token-budgets,這是一個1,180行的Rust crate(無unsafe程式碼),它實現了仿射所有權,使得克隆、雙重支付或在委託後使用預算變成編譯錯誤,而非運維人員必須記得避免的執行時期風險。美元上限是在估算器假設下的執行時期算術運算;仿射層使得該算術運算不可被繞過。在單一代理工作負載下,一個4行的Python計數器與該crate在0/30的超支情況下表現相當,因此其區分價值在於多代理委託中運維人員出錯時的不可繞過性:在11起事故中記錄的委託扇出競爭,在編譯時期就被借用檢查器拒絕,而相同的模式在asyncio下則超支30/30,三個規範的替代方案則超支0/30。在五個執行時期、三個提供商以及一個溫度分層的即時API測試(N = 160)中,該方法報告了零上限違規與零誤拒,達到與同類工作相同的運行效能。靜態超額預留為4-6倍(自適應版本為2.11倍)。運行中二進制層級的上限健全性問題則留待後續解決。