每日精選AI研究論文及翻譯
科學圖表是傳達複雜研究概念最有效的方式之一,然而產出符合發表品質的圖表仍是論文準備過程中最耗費人力的環節。現有自動化系統各自針對單一圖表類型並僅接受文字輸入,無法應對研究人員實際使用的多樣圖表類型與條件;其輸出的點陣圖檔亦無法進行局部修改。由於科學圖表是由離散語意元件構成的結構化組合,生成器在這種佈局上產生的局部錯誤需要的並非更強大的主幹模型,而是約束機制。我們將此約束機制具體化為兩個互補系統:Crafter——一個能跨圖表類型與輸入條件進行泛化、無需改變架構的多智能體圖表生成框架;以及CraftEditor——運用相同模式將點陣輸出轉換為可編輯SVG格式的工具。此外,我們提出CraftBench基準測試,涵蓋三種圖表類型與四種輸入條件,並附有人工品質標註。實驗結果顯示,Crafter在PaperBanana-Bench及CraftBench上均大幅超越獨立生成器與基於智能體的基線方法,消融實驗證實各組件的獨立貢獻;CraftEditor則能將輸出忠實轉換為可編輯SVG,優於所有基線方法。我們的程式碼與基準測試已公開於 https://github.com/HaozheZhao/Crafter。
參數高效微調(PEFT)通常被視為完整微調的一種更便宜的替代方案。我們研究一個更廣泛的角色:小型可訓練適配器作為在強大共享基礎模型之上的持久局部狀態。在此框架下,基礎模型提供共享能力,而適配器承載實例特定的行為,例如偏好、技能、工具習慣,以及類似記憶的更新。我們圍繞三個擴展軸來組織問題:向上擴展——更強的共享先驗使得小型局部更新變得更有用;向下擴展——我們研究適配器在保持可靠的同時可以小到何種程度;向外擴展——許多持久化的適配實例共存。MinT 提供了一個基礎設施範例,用於管理適配器的身份、修訂、溯源、評估及服務駐留。綜合而言,這些結果表明,PEFT 可以成為持久化個人模型的緊湊基礎,而不僅僅是完整微調的預算替代方案。
隨著代理能力的提升,現有基準測試(例如 τ²-Bench)已逐漸趨於飽和。然而,建構新的基準測試任務仍然複雜、成本高昂且勞力密集。此外,標準方法——先以自然語言撰寫情境,再將其映射至工具序列——僅能涵蓋代理所使用之工具模式中的一小部分。本文透過逆向思考任務建構流程來解決這些問題。我們提出 **TASTE**(Task Synthesis from Tool Sequence Evolution,基於工具序列演化之任務合成),這是一種自動化方法,能產生具挑戰性且涵蓋更廣泛工具使用範圍的任務。TASTE 利用一種基於 LLM 判斷有效性訊號訓練的自適應對比 n-gram 模型,用以取樣有效的工具序列,涵蓋大量工具組合。接著,TASTE 透過聚類從序列池中選出具代表性的序列,將其實例化為完整的基準測試任務,並透過反覆的難度演化來優化任務。利用 TASTE,我們建構了 τ^c-Bench,這是在 τ²-Bench 三個領域基礎上的挑戰性擴展。我們評估了 11 組代理/使用者 LLM 配對,結果發現,那些在 τ²-Bench 上幾乎達到飽和的模型,在我們任務上的表現大幅下降(例如,Gemini-3-Flash 從 0.82–0.94 降至 0.28–0.61)。除了增加難度之外,我們生成的任務使代理必須執行的獨特工具組合數量倍增。我們的結果顯示,現有基準測試的高分往往反映的是飽和,而非穩健的問題解決能力。透過自動生成高難度、高覆蓋率的基準測試,TASTE 能夠為未來的代理提供持續且可擴展的評估。
前沿模型的評估正從基礎能力(例如指令遵循與推理)轉向組合性、代理性的能力,但韓語的代理性基準依然稀少。我們提出 K-BrowseComp,這是一個基於韓語情境的網頁瀏覽代理基準,包含 400 道問題。其中含 300 道問題的 K-BrowseComp-Verified 子集由母語為韓語的使用者手動建構與驗證。在此子集上,前沿大型語言模型,包括 GPT-5.5、DeepSeek-V4-Pro 與 GLM-5.1,僅達到 30.00% 至 45.67%,相較於 BrowseComp 大幅下滑;而透過韓國專有 AI 基礎模型計劃發布的韓語大型語言模型僅獲得 0.00% 至 10.33%。我們進一步利用困難的少量範例與針對失敗模式的生成,建構了一個含 100 道問題的合成分區,以利用解決與創造網頁瀏覽問題之間的不對稱性。在經過對抗性過濾的合成診斷性分區上,最強的模型僅達到 26.00%,我們將此分區單獨報告作為一項針對性的壓力測試。我們公開釋出我們的資料與程式碼。
搜尋代理通常被訓練為基於逐漸增長的轉錄本(transcripts)的策略:模型必須決定如何搜尋,同時記住所看到的內容、哪些證據有用、哪些約束條件尚未解決、以及哪些聲明實際上已被查證。我們認為,這種表述將過多的例行狀態管理(routine state management)置於策略內部:強化學習被迫同時優化語義搜尋決策以及環境能更可靠維護的可回復性簿記(recoverable bookkeeping)。為此,我們引入Harness-1:一個在具狀態搜尋框架(stateful search harness)內以強化學習訓練的200億參數搜尋代理(檢索子代理)。該框架維護環境端的運作記憶(working memory),包括候選池(candidate pool)、重要性標記的策展集合、精簡的證據連結、驗證記錄、壓縮並去重複的觀測結果,以及預算感知的上下文渲染(budget-aware context rendering)。策略保留語義決策:搜尋什麼、保留或捨棄哪些文件、驗證什麼、以及何時停止。在涵蓋網頁、金融、專利及多跳問答(multi-hop QA)等八項檢索基準測試中,Harness-1平均策展召回率(curated recall)達到0.730,比次強的開源搜尋子代理高出+11.4個百分點,並與規模更大的前沿模型搜尋器(frontier-model searchers)保持競爭力。其增益在保留的遷移基準(held-out transfer benchmarks)上尤為顯著,這表明對明確的搜尋狀態進行強化學習,可產生超越訓練領域的檢索行為。我們的程式碼已在 https://github.com/pat-jj/harness-1 公開。
投機解碼透過將目標模型與輕量級草稿模型配對,並對其提出的詞元進行並行驗證,從而加速大型語言模型的推論。目前常見的草稿模型構建方式(如EAGLE3或DFlash)是對目標模型生成的軌跡進行監督式微調(SFT)。然而,我們觀察到SFT很快就會達到平台期:草稿模型在測試資料上的接受長度停止改善。其原因在於「離線到推論的不匹配」:在SFT中,草稿器從固定的目標生成軌跡中學習,但在投機解碼過程中,它需要對根據自身策略所提出的區塊進行評估。這促使了在策略蒸餾(OPD)的出現,即由目標模型在草稿誘發的狀態下監督草稿器。然而,OPD對草稿模型而言仍然困難,因為它們無法可靠地獨立展開完整序列,而目標輔助生成會使收集的序列遵循目標分佈,從而消除在策略訊號。為此,我們提出Draft-OPD,它利用目標輔助展開來產生穩定的續接,並對驗證暴露的錯誤位置進行草稿重播。這使得草稿器能從目標模型對接受與拒絕提案的雙重回饋中學習,將訓練聚焦於那些限制投機接受的草稿誘發錯誤。實驗結果顯示,Draft-OPD在各種任務中對推理模型實現了超過5倍的無損加速,相較EAGLE-3和DFlash分別提升了23%和13%。
推測解碼透過草擬多個令牌並利用目標模型平行驗證,來加速大型語言模型的推論。然而,其實際加速效果受到草擬品質與草擬成本之間的權衡限制:自迴歸草擬器雖能建模草擬令牌間的因果依賴,但會引入序列化開銷;而平行草擬器雖降低草擬成本,卻削弱了區塊內部的依賴建模能力。本文提出 Domino 框架,一種將因果依賴建模與昂貴的自迴歸草擬執行解耦的推測解碼方法。Domino 首先使用平行草擬骨架產生整個區塊的初步草擬分佈,再透過輕量的 Domino 頭模塊,以依賴前綴的因果資訊對其進行精煉。為穩定教師強制因果編碼,我們進一步引入基底錨定訓練課程,先強化平行骨架,再逐步將最佳化轉向經因果修正後的最終分佈。在 Qwen3 模型上的實驗顯示,Domino 在 Transformers 後端下可達最高 \(5.49\times\) 的端到端加速,在 SGLang 服務下可達最高 \(5.8\times\) 的吞吐量加速。
浮水印技術透過在AI生成文本中嵌入統計特徵以實現偵測與溯源。我們揭示一項根本性弱點:當使用者存取多個模型(即當前現實情況)時,浮水印將輕易失效。浮水印擾動了輸出機率分布使其偏離原始分布,而在競爭市場中,不同供應商之間的這些擾動通常相互獨立。我們從理論上證明,對輸出機率分布進行平均化處理可恢復無浮水印的分布,僅殘留二階誤差項。實證結果顯示,僅需平均3-5個模型的輸出即可抵消這些擾動。我們提出WASH(統計混合降浮水印技術),解決了異質模型集成生成時詞彙對齊與分詞差異等實務挑戰。在六種浮水印方案與三個大型語言模型的實驗中,平均三個模型的輸出能使偵測z值從5-300降至2以下(低於偵測閾值4),並在5%假陽性率條件下將真陽性率壓至50%以下;同時生成品質提升27.5%,長序列生成速度較最佳基線快6倍。研究結果顯示,若要透過浮水印實現穩健的AI文本偵測,若非接受此根本性弱點,便需模型供應商間達成前所未見的協調。
標準的下一個詞元預測(NTP)僅透過輸出對數空間中的離散標籤來監督語言模型。我們主張這種稀疏的獨熱監督方式對潛在表示空間的約束不足,使得隱藏狀態可能漂移成退化且各向異性的結構,從而限制泛化能力。為了解決此問題,我們提出隱式下一個詞元預測(NITP),該方法直接在表示空間中透過密集連續監督來增強離散預測。NITP訓練模型預測下一個詞元的隱式語義內容,並使用同一模型中的淺層表示作為穩定的自監督目標。我們提供理論分析,證明NITP透過減輕約束不足的自由度,並促進緊湊且結構化的表示幾何,從而正則化最佳化景觀。在實驗上,針對從0.5B到9B參數的密集模型與專家混合模型,NITP在計算開銷可忽略的情況下持續提升下游任務性能。在一個9B的專家混合模型上,NITP在MMLU-Pro上實現了5.7%的絕對提升,同時在C3和CommonsenseQA上分別獲得6.4%和4.3%的提升,且僅增加約2%的訓練浮點運算次數,無額外推理成本。我們的實作可於https://github.com/aHapBean/NITP取得。
近期提出的「影片推理」典範,利用影片生成模型(VGM)產出時序一致的視覺軌跡來完成推理任務。儘管最先進的VGM在視覺品質上表現優異,卻常難以理解並遵循任務特定規則,導致在各類推理情境中出現邏輯失誤。現有做法嘗試運用視覺語言模型(VLM)作為問題預解器,為VGM產生或精煉文字指引。然而,文字描述無法完整捕捉複雜的時空細節,且即便已有可行計畫,VGM仍難以忠實執行細粒度或長尾指令。雖然VLM作為解題者表現有限,但其具備強大的感知能力,可評估過程約束的滿足度與最終目標的達成度。基此優勢,我們提出典範轉移,將VLM的角色轉變為「教師」。具體而言,VLM教師提取任務特定規則以制定可微分獎勵,透過測試時線上優化輕量LoRA模組,引導VGM推理器。此策略可實現適應性測試時優化,並將推理能力擴展至VGM內在邊界之外。在符號性(VBVR-Bench)與通用型(RULER-Bench)影片推理基準的評估中,所提方法平均提升16.7個百分點,在可比測試時成本下,大幅優於VLM-as-Solver典範(+0.4點)與Best-of-N擴展(+2.2點)。這些發現揭示,將VLM整合為測試時教師,為實現可泛化影片推理提供了極具前景的典範。專案頁面:https://VLM-as-Teacher.github.io/
尽管视频流理解已取得显著进展,但诸如直播体育赛事、自动驾驶及多屏协同等实际应用场景,本质上需要持续的多流交互。然而,现有基准局限于单流范式,导致在线跨流推理评估的关键空白。为填补这一空白,我们引入X-Stream——首个专为多流流式理解设计的基准。该基准涵盖932个视频中的4,220对严格筛选的问答对,评估跨多窗口、多视图及多设备场景的11项子任务。关键在于,我们采用新颖的双重验证流程构建数据集,避免对单一流的过度依赖。此外,我们率先将多模态大语言模型(MLLMs)概念化为朴素复用器,通过信号复用理论的视角系统评估其性能。大规模在线推理实验揭示了一个严峻现实:最先进的MLLMs在处理并发流时面临显著困难,仅能达到约50%的得分,且主动能力薄弱。最终,X-Stream揭示了当前复用方案的权衡,为下一代多流智能体提供了实用评估方案与实证指导。
長時程因果視訊擴散模型已收斂於固定大小的滑動視窗KV快取,近期進展透過改變哪些Token佔據視窗或如何編碼其位置,在此框架內進行創新。然而,作為串流記憶體與延遲主要貢獻者的每頭KV佈局本身,大多維持不變。本文首次針對多頭潛在注意力(MLA)在視訊擴散中的應用進行研究。VideoMLA以共享的低秩內容潛在變量與共享的解耦3D-RoPE位置鍵,取代每頭鍵與值,從而在每個快取層將每Token的KV記憶體減少92.7%。我們進一步探討了為何MLA在視訊擴散中成功,儘管其常用於語言模型中的頻譜假設並不成立:預訓練視訊注意力並非低秩,其99%能量的有效秩遠高於任何實際潛在維度。VideoMLA在直接頻譜近似會預測出較大重建誤差的壓縮比下,仍能保持品質。我們證明,MLA瓶頸(而非預訓練頻譜)決定了有效秩:頻譜初始化與隨機初始化在初始化時均佔據接近完整的秩預算,而訓練在保持此預算的同時,於其內部進行調適。在VBench評估中,VideoMLA在短時程串流視訊擴散基準上表現匹配,在長時程場景下於評比方法中取得最佳整體分數,並在單顆B200上將吞吐量提升1.23倍。
大型語言模型(LLM)智能體日益依賴可重複使用的外部技能來解決長程互動任務。現有無需訓練的技能適應流程通常從完整軌跡或會話級回饋中更新技能,這使得失敗歸因粗略,往往產生不穩定或過度寬泛的修正。我們提出 SkillAdaptor,一種具備明確失敗歸因的無需訓練步驟級技能適應框架,可嵌入 OpenClaw 類智能體框架。給定一條失敗軌跡時,SkillAdaptor 會識別第一個可操作的錯誤步驟,將責任關聯至候選技能,並在明確的接受檢查下執行有針對性的更新,同時保持主幹模型凍結。我們在 WebShop、PinchBench 和 Claw-Eval 上使用 Kimi-K2.5、GLM-5 和 GPT-5.2 進行評估。SkillAdaptor 在三組測試套件上均優於無技能與技能適應基線,其中最大單一指標提升分別為:PinchBench 平均分數% 提升 +1.5 點、Claw-Eval 平均分數提升 +1.8 點、WebShop 成功率提升 +1.7 點。這些結果表明步驟級歸因有助於實現更穩定且可審計的無需訓練技能維護。程式碼將於 https://github.com/zjunlp/SkillAdaptor 發布。
人類能透過主動的頭部與身體運動,重現目標影像指定的視角,然而基礎模型中的空間智能大多僅被研究為對預先收集觀測的被動理解。我們提出目標視角重現(Target Viewpoint Reproduction, TVR)——一項主動任務,要求智能體在三維環境中調整其視角,直至其觀測結果與給定的目標影像匹配——並建構TVRBench,一個涵蓋場景尺度與目標視覺豐富度的室內模擬基準。TVR遠未得到解決:在評測分割中,最強的開源與閉源模型僅分別達到7.8%與12.0%的成功率。細粒度分析發現兩個一致的瓶頸:現成模型難以處理多輪視覺歷史,且當視角重現需要身體平移而非原地旋轉時,性能急遽下降,暴露出將空間差異映射至具身運動的缺口。為研究縮小此缺口,我們建立統一的TVR後訓練框架,涵蓋專家軌跡監督微調(SFT)、理由監督的思維鏈監督微調(CoT-SFT)、離線單輪群體相對策略優化(GRPO),以及來自即時模擬器展開的在線多輪GRPO。視覺-動作SFT提供主要增益,將9B開源模型提升至50.8%成功率;多輪GRPO提供針對性的多房間精煉,整體達到51.4%,而CoT監督與單輪GRPO則降低閉環性能。這些結果使TVRBench成為衡量與訓練主動在三維環境中感知與行動的基礎模型的測試平台。我們的程式碼、資料與模型可於 https://github.com/aim-uofa/TVRBench 取得。
空間智能需要能同時捕捉語義物體與物理世界中幾何結構的視覺表徵。為此,兩種主要的預訓練方案現已廣泛用作基礎骨幹:視覺語言模型(VLM)透過語言監督將視覺觀察與語義概念對齊;影片生成模型(VGM)則從時間動態變化的視覺世界中學習。然而,目前仍不清楚何種預訓練方案能為空間智能提供更優異的表徵基礎。本文首度針對VLM與VGM,在空間智能的三個代表性軸向——語義標記、實例分組與三維幾何預測——進行系統性的凍結特徵探測研究。藉由輕量探測器,我們的框架得以控制比較兩類模型族群的凍結表徵中已編碼的資訊。實驗結果揭示明確的互補性:VLM在語義標記與實例分組上更具優勢,而VGM則為密集幾何與相機運動提供更易提取的信號。此外,兩者的簡單融合即能產生在幾何與語義上皆表現優異的表徵,這暗示可透過有效整合兩類模型族群的特徵,為建構更強大的空間智能骨幹指明方向。我們的程式碼已公開於 https://github.com/om-ai-lab/Probing-VLM-VGM。
長視域搜尋代理在多次工具呼叫中累積大量檢索內容,使得上下文預算效率日益重要。一種最小干預措施是在軌跡推進過程中,將過時的觀察結果從上下文中遮罩,但這種上下文管理形式何時有幫助及其原因仍不清楚。我們透過對各種代理骨幹(40億到2840億參數)及三種檢索器,在離線與即時網路代理搜尋基準上進行系統性掃掠,來研究觀察遮罩。我們發現,若將遮罩帶來的準確度增益繪製成圖,相較於無上下文管理時的模型準確度,會呈現不對稱的倒U形:在檢索器較弱時呈現平穩區,當強檢索器搭配中等容量模型時達到高峰,而在模型飽和時急劇崩潰。此模式反映了檢索器召回率與模型隱含過濾能力之間的交互作用,而非單一因素所致。從機制上來說,遮罩實現了一種詞元與回合之間的取捨:它移除了模型大致已停止關注的觀察結果,以及代理極少重新開啟的頁面。新增的回合若能將失敗轉為成功則有幫助,但若遮罩移除了模型原本會使用的證據,則會失敗。因此,我們將上下文管理重新定義為一種依賴於狀態的干預措施,並為分析代理深度搜尋中的上下文使用提供整體觀點。我們在此釋出我們的框架與軌跡(https://github.com/i-DeepSearch/observation-masking),以支援未來研究。
當大型語言模型在強化學習過程中,於早期推理步驟出現錯誤時,標準演算法會強迫其持續生成至最大時間步長,耗費計算資源於永遠無法獲得正向獎勵的詞元,並使優勢估計受後續失敗雜訊污染。我們提出ESPO(早停式近端策略優化),該方法能即時偵測軌跡失敗並提前終止展開。在每個生成步驟中,ESPO僅利用取樣時已計算出的對數幾率計算代理遺憾值,當平滑累積遺憾值顯著超過其估計值時即終止生成。被截斷的軌跡視為帶有終端獎勵的吸收失敗狀態,使負向時序差分誤差集中於偵測到的失敗步驟附近,無需額外獎勵模型或人工標註。在針對數學推理訓練的DeepSeek-R1-Distill-Qwen-7B模型上,ESPO在AIME 2024(46.28%對45.25%)、AMC 2023(85.83%對82.94%)及MATH-500(87.42%對85.43%)的表現皆優於PPO,同時累計節省超過20%的展開詞元。
多智能体LLM工作流通过将推理过程分配给专门角色来提升终端任务准确率,但采用强化学习联合训练这些角色时存在稳定性问题,其原因尚不明确。我们研究了端到端RL训练多智能体LLM工作流相较于基模型的改进效果,比较了两种训练方式:共享策略训练(所有角色更新同一个策略)与隔离策略训练(每个角色拥有独立参数)。实验矩阵涵盖评估-优化、投票和编排-工作器三种工作流,数学与代码两类任务,以及三个模型规模(0.6B、1.7B、4B)。实验发现,多智能体RL通常能提升基模型性能,但提升幅度同时依赖于工作流、任务和模型规模,并非仅由策略共享决定。隔离策略训练往往能达到更高的峰值准确率,但更常遭遇终端准确率悬崖式下降;而共享策略训练并未消除失败,只是将失败重塑为性质不同的模式。我们进一步通过工作流拓扑结构和策略路由引发的角色级梯度动力学,解释了其中最显著的模式:在隔离策略训练下,共享提示的并行同角色智能体会放大各角色梯度,导致投票和编排-工作器工作流出现终端退化;在共享策略训练下,不对称的每步梯度质量使得共享策略被主导角色捕获,从而在不同任务和工作流中产生不同的失败特征。综合来看,实证图谱及其内在机制表明,策略共享是通过不同渠道引导训练压力,而非提供统一的稳定性,因此它是一种依赖于工作流和任务条件的折衷设计选择。
模型上下文協定(MCP)已成為一種變革性標準,用於將大型語言模型與外部資料來源及工具相連接,並在個人應用與開發平台上迅速獲得採用。然而,現有基準測試主要聚焦於通用資訊查詢工具,未能充分捕捉個人社交應用所帶來的實際挑戰——此類應用中的工具需與個人帳戶或本地資料庫互動。為填補這一關鍵缺口,我們提出MCP-Persona,這是首個專門用於評估智慧體在真實個人化MCP工具上表現的基準。MCP-Persona涵蓋多樣化的廣泛應用,從Reddit、小紅書等社交媒體平台,到飛書、Slack等企業協作套件。我們對多種最新智慧體進行的廣泛實驗顯示,它們在個人化工具使用上顯著吃力,從而凸顯此基準在識別與應對這些限制方面的關鍵作用。MCP-Persona已公開於 https://github.com/wwh0411/MCP-Persona。
密集自注意力是長影片擴散推論中的計算與品質瓶頸:其計算成本隨序列長度呈二次成長,且超出訓練時域長度時,模型會收斂至近乎靜態輸出,即「僵化」的重複影片。當前最先進的方法若非成本過高(例如需要重新訓練),就是無法在可擴展的方式下同時滿足效能與品質目標。為此,我們提出長影片稀疏注意力(LVSA),一種無需訓練、與模型無關的塊稀疏注意力機制,適用於影片擴散變換器。該方法結合結構化窗口模式與旋轉全域錨點,從而消除導致長時域偽影的固定網格偏差。結合 FlashInfer 核心後,在 Wan 2.1 1.3B 模型的 6 倍時域長度下,LVSA 相較於密集注意力可降低計算量達 3.17 倍;在 Wan 2.1 14B 模型的 6 倍時域長度下達 2.98 倍;在 HunyuanVideo 1.5 模型的 1.5 倍時域長度下達 3.33 倍。除了降低計算量,LVSA 還能在單一 GPU 上實現 HunyuanVideo 1.5 的 2 倍時域長度生成(否則會因記憶體不足而無法執行)。此外,在 Wan 2.1 1.3B 模型上,LVSA 相較於 RIFLEx 可提供最高 2.41 倍的加速,相較於 UltraViCo 則可提供最高 3.27 倍的加速。為證明其在多樣化平台上的適用性,我們將 LVSA 應用於神經處理器(NPU),相較於密集注意力,在 Wan 2.2 A14B 上可獲得最高 2.71 倍的加速,在 Wan 2.1 1.3B 上則可獲得最高 3.24 倍的加速。為公平評估品質,我們引入 VQeval 工具,該工具能正確評分循環影片的失敗案例(這類失敗在 VBench-Long 等當前最新評估工具中反而會獲得獎勵)。LVSA 在訓練時域長度下的生成中保持品質中性,而在延伸時域長度下則可提升品質。
在開放式環境中,探索是自主代理的基本能力,然而當前的語言模型代理在這一點上仍面臨挑戰。有效的探索需要記憶,但保留完整的互動歷史在長軌跡任務中計算成本極高。雖然潛在記憶提供了壓縮互動歷史的解決方案,但其訓練缺乏可靠的監督訊號。我們提出了聯合代理記憶與探索學習(JAMEL),這是一個透過新奇驅動的互動來同時訓練代理記憶與探索策略的框架。我們觀察到記憶與探索形成了一個相互依賴的循環:持續的探索需要記憶來區分已經耗盡的行為與未見過的行為,而新奇尋求的互動則提供記憶所需的監督,使其對未來的探索有用。透過利用圖形用戶介面領域中如程式碼覆蓋率這類確定性且持續性的新奇訊號,我們為記憶模組提供了自然且無需註解的監督。實證評估顯示,我們的方法成功推廣到未見過的環境。其探索能力優於開放權重的基準模型,並可與封閉源模型在探索深度上匹敵,同時減少令牌消耗。我們的程式碼與模型已在 https://github.com/MobileLLM/JAMEL 開源。
自回歸(AR)視頻擴散技術可實現可變長度的合成,但長時程生成常面臨誤差累積與身份偏移的問題。為提升效率,現有方法普遍在生成過程中採用滑動窗口注意力機制,這導致生成軌跡不可逆轉:一旦作用窗口累積外觀誤差,後續生成只能依賴此劣化軌跡,進而產生更嚴重的偏移。為解決此限制,我們將長視頻生成重新定義為檢索增強生成(RAG)問題。與僅依賴近期窗口不同,我們將先前生成的潛變量視為可動態搜尋的歷史資訊庫。我們提出LongLive-RAG,這是一個適用於AR視頻生成的通用檢索框架。在每個新區塊生成時,LongLive-RAG透過查詢嵌入向量檢索相關歷史潛變量。此輕量化檢索步驟僅為生成過程增加極小的計算開銷,使生成器能基於非局部上下文而非僅限於近期窗口。為提升檢索性,我們引入窗口時間差分損失函數,可抑制冗餘的局部相似性,並引導嵌入向量捕捉具意義的時間變化。這些組件共同降低滑動窗口注意力導致的誤差累積。在多個AR骨幹網路及不同生成長度下的實驗顯示,本方法能提升長視頻品質,並取得最佳平均VBench-Long排名。據我們所知,在開放式AR長視頻生成方法中,LongLive-RAG是首個將自生成潛變量歷史建立為內容可定址檢索記憶的方法。程式碼已公開於https://github.com/qixinhu11/LongLive-RAG。
從觀看圖像時記錄的功能性磁振造影(fMRI)訊號中解碼視覺內容,並具體回答關於所見圖像的問題,一直是個長期的挑戰。儘管近年來在基於fMRI的視覺問答(VQA)領域已取得顯著進展,但其表現仍有限。此外,雖然現有模型能做出越來越準確的預測,但它們鮮少被用作理解腦中視覺表徵結構的工具。我們提出Brain-IT-VQA,一個基於fMRI進行視覺問答的框架。該方法建構在大腦互動轉換器(Brain-IT)之上,從腦部活動解碼語言標記,並將其與語言模型整合,以回答視覺問題。我們的模型在表現上大幅超越既有基於fMRI的影像描述與VQA方法。我們進一步引入NSD-VQA,一個新的基於fMRI視覺問答的資料集與基準測試。與現有的影像-fMRI VQA資料集通常僅提供每張影像少數廣泛且控制薄弱的問題不同,NSD-VQA在20個經控制的問題類別中,每張影像平均提供20組問答對,從而解析多層次的視覺理解。這使得在有限的fMRI測試資料下,仍能進行更可靠且可解釋的評估。總體而言,Brain-IT-VQA與NSD-VQA提供了一個強大的預測框架,以及研究腦部表徵的工具。利用此基準測試,我們量化了哪些形式的視覺與語義資訊能從自然影像的fMRI反應中被可靠解碼。我們進一步分析了不同問題類型下各腦區的貢獻。
即時串流聯合音訊-視訊生成應用於角色動畫時,需同時滿足生成器朗讀指定文本、跨區塊維持視覺一致性、並在嚴格的播放時程預算內運作等需求。這些要求難以同時達成:逐區塊自迴歸生成可能累積文本-音訊對齊誤差與視覺漂移,而為達成低延遲所需之少量步驟蒸餾,往往會降低空間多樣性與時間品質。我們提出 StreamChar,這是一個將長程編排與短窗音訊-視訊去噪分離的串流框架。基於 LLM 的編排器利用文本與歷史背景產生與影格對齊的音訊條件,而聯合音訊-視訊 DiT 則在參考影格與動態影格條件下進行局部雙向去噪。為實現高效部署,我們採用兩階段蒸餾流程:首先壓縮取樣器,接著在線上區塊滾動中微調學生模型。在滾動式訓練期間,進度感知指標將部分文本與生成音訊對齊,而沉澱區塊記憶體則提供持久視覺錨點,以減少長程漂移。在短片與長時程協議上的實驗顯示,StreamChar 可在單一 H100 GPU 上即時運行,且與近期聯合式與音訊驅動基準相比,在文本忠實度、聲畫同步、視覺品質與串流穩定性之間提供了有利的系統級權衡。
LLM代理越來越常在決策時檢索外部策劃的技能(即程序性指令),以提升在長時程互動任務中的表現。現有的技能庫通常被視為與模型無關,在不同能力與行為模式顯著差異的骨幹模型上沿用相同的技能表述。然而,我們在多個模型規模下進行的受控實驗顯示,技能的有效性高度依賴於模型:一項對某個骨幹模型有益的技能,可能對另一個模型造成傷害。基於此觀察,我們提出MASA(模型感知技能對齊)框架,該框架無需調整代理權重即可針對每個目標骨幹模型適應技能。MASA分兩階段運作:(1) 分層技能演化流程,利用爬山法與基於UCB的樹搜索,並根據環境回饋及模型能力特徵,疊代改寫通用與任務特定技能;(2) 輕量級模型條件技能重寫器,此重寫器訓練於演化軌跡上,能在單次前向傳遞中重現適應過程。在三種互動環境與四個骨幹模型上的實驗顯示,MASA始終達到最佳整體表現,相較於最強基線提升了高達25.8個百分點。學習到的重寫器更進一步推廣至未見過的任務與環境,無需額外搜索,且推論成本僅為更大型教師LLM的一小部分,卻始終優於其表現。
開發具備能力的視覺網路代理,需要長程推理、精確定位,以及與動態真實網站進行穩健互動。儘管進展迅速,最強大的系統仍多為專有,而開放式代理則仍高度依賴基於大量精心策劃的網路軌跡進行監督式後訓練。這種依賴造成了重大的擴展性瓶頸:高品質的示範數據收集成本高昂,且靜態資料集對於多樣且不斷變化的開放網路的覆蓋範圍有限。雖然線上強化學習在基於文字的代理方面已展現潛力,但其直接用於在即時網站上訓練視覺網路代理的潛力仍 largely 未被充分探索。在本文中,我們介紹 OpenWebRL,這是一個用於在真實網站上透過線上多輪強化學習訓練視覺網路代理的開放式框架。OpenWebRL 涵蓋完整的訓練流程,包括可擴展的即時瀏覽器基礎設施、監督式初始化、多模態上下文管理、軌跡級成功判斷,以及高效的多輪策略最佳化。利用此框架,我們訓練出 OpenWebRL-4B,其在具挑戰性的即時網路基準測試上樹立了新的開源最先進技術。僅使用 0.4K 初始化軌跡和 2.2K 開放式強化學習訓練任務,OpenWebRL-4B 在 Online-Mind2Web 上達到 67.0% 的成功率,在 DeepShop 上達到 64.0%,超越了先前類似或更大規模的開放式代理,並能與包括 OpenAI CUA 和 Gemini CUA 在內的專有系統競爭。除了出色的基準測試表現,我們也系統性地研究了使線上強化學習對視覺網路代理有效的關鍵設計選擇,並分析了強化學習如何改善代理推理。總體而言,我們的工作為構建更強大、可重現且具成本效益的開放式網路代理提供了實用途徑。我們將釋出訓練資料、模型和程式碼以支持未來研究。
推測解碼(Speculative Decoding,SD)透過「先草擬再驗證」的範式加速低並行度的LLM推論。然而,主流方法通常依賴多詞元預測,導致預測難度逐步提升及序列化的草擬延遲。為解決此問題,我們提出「推測管線解碼」(Speculative Pipeline Decoding,SPD),這是一個開創性框架,充分釋放管線平行化的潛力。透過將目標LLM分割為n個管線階段,SPD使LLM能平行處理n個詞元以加速解碼。為在單一序列解碼中持續填滿管線,我們設計了一個推測模組,匯聚不同管線深度的中間特徵來預測下一個詞元,並嚴格與目標模型的管線步驟平行執行,從而實現邊界可控的難度、更高的接受率及零延遲氣泡。實驗結果顯示,與主流基準方法相比,SPD達成了顯著更高的理論加速比,為LLM解碼加速提供了一個高度可擴展的解決方案。我們的程式碼已公開於 https://github.com/yuyijiong/speculative_pipeline_decoding。
强化学习通过教导大语言模型智能体哪些动作能获得高奖励来提升其性能,但对于这些动作如何影响环境却缺乏监督。世界建模可以弥补这一不足,但现有方法通常需要独立的模拟器、额外的训练阶段或额外的推理时计算。我们观察到,在策略强化学习展开已经包含了所需的信号:每个转移对都将一个动作与其产生的下一个观察结果配对。基于这一观察,我们提出了PaW,一个策略与世界建模协同训练框架,在强化学习过程中向同一策略添加辅助世界建模监督,且不改变推理范式。为使辅助世界建模监督信息丰富且稳定,PaW引入了三个组件:基于动作熵的世界建模数据选择、容忍噪声的世界建模损失以及奖励自适应的损失平衡。在三个智能体任务基准上的实验表明,跨模型和强化学习算法相比强基线方法均取得一致改进。这些结果表明,标准强化学习展开是语言智能体训练中世界建模监督的一个实用来源。
功能可供性理解橋接了視覺感知與物理行動,為機器人在開放且非結構化的真實世界中進行操作提供了一個可解釋的介面。然而,建立一個不僅理解互動應在何處及如何發生,還能跨多樣環境、物體與任務進行泛化的功能可供性基礎模型,仍是長期存在的研究挑戰。現有方法通常僅解決此挑戰的部分問題:要麼定位任務相關區域而未指定可執行的動作,要麼預測動作但擴展性有限。本文提出我們的模型,朝向功能理解的功能可供性基礎模型邁出一步。根據單一RGB-D觀測與語言任務描述,我們的模型能預測任務條件下的功能遮罩(在何處互動)與3D接觸後運動曲線(如何互動)。為支援開放世界泛化,我們建立了一個大規模標準化資料管道,將異質的機器人、人類、模擬及真實世界掃描資料轉換為共享的功能可供性架構,包含語言、遮罩及以物體為中心的3D運動標籤。我們從三個面向評估模型:在功能可供性分割方面,我們的模型在來自4個基準的8個測試集中大幅優於所有基線,平均gIoU/cIoU分別提升+23.9/+26.3;在接觸點預測方面,它預測出更精確的點,相較最佳基線命中率提升12.7%至61.3%;在3D運動方面,它在三個測試集上均達到最佳表現。我們的模型可直接部署於真實世界機器人操作,無需針對機器人本體進行微調或使用任務特定啟發式策略,展現出適應開放世界功能可供性任務的能力。專案頁面:https://www.zhaoningwang.com/AFUN
可复用技能是扩展智能体能力的关键机制,使智能体能够积累经验并解决日益复杂的任务。然而,现有大多数技能学习方法仅将可复用经验存储为纯文本资产(如指令、推理轨迹或摘要式行动路径)。本文认为,这种纯文本范式构成了以视觉为中心任务的根本瓶颈——此类任务中,可复用知识往往依赖于空间布局、视觉定位、细粒度外观和局部状态变化。为突破这一局限,我们提出\NAME这一多模态技能范式,将声明式文本逻辑与显式视觉支持相结合。我们区分三种可复用形式:稳定空间约定的静态先验、原位视觉工作记忆的动态先验,以及交错式视觉技能——即将有序文本步骤链接到支撑这些步骤的源帧、截图或页面区域。视觉技能不仅描述"做什么",更编码"看哪里""如何检查"以及"如何验证视觉结果"。为规模化构建视觉技能,我们引入\SYSTEM这一自动化系统,通过从任务轨迹中保留文本推理、空间参照、视觉边界及交互模式,将智能体经验转化为可复用的多模态技能。在图形用户界面及其他以视觉为中心的任务上的实验表明,视觉技能始终优于纯文本技能——尤其在需要空间对应、视觉证据和状态感知交互的场景中。这些结果支撑了我们的核心主张:可复用的智能体技能应超越文本,成为面向未来多模态智能体的多模态资产。
視覺語言模型(Vision-Language Models, VLMs)展現出強大的視覺理解能力,並逐漸被部署於具身人工智慧系統中——在真實條件下具備可靠的感知能力至關重要。然而,現有基準測試多以乾淨圖像或孤立擾動評估VLM,而非由物理場景形成所導致的壓力。此設計存在兩項限制:僅涵蓋日常視覺壓力中的狹窄子集,且部分擾動在真實具身場景中鮮少出現。此缺口引出一項根本問題:我們該如何以原理性方式定義視覺壓力,使其能涵蓋物理環境中遭遇的多樣因素?為解答此問題,我們從逆圖形學視角建模視覺感知,並提出RoboStressBench——一套評估VLM在具身場景中對物理視覺壓力魯棒性的基準。受物理渲染方程啟發,RoboStressBench將視覺壓力分解為四個物理基礎維度:材質(M)、視角(V)、光照(L)與幾何(G)。此設計使RoboStressBench能涵蓋真實世界中廣泛的視覺壓力,同時允許對其影響VLM能力(如視覺辨識、推理與規劃)進行受控分析。透過對當前先進VLM的全面評估,我們識別出壓力特定失效模式,並揭示不同物理因素會降低不同的具身能力——這些能力常被總體準確率所掩蓋。我們進一步提出壓力感知型智能求解器,該求解器在推理前偵測視覺壓力源並調用視覺編輯技能,從而在高壓力場景中提升魯棒性。總體而言,RoboStressBench提供一套原理性評估框架,用以診斷與改進VLM在真實物理壓力下的感知能力,進而支持更可靠的具身人工智慧系統開發。
大型視覺語言模型(LVLMs)將視覺輸入映射為密集的令牌序列,因而在推論時產生平方級的計算瓶頸。彈性視覺令牌壓縮技術為此提供解決方案:訓練單一模型即可在多重視覺令牌預算下運行。然而,現有方法在高度壓縮情境下表現不佳。純空間壓縮(如嵌套池化)本質上如同不完美的低通濾波器,會引發頻譜混疊,導致細部細節模糊;純查詢壓縮(如嵌套查詢重採樣)則以非局部摘要取代明確的網格對齊令牌,大幅削弱空間定位能力。為解決此表徵衝突,我們提出PARCEL(基於池化錨點的重採樣與條件彈性查詢以實現高效視覺語言理解),這是一種動態分配特徵提取任務的視覺令牌化架構。PARCEL將空間池化令牌設為低頻佈局錨點,並透過池化條件查詢重採樣,令彈性查詢令牌以此錨點為條件,從而引導查詢令牌聚焦於互補的視覺特徵,而非冗餘的空間映射。在27個基準測試中的廣泛評估顯示,PARCEL顯著改善了性能與效率之間的帕雷托前沿,在不同視覺令牌預算下均持續優於現有的嵌套基準方法,同時保留了「一次訓練,隨處部署」的典範。
多模態大型語言模型(MLLMs)在感知、推理與行動生成方面展現出強大能力,但其在動態開放世界中維持探索的能力仍不明確。現有的具身與遊戲基準常將互動壓縮為短期任務,或將成功與特定領域的遊戲機制相互糾纏。本文提出MineExplorer基準,用於評估Minecraft中MLLM智能體的開放世界探索能力。我們首先篩選出解決方案高度依賴Minecraft特有知識的原子任務,以更貼近一般開放世界推理。接著,我們以ReAct風格的能力框架組織基準,並將原子任務組合為隱式多跳任務。為進一步構建可靠實例,MineExplorer採用多智能體合成工作流,共同設計任務圖、沙盒場景與基於規則的里程碑評估器。人工評估顯示,多智能體合成工作流產生的實例顯著優於單智能體基線。與先進MLLM智能體的實驗表明,開放世界探索仍具挑戰性:強模型能處理多個單跳任務,但當隱藏前提需在較長軌跡中協調時表現急劇下降。進一步分析發現,任務難度與智能體完成度相關,且較大模型或思考模式並未一致轉化為更佳表現。程式碼與資料集見於 https://github.com/Jometeorie/MineExplorer。
視覺-語言-行動(VLA)模型的建構前提是,預訓練語言或視覺-語言骨幹網絡中的語義理解應能指導機器人的動作預測。然而,機器人的微調是透過模仿任務特定的動作分佈來優化,且許多評估可透過視覺或指令-動作捷徑來解決。我們提出RoboSemanticBench(RSB),這是一個具體的基準測試,用於診斷動作預測中的語義基礎能力:即後訓練的VLA模型能否利用複雜的指令語義來選擇並操作正確的物理目標。在每個回合中,機器人會收到一道多選題(涉及數學或常識知識),觀察候選答案方塊後,必須抓取對應正確答案的方塊。RSB涵蓋控制性算術、小學程度的數學理解,以及常識或事實理解,分別提供四選一與十選一的測驗套件。在具代表性的VLA模型上,我們發現許多策略學會抓取候選方塊,但在控制抓取成功後,選中語義正確方塊的表現接近隨機或低於隨機水準,這揭示了骨幹網絡層級語義能力與動作預測之間持續存在的落差。
使用更强的评分器從多個小模型樣本中選取最佳回應,是一種簡單的推論期策略,但當小模型已陷入錯誤推理路徑時便會失效。PRM引導搜索透過在生成過程中對候選續寫進行評分來避免此問題,但需要使用具備逐步驟標籤的獎勵模型進行訓練。 我們提出「分塊級引導生成」,這是一種無需訓練的替代方案,利用現成的大型語言模型作為過程評分器。在每一步中,小模型會採樣k個固定長度的候選分塊,而大型模型則透過似然對候選進行評分,無需生成任何文字。選定的分塊在下一步之前被確定,從而在錯誤傳播之前引導生成。 我們以兩種選取規則實例化此框架:似然引導選擇(LGS),選取長度歸一化後大型模型對數機率最高的分塊;以及對比引導選擇(CGS),透過減去小模型的對數機率,傾向於選取大型模型偏好與小模型出現分歧的分塊。我們證明,使用大型模型似然對可變長度推理步驟進行評分並不可靠,因為存在即使經過長度歸一化仍無法消除的系統性長度偏差,而固定長度分塊則能避免此混淆因素。 在GSM8K、MATH、Minerva Math、AMC23和AIME24上,以Qwen2.5-32B引導Qwen2.5-1.5B,以及以Llama-3.1-70B引導Llama-3.2-1B的實驗中,CGS在效能上超越多數投票最多達28個百分點;且在匹配的引導預算下,CGS在大多數基準測試中,無需獎勵模型訓練即可與Qwen2.5-Math-PRM-72B引導搜索相匹敵甚至超越。以Qwen2.5-72B引導Qwen2.5-7B時,CGS在k=16下於MATH達到81.8%、於Minerva Math達到63.6%,超越多數投票4至6個百分點。最後,分塊級引導生成產生的推理軌跡顯著短於PRM引導搜索。
現今的電腦使用代理(CUA)主要部署為單一序列代理。這種設定對於受益於任務分解、並行執行與根據新資訊持續重新規劃的複雜長期任務而言,並非最佳方案。本文主張,我們應轉向評估與建構多代理電腦使用(MACU)系統。這類系統強調規劃與並行執行,能緩解單一代理CUA的諸多缺點。我們提出一個通用多代理架構,其中管理模型將電腦使用任務分解為有向無環圖(DAG),編碼子代理所需的相依關係與目標。每次迭代中,管理模型派遣並行的CUA子代理執行DAG中處於就緒前緣的節點,並根據子代理回傳的新發現持續修訂DAG(新增、取消或改寫節點)。此設計將電腦使用環境的部分可觀察性視為首要挑戰:下游代理可能無法重新觀察到的資訊,將透過管理模型與DAG結構保留並向前傳遞。我們證明,在桌面(OSWorld)與網頁導航(Online-Mind2Web、WebTailBench、Odysseys)基準測試中,MACU相較於強大的單一代理基線模型持續提升3.4%至25.5%的效能,展現更佳的測試時可擴展性,並能解決單一代理CUA卡關的複雜長期任務。在長期網頁導航基準測試Odysseys中,MACU將平均任務完成時間(wall-clock time)縮短約1.5倍,展現其加速傳統緩慢CUA管線的效能。我們的研究發現指出,多代理協調是將電腦使用代理擴展至更長久且更有效工作的可行方向。我們已在 https://jykoh.com/multi-agent-computer-use 釋出所有程式碼與互動式視覺化工具。
衡量視覺基礎模型中的結構化物體理解仍然具有挑戰性,原因在於不一致的評估協議以及有限的部件層級監督。語義對應(Semantic Correspondence, SC)透過測試物體部件能否在外觀、視角和幾何形狀大幅變化的情況下,跨實例與類別進行匹配,來評估此能力。為實現系統化的語義對應評估,我們提出了SOCO——一個新的語義物體對應基準,該基準引入了對應類型的分類體系,並在100個類別與超過100萬個對應配對中,提供一致且具功能意義的關鍵點標註。此外,SOCO還包含關鍵點的語言描述,使我們能評估大型視覺語言模型(LVLMs)及其細粒度部件層級的理解能力。全面的實驗結果顯示:(i)視覺基礎主幹編碼了強大的語義結構,但在相關類別間的對應遷移效果不佳,且僅部分捕捉到物體部件的位置;(ii)LVLMs在文字提示的部件定位方面優於視覺參考的跨影像匹配,這揭示了語言基礎定位與細粒度視覺對應之間的差距;(iii)對應性能對密集的下游任務(包括分割、追蹤、3D姿態估計與3D偵測)的預測能力,強於ImageNet分類的預測能力。綜合這些發現,SOCO被定位為評估視覺與多模態基礎模型中結構化、部件層級表徵品質的基準。
大型語言模型(LLM)遺忘已成為隱私保護與AI安全的重要後設機制,然而如何驗證目標知識是否真正被刪除仍是一項挑戰。現有的輸出層級指標無法檢測到這些知識是否仍可從內部表徵中還原。近期白箱研究雖能揭示此類殘留知識,但往往依賴輔助訓練或資料集特定調整,缺乏通用的可量化指標。為解決這些限制,我們提出「遺忘深度分數」(Unlearning Depth Score, UDS),這項指標藉由激活修補(activation patching)量化遺忘的機制深度。UDS 首先以保留模型為基準識別編碼目標知識的層級,接著在 0 到 1 的尺度上衡量已遺忘模型中該知識被抹除的程度。在橫跨 8 種方法、150 個已遺忘模型的 20 項指標元評估中,UDS 展現出最高的忠實度與穩健性,證實我們以因果方式進行的評估是遺忘驗證中最可靠的方法。案例分析進一步顯示,白箱指標可能在層級層面產生分歧,且不同範例的遺除深度亦有所差異。我們提供了將 UDS 整合至現有評估框架的指引,並簡化評估流程。程式碼與資料已公開於 https://github.com/gnueaj/unlearning-depth-score。
理解圖表與表格圖像對於將視覺語言模型應用於真實世界文件理解至關重要。儘管英文基準測試發展迅速,但非英文的對應基準仍相當稀缺,使得此進展能否跨語言泛化尚不明確。主要障礙在於難以大規模收集真實且多樣的非英文圖表與表格圖像。為解決此問題,我們利用政府白皮書作為英文以外語言的基準建構可擴展來源,因其包含自然出現、格式與領域多元的圖表與表格,且許多國家可自由取得。作為首個實例,我們推出HakushoBench——一個從33份政府白皮書建構而成的具挑戰性日文圖表與表格視覺問答基準。HakushoBench包含2,053張涵蓋超過10種圖像類型的圖片,並附有手動標註的問答對,旨在評估對圖表與表格的深度與整體理解,而非僅依賴局部視覺線索。在廣泛的視覺語言模型實驗中顯示,HakushoBench對開源權重模型仍具挑戰性:最佳開源權重模型僅達58.6%準確率,而開源權重與專有模型之間34.9個百分點的差距,凸顯出在複雜圖表與表格理解上仍有大幅改進空間。我們將公開數據集與程式碼。
真正的视频智能不僅需要辨識畫面中的可見內容,更要求推理事件發生的原因、預測不同條件下可能發生的變化,並決定下一步行動。我們將這種從感知到因果推理與模擬、再到戰略規劃的能力進階,稱為「戰略視頻智能」(Strategic Video Intelligence, SVI)。現有基準測試均無法完整評估此能力堆疊:真實影片缺乏可驗證的因果與策略問題答案,而合成環境則犧牲了真實多智能體系統的複雜性。為填補此缺口,我們提出SVI-Bench大規模基準測試,將團隊運動作為動態微觀世界,融合真實世界多智能體互動的複雜性(10至22名智能體在對抗壓力下做出協調決策)與明確規則及確定結果的可驗證性。SVI-Bench包含約3.5萬小時的廣播影片、1500萬個標註動作、1.5萬小時專家解說、2.3萬份比賽報告,以及涵蓋籃球、足球與冰球的10.3萬筆結構化統計紀錄,全部經由數據引擎將原始比賽數據轉化為密集交叉參照的語料庫。評估架構分為九項任務,依循漸進四層級:動態場景理解、因果推理、戰略模擬與智能體綜合生成。經評估多模態與智能體強基線,我們發現能力斷崖:模型在感知任務表現尚可,細粒度動作問答準確率約達73%,但每向上一個認知層級即急遽下降。智能體任務最為困難:當需自主從180萬段影片語料庫中蒐集並整合證據時,最強模型僅達5%準確率。
代理式搜尋要求語言模型代理探索多個來源,並回答複雜的資訊尋求問題。擴展測試時計算是提升此類代理的一種有前景的方式,但當前方法可能失敗,因為正確答案往往稀疏,而基於分數的選擇又依賴於模型校準。我們提出 FineVerify,一個細粒度的自我驗證框架,將每個問題分解為可檢查的子問題,根據每個子問題驗證抽樣的候選項,並選取聚合分數最高的候選項。這種逐項檢查的結構將選擇轉化為更簡單的局部判斷,並在相同的明確標準下產生成績。在四個代理式搜尋基準測試和兩個模型上,FineVerify 始終優於標準的擴展基線。僅需四條抽樣軌跡,它便使 GPT-5-mini 平均提升 8.2 個準確率百分點,使 Gemini-3-flash 平均提升 5.6%。使用 12 個樣本時,FineVerify 使 GPT-5-mini 在 BrowseComp-Plus 上超越了前沿的 GPT-5。除了準確性,FineVerify 還能產生可解釋的驗證痕跡,有助於審計基準錯誤,暗示了其在檢查代理式搜尋系統方面的更廣泛應用。程式碼與資料可在 https://github.com/XuZhao0/fineverify 取得。
物理AI系統日益將多模態觀測、語言指令以及學習到的世界表徵映射為具物理後果的行動。機器人基礎模型、視覺-語言-動作模型以及基於世界模型的自動系統,能夠對車輛、機器人、無人機及工業機械的移動決策進行條件化設定。此一轉變揭露了傳統AI內容審查或單純經典機器人安全無法完全涵蓋的安全問題:黑箱模型可能在看似自信、合理且語義一致的情況下,發出具物理後果的行動指令。此類失效能悄無聲息地發生,源於感測器漂移、遮擋、狀態估計誤差、分佈偏移、幻覺可供性,或在下游硬體控制器偵測到違規之前就已存在的無效物理假設。 在具身基礎模型、世界模型、機器人模擬、具身安全基準、安全控制、運行時保證、不確定性估計、驗證以及防護欄評估等領域中,模型能力與安全機制的發展大致沿著各自獨立的技術路徑前進。本文綜述所歸納出的一個持續存在的缺口是:沒有任何一條被審視的技術路線能提供一個完整的運行時授權邊界,介於黑箱物理AI模型與物理執行之間。由此產生的分析,發展出一個有界問題形式化定義、一種寂靜物理行動失敗的定義、一套運行時防護欄功能的分類法,以及用於比較防護欄作為物理AI保證機制的評估要求。
基於可驗證獎勵的強化學習(RLVR)已成為大型語言模型(LLM)後訓練的核心技術。雖然策略優化是由全局廣播的標量獎勵驅動所有取樣詞元,但沿軌跡展現的異質策略行為在缺乏區分的情況下基本上被忽略。現有研究通過信用分配來解決這個問題,包括詞元層級的優勢重加權和選擇性詞元優化,然而,分配標準在訓練過程中基本保持不變,限制了策略的穩健演化。在這項工作中,我們認為學習信號的調度時機與它們在詞元間的分配位置同樣重要,並引入了時間維度,即在RLVR優化過程中對信用分配標準進行調度。我們發現優先處理具有特定策略行為的目標詞元,並逐步過渡到一般優化,可以帶來更穩定且高效的學習動態。此外,我們證明簡單的軌跡百分位數為區分策略行為提供了一個自然的視角,並且與時間調度配合良好。我們的分析揭示,標準優化在同時容納異質行為時會大幅犧牲策略熵,而時間調度則產生更健康的策略演化動態。跨數學和一般推理基準的實驗顯示出一致的改進,表明時間調度是一個有前景的優化維度。
句子嵌入是语义搜索、聚类、分类及检索增强生成的基础组件。本文提出embeddingmagibu-200m,一个聚焦土耳其语的句子嵌入模型,生成768维L2归一化向量,支持8192个token的上下文窗口,远超早期基于BERT的土耳其语编码器512个token的限制。该方法无需完整预训练,而是引入高效的三阶段适配流程:(1) 构建土耳其语优化的多语言分词器,其词汇量为131,072,通过从教师模型的词汇表中剪枝冗余token,并结合基于40语言语料库频率分析的多语言token;(2) 克隆教师嵌入模型,保留Transformer骨干网络权重,通过均值组合token映射为新词汇初始化兼容的嵌入表;(3) 利用预计算的教师向量,在平衡的40语言维基百科语料库上,通过余弦相似度目标进行离线嵌入蒸馏。所得学生模型参数约2亿,在单GPU上约四小时即可完成训练(避免训练期间在线教师推理),总成本约5-20美元。实验表明,在STSbTR数据集上,皮尔逊/斯皮尔曼相关系数分别达77.55%/77.45%,超越了3亿参数的教师模型(73.84%/72.92%)。在TR-MTEB(26个任务)上平均得分63.9%,在26个模型中排名第7,以比教师少33%的参数提供了有竞争力的成本-质量权衡。为促进可重复性和下游应用,所有成果均已开源,包括模型权重、分词器文件、预计算嵌入数据集以及开源克隆和蒸馏工具。
通过代码进行程序化3D建模正成为一种多功能的范式,能够生成确定性、引擎就绪且可精确编辑的资产,而神经3D生成器天然缺乏这些特性。然而,创作此类程序化内容需要深入掌握3D软件API、参数化设计以及代码级几何推理能力。本文提出3DCodeBench——一个系统化的基准测试,用于评估视觉语言模型(VLM)智能体在3D建模软件中进行程序化3D生成的能力。具体而言,3DCodeBench通过将文本和图像参考翻译为3D建模软件的程序化代码,评估12种先进VLM作为程序化3D建模器的有效性。考虑到自动指标可能无法完全捕捉3D形状的感知质量,我们构建了3DCodeArena——一个基于成对人类偏好对生成的3D输出进行排名的平台。通过广泛的评估和结果,我们观察到:(1)失败主要源于API不匹配,而成功渲染的模型仍然存在3D几何组件断开或悬浮的问题。(2)测试时缩放(如更高的思考预算和多轮优化)总体提升了性能。我们的发现凸显了高质量程序化编码数据对推动商业VLM发展的关键需求。此外,有效的程序化3D建模需要一个强大的执行环境,为迭代优化提供高保真反馈。我们发布3DCodeBench,包括精心策划的大规模多模态(文本/图像)提示数据集、程序化代码、3D对象三元组、评估协议,以及作为探索基于VLM的程序化3D建模器基础工具包的公开3DCodeArena平台。
隨著實際應用越來越需要處理超過10萬個詞元的輸入,上下文長度與推論效率之間的差距已成為關鍵瓶頸。上下文壓縮提供了一種降低預填充成本同時保持任務準確性的方式。然而,現有的免訓練注意力方法在應對如程式碼推理等要求長上下文的任務時,仍存在明顯差距。我們提出LongAttnComp,這是一種將AttnComp應用於長上下文場景的改良方法:透過微調輕量級交叉注意力評分層,並引入詞元級分塊、詞元預算top-p演算法、位置重新排序,以及格式無關查詢解析器。我們進一步設計了兩階段微調策略來訓練壓縮器:第一階段利用NIAH風格的資料建立通用檢索基礎,第二階段則加入多跳與推理資料以擴展至更廣泛的長上下文任務。在InfiniteBench Code-Debug上,LongAttnComp達到或超越全上下文的準確率,顯著優於免訓練基準方法,並能在來自三個模型家族的四個目標模型間遷移。在LongBench v2上,兩階段策略大幅縮小了第一階段在多文件推理上的差距,同時維持了Code-Debug的表現。
本文探討了將3D網格作為原生模態整合至多模態大型語言模型(MLLMs)中的挑戰。基於擴散的大型重建模型將語義理解與幾何推理分離,作為以稠密2D像素先驗為條件的無狀態重建器運作。近期基於MLLM的方法將3D模態視為外部輸出,而非多模態序列的原生組成部分,因此在未系統分析幾何流形如何與MLLM特徵空間對齊的情況下,僅進行增量式調整。我們提出EVA01,這是一個統一框架,將MLLM的模態邊界擴展至原生整合3D網格的理解、生成及情境感知編輯。EVA01基於混合專家變壓器(Mixture-of-Transformers, MoT)架構構建,將模型拆分為預訓練的理解專家(E_{und})與結構鏡像的生成專家(E_{gen}),兩者透過共享的全域自我注意力與硬模態路由耦合。此設計使MLLM主幹的語義潛在空間與幾何流形對齊,無需中介2D表徵即可直接傳遞多模態先驗。實驗結果顯示,EVA01達到了原生文字到3D生成保真度的最先進水準,並實現了具備身份保留能力的穩健長上下文多輪幾何編輯,此能力在無狀態重建管道中根本無法實現。我們的研究進一步為將2D基礎模型與3D任務整合提供了架構性見解,為3D原生多模態系統的設計提供參考。專案頁面:https://www.seeles.ai/research/pages/EVA01
學術研究人員需要有效率且可靠的方法,從可信來源收集高品質資訊,然而現今用於人工智慧輔助研究的工具,仍普遍存在大型語言模型生成事實錯誤或無意義輸出(即所謂幻覺)的傾向。我們將抽取式問答系統 VerbatimRAG 應用於計算語言學協會論文合集中的研究論文,將使用者查詢直接對應至檢索文件中的逐字文字區間。我們為「將使用者查詢對應至研究論文中相關文字區間」此任務貢獻了一個全新的真實標註資料集,並以此訓練與評估多種抽取式模型。人工標註由自然語言處理研究人員執行,基於利用 ScIRGen 方法論所設計之自訂管線生成的合成使用者查詢,並搭配由 VerbatimRAG 檢索而來的研究論文片段。在此基準測試中,一個透過我們管線的銀級監督訓練而成、擁有 1.5 億參數的 ModernBERT 詞元分類器,達到了最佳詞層級 F1 分數(53.6),超越表現最強的評估中大型語言模型抽取器(48.7)。
SwiGLU 已成為現代 Transformer MLP 中的標準閘控激活函數,然而其閘控銳度——即閘控函數的平滑性與選擇性——通常在訓練過程中保持固定。本文針對混合專家(MoE)模型提出 Confidence-Aware SwiGLU(κ-SwiGLU),可根據 token 層級的路由置信度調整專家閘控銳度。具體而言,κ-SwiGLU 將 SiLU 閘控銳度係數參數化為路由 logit 的可學習函數,使每個專家閘控單元能在平滑廣激活閘控與銳利選擇性閘控之間進行插值。我們在 FineWeb-Edu 資料集上,針對層數從 8 到 28 層的 MoE Transformer 模型評估 κ-SwiGLU。在這些設定下,κ-SwiGLU 提升了平均 CORE 效能,同時僅增加可忽略的參數並僅引入少量計算開銷,證明了基於置信度的閘控銳度是改善 MoE MLP 的一項有前景的機制。程式碼已開源於 https://github.com/askerlee/kappa-swiglu。
深度研究代理在多步驟資訊檢索、推理與長篇報告生成方面展現出強大能力,然而現有基準測試與系統仍以文字為核心,對視覺元素在事實可靠性及與周邊分析的一致性方面缺乏充分評估。為填補此缺口,我們提出TVIR(文字-視覺交錯報告生成),其包含TVIR-Bench——一個由100項專家策劃的多模態深度研究任務所組成的基準測試,要求視覺元素服務於特定的分析子目標;以及TVIR-Agent——一個階層式多重代理框架,作為建構大綱、檢索圖片、生成可追溯來源的圖表,並透過情境感知序列寫作來組成報告的強力基線。我們進一步開發雙路徑評估框架,結合「文字評估」與「視覺評估」。在九個深度研究系統上的實驗顯示,TVIR-Agent達到整體優異表現,凸顯了明確的多模態設計與評估對證據驅動的報告生成至關重要。
有效的現實世界輔助需要具備穩健心智理論(ToM)的人工智慧代理,能從人類行為推斷其心理狀態。儘管近年有所進展,仍有若干關鍵挑戰尚待解決,包括:(1)需對多重假設進行穩健不確定性更新之線上推論;(2)適合即時輔助的高效推理;以及(3)真實世界領域缺乏真實心智狀態標註。我們提出 MindZero 以應對這些挑戰,該框架為一種自監督強化學習方法,訓練多模態大型語言模型(MLLM)以實現高效且穩健的線上心智推理。在訓練過程中,模型因生成心智狀態假設而獲得獎勵,這些假設能最大化由規劃器估計的觀察行為之似然,類似於基於模型的 ToM 推理。此方法因而無需明確的心智狀態標註。訓練完成後,MindZero 將基於模型的推理內化為快速的單次推論。我們在網格世界與家居領域中,針對具挑戰性的心智推理及 AI 輔助任務,將 MindZero 與基準方法進行比較。結果發現,僅靠大型語言模型(LLM)有所不足;基於模型的方法雖能提升準確度,但速度慢、成本高,且受骨幹 MLLM 的能力所限。相比之下,MindZero 增強了 MLLM 的內在 ToM 能力,且在準確度與效率上均顯著優於基於模型的方法,顯示心智推理可有效學習為一種自監督技能。
儘管文字到圖像(T2I)模型進展迅速,但在生成準確反映複雜組合提示(涵蓋屬性綁定、物體關係、計數)的圖像方面仍具挑戰。為解決此問題,我們提出 BiDPO 框架,旨在增強 T2I 模型的複合式文字到圖像生成能力。首先,我們引入精心設計的流程,建構大規模偏好資料集 BiComp,並嚴格控管品質。接著,我們擴展擴散 DPO(Diffusion DPO)以聯合最佳化圖像與文字偏好,實驗證明此方法能有效提升模型遵循複雜文字提示進行生成的能力。為進一步強化模型在細粒度對齊上的表現,我們採用區域級引導方法,聚焦於與複合概念相關的區域。實驗結果顯示,我們的 BiDPO 顯著提升複合忠實度,在多項基準測試中持續優於既有方法。本方法凸顯了基於偏好的微調在複雜文字到圖像任務中的潛力,為現有技術提供了靈活且可擴展的替代方案。
視頻世界模型(WMs)在基於機器人自身動作條件下,透過想像逼真的未來觀測,已在策略評估與改進方面展現潛力。儘管世界模型能對未來分佈進行建模,但策略評估與改進通常依賴於名義上的想像,這可能忽略機器人動作的高影響結果,除非抽取大量樣本。為實現對世界模型想像的穩健策略評估與改進,我們提出 StressDream,該方法透過優化基於擴散的世界模型的初始噪聲,在推理時將想像引導至由使用者指定、高影響且合理的結果。然而,優化高維噪聲極具挑戰:優化過程必須在生成的影片中推理細緻且依場景的目標事件,同時避免產生不合理想像的分佈外(OOD)噪聲。我們透過兩個互補目標來解決此問題:一個語義目標,利用視覺語言模型透過推理生成的影片提供具資訊性的梯度;以及一個合理性目標,防止優化後的噪聲偏移至分佈外。結合用於自動駕駛與機器人操作的最新視頻世界模型,我們展示 StressDream 能有效將想像引導至由文字在推理時指定的高影響且合理結果(例如任務失敗),從而透過識別那些合理未來包含不良結果的動作,實現穩健的策略評估與改進。影片結果請見 https://junwon.me/StressDream/。
我們提出了一種函數形式(稱為統一神經縮放定律,UNSL),能夠精確建模與推論深度神經網路在多個維度同時變化時的縮放行為(即當模型參數數量、訓練資料集大小、訓練步數、推理步數、計算量及各種超參數同時變動時,目標評估指標如何變化),適用於多種架構及一系列上游與下游任務,包括大規模視覺、語言、數學與強化學習。與其他神經縮放的函數形式相比,此函數形式在這些任務上所展現的縮放行為推論結果顯著更為準確。
預測性物理AI系統會輸出狀態展開、動作塊與潛在計劃,然而低均方根誤差(RMSE)並不代表某一特定提案在物理上可執行。我們將物理可接受性定義為預測-控制介面:在執行前,經解碼的提案被視為候選動力學模型,並透過運動學、動力學及直接至複合時域條件進行評估。通過並不代表任務成功;被拒絕則表示違反了指定的物理範圍,並會提供組成層級的理由。在Hugging Face LeRobot PushT上進行的控制性偽造測試顯示:單步預測RMSE與標準化動力學殘差的ROC曲線下面積(AUC)分別達到0.982與0.972,僅使用運動學條件則AUC為0.592,而完整閘控系統在具備條件層級歸因下AUC達到0.957。在基於重播的干預實驗中,殘差型濾波器與完整物理可接受性閘控能阻止87%至89%的無效提案,同時維持平均進度接近0.998。
大型语言模型通过生成长串显式推理词元来解决复杂问题。这种方法虽有效,却导致推理成本高昂、对长度敏感,且受限于(离散化的)自然语言。尽管潜变量推理提供了连续的替代方案,但如何为中间潜状态确定有用的结构仍是一项开放挑战。本文将潜变量推理形式化为模型预训练词元嵌入空间中的几何路径逼近问题。我们提出几何潜变量推理(GLR),该方法利用轻量级过渡头在嵌入空间中预测迭代方向更新。以文本形式的思维链轨迹作为锚点,GLR学习逼近离散推理轨迹,同时允许偏离精确词元嵌入的连续偏差。使用Qwen3模型在数学推理基准上的评估揭示了一种涌现现象:几何潜变量推理无需显式的长度目标便能诱导出大幅缩短的生成文本。通过用连续潜步替代早期显式推理,模型往往能用显著更少的总生成步数得出正确答案。这些发现表明,连续轨迹作为紧凑的中间推理状态,揭示了潜计算预算、输出长度与准确度之间的一种新权衡。
圖表是傳達量化與關係資訊的主要媒介,然而系統性地評估圖表解析模型仍具挑戰。現有基準專注於狹隘的圖表類型,且大多未涵蓋流程圖與心智圖等圖示結構;同時,各模型輸出格式不相容,資料集亦鮮少包含實務中常見的印刷或手繪圖像。為解決這些問題,我們提出 ChartArena,一個全面的雙語基準,涵蓋八大圖表家族,橫跨數值圖表與圖示結構,並在三種視覺場景(數位渲染、印刷照片、手繪照片)下分別評估。該資料集透過人機協作標註流程建構,並經多階段人工驗證以確保標註可靠性。為實現公平的跨模型比較,我們進一步設計格式無關的評估協議,將異質輸出映射至兩個標準語義空間:正規化三元組視圖與有向圖視圖,並以結構感知指標評分。透過對 26 個領先多模態大語言模型的廣泛評估,我們觀察到三個一致發現:(i) Gemini 3.1 Pro 等前沿專有模型整體領先,但最強開源系統正在迅速縮小差距;(ii) 文件解析模型處理數值圖表表現合理,但在圖示結構上大幅落後;(iii) 專家圖表解析器仍僅限於狹隘的圖表家族。所有模型中,雷達圖與手繪場景特別具挑戰性。這些發現顯示 ChartArena 揭露了明確的能力差距,並為未來進展提供統一根基。ChartArena 公開於 https://github.com/pspdada/ChartArena。
逆向圖形學是一個長期存在且高度約束不足的問題,其目標是將圖像重建為可編輯的3D場景,使其能夠進行渲染、重新打光及操作。在本研究中,我們探討預訓練的視覺語言模型(VLMs)是否能直接從單張影像執行可操作的逆向圖形學,透過將場景重建為可編輯的Blender程式,而無需依賴專門的2D或3D基礎模型、可微分渲染或多視角監督。我們提出階段式可執行逆向圖形學(SEIG),這是一個自主框架,能從單張影像逐步精煉場景因子(包括幾何、材質、構圖與打光),直接在可執行的Blender程式碼空間中重建3D場景。我們透過一系列涵蓋像素層級、感知層級與語義層級的重建指標,在多樣場景中評估此框架。實驗結果顯示,階段式重建能顯著提升重建保真度,凸顯任務分解對使用通用視覺語言模型進行可執行逆向圖形學的重要性。最後,我們展示重建可編輯Blender場景所啟發的多種下游應用。
我們描述了一個基於 Lean 4 證明助手、建構在 Mathlib 與 BrownianMotion 套件之上的數學金融函式庫。其涵蓋範圍廣泛,包含跨越十一個領域、超過兩百個無「抱歉」定理,從連續時間隨機微積分的測度論基礎,到衍生品定價、應用風險、投資組合及固定收益理論;據我們所知,這是迄今為止最全面的機器驗證數學金融發展成果。廣度是設定背景,而非重點。有兩項特點使其超越單純的目錄:它足夠深入連續理論,能夠將 L2 Itô 積分建構為有界線性等距,並推導出風險中性定價測度,而非僅是假設;同時,它對自身的忠實性進行審計:每個結果都根據其 Lean 陳述與其所聲稱的數學之間的關係進行分類,並透過建構強制閘門來限定每個證明實際使用的公理,讓讀者能準確看出哪些是已證明的結果,哪些只是在附加假設下才獲證明。最後,我們坦率地發現:在經典金融數學基礎上進行形式化驗證,所得出的是已知結果的認證統一,而非新的金融理論。因此,其貢獻在於方法論與基礎設施層面——為數學金融提供可重複使用的驗證基礎,並附帶忠實性審計。
我們提出了一種新穎的無網格降階模擬公式,用於可變形超彈性物體。現有的降階彈性動力學模擬研究,透過網格或神經場來表示輸入幾何,但網格的獲取可能因複雜形狀的掃描與三角化挑戰而困難,而神經場則需要逐形狀最佳化。我們提出採用再生核粒子法(RKPM)表示,藉由求解彈性能量海森矩陣的廣義特徵系統,來建構降階蒙皮權重。我們證明,此公式不僅在訓練速度上比神經場的逐形狀最佳化快40倍,且在與有限元素法的收斂結果比較時,能達到更低的模擬誤差。我們在各種不同表示(包括網格與高斯潑濺)的物體上展示模擬結果,並將此方法應用於機器人模擬的下游任務。
大規模多語種雙文本經常存在兩個明顯問題:非平行句對與低品質翻譯。我們將此類資料的模型評估分解為兩個獨立組件:基於多語言嵌入的平行性評估,以及無參考品質估計。在平行性方面,我們在FLORES-200與BOUQuET檢索任務中對四種嵌入模型進行基準測試,涵蓋目標語言對清單中的6,654個源語言至目標語言方向。在品質估計方面,我們針對專業FLORES-200翻譯(涵蓋41,412個有序源語言至目標語言方向)評估九個無參考評估器。結果顯示,沒有任何模型在所有翻譯方向上均普遍可靠。簡單的品質估計集成會稀釋強模型訊號,而有文件記載的目標語言覆蓋範圍則與較高的品質估計分數密切相關。整體而言,這些發現顯示多語種平行資料的評估最適合視為一個方向感知的路由與校準問題,因為沒有任何單一通用指標能預期適用於所有語言。
推理模型在單回合基準測試中被評測,卻部署於多輪對話環境中——在後者裡,使用者會對正確答案反覆追問。我們發現在持續的對抗壓力下,存在一種先前未記載的失效模式:思維鏈從第一輪到最後一輪始終保持事實正確,但輸出的答案卻翻轉為錯誤。我們將此稱為「不忠實屈服」(UC),並以一個 2×2 的潛在-行為框架將其隔離出來——該框架能捕捉到翻轉率指標與單回合忠實度探測器均遺漏的現象。在三個數據集(MT-Consistency、MMLU-Pro、GSM8K)中,行為翻轉時的潛在正確率在「思考模式」下接近 50%,而在「無思考模式」下驟降至 11–15%——這提供了配對的、模型內部的因果證據,顯示推理造成了此差距。跨模型比較下,此效應隨推理通道而變化(在 Qwen3-32B 與 GPT-OSS-20B 中較高,在內嵌思維鏈的 Gemma-4-31B-it 中較低)。獨立 GPT-4o 裁判驗證了 86% 的 UC 標籤;詞元層級的探測顯示,在 84% 的 UC 單元中,答案槽的 argmax 是正確的;而一種基於軌跡錨定的簡易防禦策略反而適得其反。我們釋出所有對話軌跡、推理軌跡與裁判標籤。
在一個由多作者機構語料庫部署的檢索增強生成(RAG)系統中,根據檢索到的不同來源,同一問題可能得到不同答案——這種失效模式是主流的單一黃金答案範式所無法診斷的。我們認為,來源依賴性是自然語言處理評測中缺失的一個軸向,而對其進行審計意味著將評測單位從答案正確性轉向來源間關係。我們在移植病患教育領域將此具體化,該領域中機構來源確實存在歧見,並釋出三項產物:TransplantQA,一個包含真實病患問題的基準測試,每個問題都以多個機構手冊作為候選來源進行生成;HERO-QA,一種分層檢索策略,為每個答案提供基礎並進行審計;以及一個結構化輸出評判器,根據經過驗證的5標籤分類法對來源間關係進行評分。在大規模應用中,更佳的檢索機制所揭示的分歧遠超先前估計——其重點在於低估了分歧的普遍性,而非分歧的強度。該框架不受領域限制,可遷移至法律與教育領域的RAG系統:對來源依賴性的衡量,是部署多來源自然語言處理系統時普遍應承擔的責任。
LLM生成的科學論文審稿意見正獲得廣泛關注,甚至被大型會議正式試行。我們必須假設,不僅審稿人在使用LLM輔助,作者在提交論文前也會使用LLM來修改稿件。本研究針對2025年ACL滾動審稿(ARR)的論文進行實證實驗,從作者與審稿人雙方的角度評估LLM生成的審稿意見。首先,我們發現LLM審稿意見與人類審稿意見的契合度有限。在最佳情況下,兩者的契合度尚可接受。然而,我們也觀察到LLM與人類審稿意見的契合度會因提示詞與模型的不同而有顯著差異。最後,我們探討了作者採用迭代式草稿-修訂工作流,根據LLM審稿意見來改進投稿稿件的情境。結果顯示,這種「操控」LLM審稿意見的方式在特定情境下確實有效,能使高達35%論文的整體評分出現統計上顯著的提升。我們已公開程式碼:https://github.com/uhh-hcds/reviewarcade。
AI系統並非完美無缺,人類在判斷是否該信任AI勝過自身判斷時也可能出錯。因此,提升人機協作需要理解人類在何時、為何以及如何決定依賴AI。我們研究兩種截然不同的依賴決策:委託選擇(決定何時讓AI在未知其輸出結果下自主行動)與採納選擇(評估AI建議並決定如何運用)。這兩種分離的依賴模式共同形塑協作,但先前研究極少在真實情境中針對同一群使用者同時探討兩者。為填補此缺口,我們透過人類-AI協作團隊在問答競賽中的互動進行研究——人類可自行決定何時及如何與AI智能體合作以爭取勝利。24場配對賽中,23位專家級人類與16個AI智能體組合,記錄了387次委託決策與1440次採納決策。結果顯示,人機協作表現雖優於純AI或純人類,但人類卻做出次優協作決策:既對正確AI建議依賴不足(錯失3.9%的機會),也對誤導性AI建議過度依賴(1.7%)。雙方均可能提供錯誤答案:當人類與AI意見分歧時,模型回報的信心值近乎隨機;而當AI建議與人類初始錯誤答案一致時,確認偏誤導致高達64.5%的依賴不足。為縮小此差距,我們建議採用校正信心值、基於證據的解釋機制,以及能協助使用者修正信任的互動設計。
本文將神經網路的訓練精確地識別為對Hamilton-Jacobi初值問題的搜索:每個梯度步選擇一個黏性Hamilton-Jacobi方程的初始數據,其Hopf-Cole傳播子最能擬合觀測值;在推理時,輸入是評估該解所在的空間點,而初始條件已編碼在權重中。此對應關係對於對數-和-指數層是精確的,而對於更廣泛的架構(殘差網路、變壓器、遞迴架構(RNN、LSTM、SSM))則是結構性的:它們各自離散化同一類Hamilton-Jacobi方程,但具有依賴架構的哈密頓量和黏性。單一形變參數ε將所有四個觀點(網路、熱帶代數、黏性偏微分方程、凸優化)統一在一個在Lipschitz條件下封閉的交換圖中。定量後果包括:固定t時達到最小最大最優泛化速率O(n^{-1/(d+2)});由ε控制的對抗魯棒性;反向傳播作為殘差網路哈密頓系統的共態方程(龐特里亞金最大值原理);通過偏微分方程求積得到的與數據本徵維度一致的標度指數;以及一個閉形式O(N)影響函數(softmax歸因權重π_j),其熵景觀在ε增加時經歷折疊分岔,每個分岔合併歸因盆地。
從拉丁語到羅曼語族的歷時演變中,多數羅曼語言的語法性別系統經歷了從三分架構(陽性、陰性、中性)重組為二分架構(陽性、陰性)的過程。本研究提出一個可解釋的深度學習框架,分別從詞彙層面與語境層面探討此現象。首先,我們證明傳統的分詞策略在此低資源歷史語境中缺乏足夠穩健性,而我們提出的分詞器在這些基準方法上提升了效能。在詞彙層面,我們評估了形態特徵對性別預測的貢獻;在語境層面,我們量化了不同詞性類別對語法性別預測的貢獻。綜合這些分析,我們刻畫了性別資訊在詞元與其句法語境之間的分佈特徵。我們將程式碼庫、資料集與研究結果公開於 https://github.com/ahan-2000/Lost-in-Translation-{https://github.com/ahan-2000/Lost-in-Translation-}。
大型語言模型(LLMs)的規模擴展雖顯著提升了效能,卻也帶來了推理效率上的嚴峻挑戰。混合專家(MoE)架構透過將模型大小與推理成本解耦來應對此問題,但從零訓練MoE模型往往不穩定且運算耗費資源。將預訓練的密集模型轉換為稀疏MoE模型已成為替代方案;然而,現有方法通常依賴啟發式神經元分群或隨機分割來將前饋網路(FFN)劃分為專家。本研究提出DOT-MoE,一個新穎框架,將密集層的分解形式化為可微分最優傳輸(DOT)問題。不同於靜態啟發式方法,我們將神經元分配建模為平衡傳輸問題,利用可微分的Sinkhorn-Knopp迭代來強制嚴格執行專家容量限制。此外,我們採用直通估計器(STE)聯合學習離散的神經元到專家分配與令牌到專家路由策略,實現端到端訓練。跨越多種架構與基準測試的大量實驗表明,DOT-MoE顯著優於結構化剪枝、啟發式分群及隨機切割基線,在將活躍參數減少50%的同時,保留了原始密集模型90%的效能。
學習口語文本與手勢之間的共享表徵,對於共語手勢檢索、合成與理解至關重要,但對於語義上有意義的手勢而言仍具挑戰性,因為其傳達意圖無法僅由動作本身捕捉。直接對齊文本轉錄與連續動作嵌入的對比學習,往往過度強調低層運動學,而忽略了語義手勢的象徵性內容。我們提出語義動作錨點,即手勢動作的自然語言抽象,用以捕捉其物理形態與傳達意圖。我們的方法將三維手勢離散化為身體-手部動作基元,將其口頭化為結構化描述,並將其對應到文本轉錄中,以提供輔助的對比監督。在BEAT2資料集上,我們的方法在文本到手勢的R@1指標上,相較於直接文本-動作基準提升了8.2%,並在文本到手勢與手勢到文本這兩個檢索方向上,優於先前的檢索方法。除了整體檢索指標外,語義動作錨點監督有助於檢索與口語查詢具語義相關性的手勢,而非預設回傳通用動作模式。一項下游的檢索增強手勢生成研究顯示,使用者顯著偏好我們方法檢索到的手勢,勝過檢索增強生成基準,證明了具語義基礎的檢索能轉化為在下游生成中更能傳達溝通意圖的手勢。
人工標註是許多自然語言處理(NLP)研究的經驗基礎,從資料集建構到模型評估皆然,然而論文往往未清楚說明標註由誰產生、標註過程如何管控。我們針對NLP主要會議中的人工標註報告進行首次大規模、任務層級的審計,探討哪些標註細節有記錄、哪些遺漏,以及報告方式如何隨時間、主題、會議場域及人類判斷的預期用途而變化。我們提出一套統一的分類架構來描述標註報告實務,並驗證一套基於大型語言模型(LLM)輔助的萃取流程,對照名為Annotated-gold的人工裁定黃金標準(涵蓋41篇論文與72項標註任務),其中最佳模型與裁定標籤間的一致性達到與人類相當的水準,Krippendorff's alpha值為0.606,而人類彼此間的一致性為0.585。運用此流程,我們建構了Annotated-llm資料集,涵蓋2018至2025年間ACL會議論文,從1,603篇論文中萃取出2,667項標註任務。結果發現論文常報告操作細節(如招募策略、標註者專業背景及標註數量),但經常遺漏評估標註有效性所需的資訊,包括訓練、語言能力、報酬、社會人口統計、裁定過程及一致性數值,特別是在模型評估研究中。我們的研究顯示,NLP領域的標註報告品質隨時間有所改善,但仍不均衡;我們並建立一套可擴展的架構與最低限度報告建議,以促進人工標註更可靠、可重現且可解釋。
机器人操作需要能够生成可执行动作的模型,并在实际执行前预测和评估其未来后果。我们提出τ₀-世界模型(τ₀-WM),这是一个统一的视频-动作世界模型,将策略学习、视频预测和动作评估整合于单一的未来预测框架中。该模型基于共享的视频扩散主干架构,提供两种互补接口:首先,视频动作模型从多视角观测、语言指令和机器人状态中联合预测未来视觉潜变量和连续动作片段;其次,动作条件视频模拟器将候选动作片段展开为多视角未来画面,并预测密集的任务进度分数。该模型基于约27,300小时的真实机器人遥操作数据、UMI式交互数据、自我中心视角的人类视频数据以及展开或失败轨迹数据,并采用模态特定的监督掩码进行训练。在推理阶段,τ₀-WM利用测试时计算采样动作候选,通过重去噪一致性进行排序,并对低质量候选调用基于模拟器的修正操作。在具有挑战性的长时域和精细机器人操作任务中,τ₀-WM展现出优于其他相关基线方法的性能。
關於AI生成文本檢測的研究已提出多種方法來區分人類與AI的散文,其中部分方法在分佈內數據上達到了高效能。然而,由於其輸出與使用者(如教授)的需求不一致——使用者僅獲得一個無附帶說明的數值分數——因此這些方法在現實世界的應用上仍停滯不前。我們透過一種新穎的架構TELL來解決此問題,該架構從根本層面內建可解釋性。儘管我們的系統如同其他檢測器般仍提供數值分數以供比較,但TELL採取根本不同的策略:我們旨在向使用者展示模型認為文本為AI或人類撰寫的「線索」,讓使用者能依據自身判斷以及對寫作背景與疑似作者的了解,自行決定文本出自誰手。我們在一個特定領域的作者身分註解自訂SFT數據集上訓練TELL,並進一步使用結合課程學習的GRPO來微調系統以提升效能。我們達到了與最先進檢測器相當的效能(AUROC 0.927),同時原生提供解釋檢測器決策依據的註解。我們進一步使用人類註解數據集評估解釋品質,結果顯示在註解的具體性、可反駁性、連貫性、合理性與根據性方面取得高勝率(平均72.3%),使使用者能批判性思考並自行判斷。因此,我們的工作從以人為本的觀點重新構想了AI生成文本檢測問題,並為專注於原生可解釋性的新一代檢測器鋪平了道路。