每日精選AI研究論文及翻譯
視覺語言模型(VLM)通常將視覺定位與偵測轉化為座標標記生成問題,將每個二維邊界框序列化為多個一維標記,並以高度獨立的方式進行學習與解碼。這種逐標記解碼方式與邊界框幾何結構的耦合特性不相匹配,且因嚴格依序生成而產生實際推論瓶頸。我們提出LocateAnything,這是一個基於並行框解碼(Parallel Box Decoding, PBD)的統一生成式定位與偵測框架。透過將邊界框與點等幾何元素視為原子單位並在單一步驟中完成解碼,LocateAnything保留了框內幾何連貫性,並實現顯著的並行性。我們證明PBD能夠同時提升解碼吞吐量與定位準確度。此外,我們開發了可擴展的資料引擎,並建構出LocateAnything-Data——一個包含超過1.38億筆訓練樣本的大規模資料集,大幅增加了高精度定位所需的資料多樣性。廣泛的評估結果顯示,LocateAnything推進了速度與準確度的前沿,在顯著提高解碼吞吐量的同時,也在各類基準測試中提升了高IoU(重疊比)定位品質。這些結果突顯了並行框解碼與大規模訓練資料在實現高效且精確的統一視覺定位與偵測上的互補效益。
生成式影片基礎模型的快速演進,已將該領域推向專業級電影級合成技術的發展。為達成如此嚴苛的品質標準,學界正逐步轉向強化學習(Reinforcement Learning, RL)與智能代理工作流程。然而,可靠的評量機制已成為關鍵瓶頸。現有基準測試主要評估「是否正確」(基礎提示遵循度),卻根本忽略了「是否優良」(電影品質、表演與美學)。此外,當前的自動化指標缺乏領域專業的嚴謹性,無法提供可信賴的評估訊號,導致人類美學感知與機器評分之間存在嚴重的可信度鴻溝。為彌補此落差,我們提出 EvalVerse——一個全面、具流程意識且經專家校準的評估框架。我們將影片生成評估不僅視為工程任務,更視為核心科學問題:即主觀電影專業知識的系統化數位化。首先,我們將領域知識組織為符合專業電影製作流程(前期製作、拍攝製作與後期製作)的評估分類體系。其次,我們將人類專家判斷提煉為具大規模人工標註的策展資料集。第三,透過專家校準的微調策略,將此知識注入視覺語言模型(Vision-Language Models, VLM),使其能執行明確的思考鏈推理。與先前研究相比,EvalVerse 不僅保留與基礎「正確性」指標的相容性,更大幅擴展至「優良性」標準,並拓展任務範疇至複雜的多鏡頭序列與視聽整合。因此,透過提供細顆粒度的診斷訊號,EvalVerse 超越靜態排行榜,為未來工作(如獎勵模型與評量代理)建立基礎基礎設施。
尽管空间基础模型在标准数据集上展现了令人瞩目的性能,但一个关键问题依然存在:它们是否真正堪称全能型选手,能够在多样化的下游任务、任意视角、场景域变化、不同输入密度以及特定硬件约束下实现稳健泛化?回答这一总体性问题需要全面的评估,然而现有模型主要针对其专门设计或训练的特定领域进行评估。这类评估本质上受限于范式覆盖狭窄、场景域有限以及帧采样随意,因此难以从根本上判断其真实的泛化能力。为弥补这一空白,我们提出了SpatialBench——一个面向空间基础模型的跨范式、领域多样化的基准测试,采用确定性采样方法。SpatialBench具有前所未有的规模与严谨的确定性设计,涵盖19个数据集、546个场景,跨越5个不同的空间领域。它全面评估了6种范式下的41个模型,在4种不同输入密度设置下,针对5个任务套件进行测试。我们的广泛评估揭示,当前模型尚未达到全能型选手的水平,并为未来发展提供了关键洞见。具体而言,我们证明了全上下文注意力机制能最大化精度,而有限内存策略则解锁了长序列的可扩展性。此外,我们在具身化和第一人称等挑战性任务上的实证评估表明,严格的领域对齐与高数据质量对性能的贡献远大于简单的数据集规模扩大。最后,针对分析中发现的最大数据缺口,我们不仅停留在评估层面,还引入了一个大规模数据集DA-Next-5M和一个强基线模型DA-Next,从而推动空间表示学习的前沿。
我們提出MobileGym,這是一個基於瀏覽器、輕量級、完全可控的日常行動裝置使用環境,目標是在不複製專有後端的情況下實現互動保真度。它實現了過去日常應用無法達成的兩項能力:一是透過基於結構化JSON狀態的確定性狀態判斷來提供可驗證的結果訊號;二是透過低成本平行展開來實現可擴展的線上強化學習。完整的環境狀態以結構化JSON的形式被擷取、配置、分支與比較,單一伺服器即可承載數百個平行實例,每個實例約佔用400 MB記憶體,冷啟動時間約3秒。分層狀態模型與宣告式任務定義框架讓狀態的可程式化性與任務創建在大規模下具備實用性,而單一程式化判斷機制既能提供確定性評估結果,也能提供密集的強化學習獎勵。隨附的MobileGym-Bench提供了416個參數化任務模板,包括256個測試模板與160個訓練模板,橫跨28個應用程式,並配備確定性判斷器與結構化的AnswerSheet協定,避免了自由文字比對失敗的問題。在一個模擬到真實的案例研究中,基於Qwen3-VL-4B-Instruct的GRPO在256項任務測試集上獲得+12.8個百分點的提升,而在包含59項任務的真實裝置訊號子集上,真實裝置執行保留了模擬端訓練增益的95.1%。專案頁面:https://mobilegym.github.io。
多視角三維重建在前饋式三維重建模型的推動下取得了顯著進展。然而,這類模型通常在無退化的理想成像條件下訓練與評估,但現實觀測往往存在與此設定差異顯著的退化現象。因此,提升多視角三維重建在退化條件下的穩健性仍是重要挑戰。我們提出幾何感知表示去噪(GARD)——一種新穎框架,能直接在基於擴散的前饋式三維重建模型特徵空間中執行多視角修復。此設計利用三維重建器的幾何感知特徵表示,有效恢復精確的場景幾何。此外,透過附加的RGB影像解碼器,優化後的表示亦可用於重建高品質RGB影像,從而同步實現三維場景幾何與高品質影像的恢復。在Depth Anything 3(DA3)基準上的全面實驗證明了所提出的GARD框架的有效性。
視聽生成正從短片段快速邁向分鐘級內容,然而現有評估方法仍大多局限於短格式場景。現有基準主要聚焦於5至10秒的文字條件生成,且鮮少支援跨文字、圖像及影片條件模態的統一評估。此外,它們對身分一致性、敘事連貫性及視聽對齊在長時間跨度下的衰退情形提供的洞察有限。為填補此缺口,我們提出LongAV-Compass,一個針對分鐘級視聽生成的系統性基準。LongAV-Compass包含284個精心策劃的測試案例,涵蓋文字轉音視頻(T2AV)、圖像轉音視頻(I2AV)及影片轉音視頻(V2AV),並按應用場景與生成複雜度進行組織。該基準結合了分類學引導的基準建構與一套統一評估框架,該框架整合了多模態大語言模型輔助評估以及互補的感知與多模態指標,包括DINO-v2、ArcFace、CLIP和ImageBind。此框架評估超過20個細粒度維度,涵蓋片段內品質、跨片段一致性、整體敘事連貫性、語義對齊及視聽同步。透過對11個代表性模型的實驗與人類一致性驗證,LongAV-Compass提供了一個診斷測試平台,用於分析當前系統在跨多樣輸入模態下維持連貫、語義對齊且時間一致的分鐘級視聽生成時所存在的限制。
儘管擴散式大型語言模型(D-LLMs)已成為自回歸大型語言模型(AR-LLMs)的替代方案,但針對D-LLMs的安全監控仍 largely 未經探索。不同於AR-LLMs,D-LLMs透過多步去噪過程生成文本,過程中暴露的中間隱藏表徵可能包含標準單步監控設置中無法取得的安相關資訊。基於輕量化探針適用於持續監控的特性,我們分析哪些軌跡層級訊號最能指示此類探針可能遭遇瓶頸。研究發現,最具資訊性的訊號是安全猶豫:中間隱藏狀態反覆落在探針決策邊界的小範圍內。D-LLM軌跡中此類猶豫步數能有效預測探針失效情況,成為樣本難度的代理指標。根據此分析,我們提出D²-Monitor,一種專為D-LLMs設計的雙層安全監控器。D²-Monitor採用輕量化探針作為持續監控器,同時進行猶豫估計與基礎分類。當猶豫程度超過門檻值時,會啟動更具表現力但計算負擔較重的探針。此動態路由機制可在測試時有效分配監控資源。在涵蓋4種D-LLMs的3個數據集(WildguardMix、ToxicChat、OpenAI-Moderation)上進行評估,D²-Monitor以緊湊的參數量(≤0.85M參數)達到當前最佳效能,並在有效性與效率之間取得相較於8個基線方法的最佳平衡。
我們介紹MiniMax-M2系列,這是一系列基於混合專家模型的語言模型,其核心理念是:微小的激活能釋放最大程度的現實智慧。旗艦模型M2總參數量達2299億,但每個token僅激活98億參數。M2系列專為智能體部署而端到端設計,奠基於三大組件: (i) 智能體驅動的數據管道,在智能體編程與智能體協作中產生大規模、可驗證的軌跡,每條軌跡皆以可執行的運作空間及與產物對齊的獎勵為基礎; (ii) Forge,一個可擴展的智能體原生強化學習系統,能適應長程智能體軌跡,並配備窗口式先進先出排程、前綴樹合併、推理最佳化,以及清晰的訓練-推理-智能體解耦架構,同時支援白盒與黑盒智能體; (iii) 最新的M2.7檢查點已邁出自我進化的初步步伐——能自主除錯訓練過程並修改自身框架。從M2到M2.7,此組合將微小的激活足跡轉化為智能體編碼、深度搜尋、辦公室任務及推理基準上的前沿表現。
我們研究了系列層級的電影翻拍,這是一個長時域的影片到影片生成問題,透過風格化或演員替換來定位整集或整部影片,同時在數百個鏡頭中嚴格保持敘事結構、動作編排和角色身份的一致性。現有的影片生成與編輯流程在此機制下常因大範圍鏡頭運動與視角變化所導致的身份漂移、背景突變及語義侵蝕而崩潰。我們提出Soap2Soap,一個透過雙橋一致性機制強制執行長期語言-視覺一致性的多智能體框架:以場景感知的JSON劇本作為持久語義主幹,並在場景與鏡頭層級動態分配視覺參考錨點。為了在影片合成前抑制漂移,我們引入批次關鍵影格一致性,透過基於網格的公式在共享潛在上下文中聯合生成多個關鍵影格。閉環驗證代理進一步稽核身份、穩定性與對齊性,以觸發選擇性重新生成。在SoapBench上的實驗顯示,此方法在長期一致性與敘事保真度上較商業影片生成API有顯著改善。
測試時擴展(TTS)透過分配額外的推論計算資源來探索解空間,從而增強大型語言模型的推理能力。然而,現有的平行TTS方法通常在搜索過程中保持分支隔離:中間發現仍為分支私有,無法即時指引其他分支。這種資訊隔離導致大量的冗餘探索,因為分支會重複發現其他地方已有的資訊,並且需要更多的搜索步驟來收集達到正確答案所需的完整決策資訊。為了解決這個問題,我們提出協作平行思考(CPT),一個無需訓練的推論框架,能夠在搜索過程中實現平行分支間的資訊共享。CPT 從正在進行的分支中提取精簡的中間資訊,維護一個去重的查詢級資訊池,並透過輸入上下文廣播池條目,使得後續搜索步驟中的每個分支能夠重用其他分支的發現,而非重新發現相同的資訊。實證上,在 HMMT 和 AIME 基準上的實驗表明,CPT 在各種推展預算和模型規模上建立了比強基線更強的準確率-延遲帕累托前沿,凸顯了搜索時協作作為高效平行 TTS 的有效方向。
我們介紹 LLaVA-OneVision-2(LLaVA-OV-2),這是 LLaVA-OneVision 系列中目前能力最強的視覺語言模型,在廣泛的多模態基準測試中均展現出優異表現。該模型基於原生 OneVision 編碼器,並引入窗口注意力機制以實現高效的局部計算,同時維持原生解析度。其關鍵進展在於編解碼串流標記化:它將壓縮後的影片視為連續的位元成本串流,其中位元成本動態決定自適應時間分組,而運動殘差線索則選取顯著的空間證據,並將其整合至緊湊的視覺畫布中。這種分配方式將有限的標記預算集中於承載事件的內容,從而實現比固定圖像組更穩定之長影片標記壓縮。共享的 3D 旋轉位置編碼進一步將編解碼畫布、取樣幀與影像置於統一的時空座標系統中。此外,我們圍繞大規模開放監督建構了 LLaVA-OV-2 的資料與訓練堆疊:約 800 萬個重新標註的影片樣本用於預訓練,以及 400 萬個樣本的空間語料庫用於微調。我們也引進了 JumpScore,一個專注於高頻、密集重複動作中細粒度定位的時間定位基準,此類場景在現有影片評估中代表不足。LLaVA-OV-2 的一項突出能力是其對影片理解、時間定位、空間定位與操作軌跡推理的統一感知能力。在 JumpScore 上,LLaVA-OneVision-2-8B 達到了 74.9 的 JumpScore mAP,比 Qwen3-VL-8B(30.1)高出 44.8 個百分點;在相同基準測試且匹配視覺標記預算的條件下,編解碼串流輸入相比幀取樣在時間定位上提升了 9.7 個百分點。在標準基準測試中,LLaVA-OneVision-2-8B 在影片任務上平均比 Qwen3-VL-8B 高出 4.3 個百分點,在空間任務上高出 5.3 個百分點,在追蹤任務上其平均 J&F 則高出 15.6 個百分點。
現代大型語言模型中的歸一化層包含確定性歸一化運算與可學習的縮放向量。儘管歸一化運算已獲得廣泛研究,但縮放向量儘管被普遍使用,其機制仍未被充分理解。本研究從表現力、優化及架構設計三個角度,對大型語言模型中的縮放向量進行系統性探討。首先,我們通過實驗證明,雖然縮放向量僅佔模型參數的極小比例,移除它們會顯著損害大型語言模型的預訓練效果。理論分析進一步指出,在用於前向歸一化的架構(Pre-Norm)中,縮放向量並未提升表現力,而是透過對後續線性映射產生「自我放大預調節效應」來改善優化過程。其次,我們探討了權重衰減對縮放向量的影響。通過區分輸入歸一化層與輸出歸一化層,我們從理論上證明:由於兩者在優化與表現力中的角色不同,權重衰減對前者有益,對後者卻有害。第三,基於上述理解,我們提出三項輕量且互補的縮放向量改進策略:分支特定異質性、圍繞線性映射的放置位置優化,以及幅度-方向重參數化。理論與實驗均顯示每項改進都能帶來一致的性能提升。最後,我們將這些改進整合為統一的縮放向量策略,並針對密集型與混合專家模型(參數量從0.12B到2B),採用多種優化器與學習率排程,在工業級標記預算下進行大規模預訓練實驗。結果顯示,該統一策略在終端損失上持續優於精心調校的基準模型,並展現更優異的擴展行為,同時僅增加可忽略的參數與計算開銷。
视觉-语言-动作模型(VLA)广泛采用预训练的视觉-语言模型(VLM)作为策略主干,但何种预训练VLM表征有利于作为VLA初始化仍不明确。本文从三个维度研究VLA初始化这一可控表征设计问题:能力层面的具身VQA监督、参数更新策略以及机器人数据预训练。实验表明,原始预训练VLM表征是动作性能的关键来源。然而,具身VQA适应并未带来一致增益:其效益取决于下游瓶颈,且不同能力领域的增益并非简单相加。在更新策略方面,LoRA比全量微调提供了更可靠的初始化,表明过度重塑预训练表征会削弱VLA初始化效果。机器人数据预训练可进一步改善VLA初始化,其中基于LoRA的分阶段训练实现了最强变体。综合来看,这些发现表明:有效的VLM到VLA适配应在注入与动作相关的具身和机器人轨迹信号的同时,保留对动作学习有用的预训练VLM表征。
以乾淨資料預測進行流匹配已展現出,相較於預測環境噪聲量,回歸乾淨點更能有效利用低維度結構。我們探討此原則在影像映射至學習後的潛在空間(其中壓縮已去除大量原始像素變異性)後是否仍具效用。我們引入JLT,這是一個基於凍結FLUX.2 VAE編碼的1.3億參數潛在擴散Transformer,並在同一表徵、骨幹網路及訓練設定下,比較乾淨潛在預測與匹配的速度預測DiT。儘管三個變數x、ε及v在固定破壞時間下可線性轉換,但局部高斯分析顯示,速度回歸會繼承各向同性目標共變異數下限,並放大低變異潛在方向,而乾淨預測則抑制之。在ImageNet 256×256上,JLT-B/1使用無分類器引導獲得FID-50K 2.50,並與速度預測存在顯著的匹配目標差距。這些結果表明,潛在擴散中的預測目標是依表徵而定的幾何選擇,而非可互換的代數參數化。
代理強化學習(Agentic RL)已被證明能有效訓練具備外部工具使用能力的大型語言模型(LLM)代理。然而,我們發現代理強化學習訓練會導致冗余的工具調用增加,並模糊模型內在的知識邊界——模型難以區分何時需要工具、何時僅靠參數化知識就已足夠。現有的基於獎勵形塑(reward shaping)的解決方案提供粗粒度的優化目標,往往傾向於無差別地抑制工具調用,從而引發獎勵駭客(reward hacking)問題。本文提出AKBE(代理知識邊界增強),這是一種同策略(on-policy)方法,通過在訓練過程中進行雙路徑(有工具/無工具)的軌跡生成,動態探測模型的內在知識邊界。我們將知識邊界定義為:針對每個實例判斷是否需要工具,以及所需的最小工具調用次數。通過比較不同路徑的正確性,AKBE對軌跡進行分類,並構建針對性的監督信號,引導模型針對每個問題採用高效的工具使用模式。這些信號能被無縫整合到代理強化學習的訓練循環中。在七個問答基準上的實驗表明,與標準代理強化學習相比,AKBE平均使任務準確率提升1.85%,並將工具調用次數減少18%,在不犧牲準確率與效率的前提下,工具生產力提高25%。進一步分析顯示,該方法在不同強化學習演算法之間具有即插即用的兼容性,並證明了各信號類別的運作機制。我們的程式碼已開源於 https://github.com/CuSO4-Chen/AKBE。
大型語言模型(LLM)代理依賴可重複使用的技能來解決複雜任務。然而,現有的技能創建方法將技能視為孤立且靜態的產物,限制了其可重複使用性、可靠性及長期改進。我們提出 MUSE-Autoskill Agent(記憶利用技能進化代理),這是一個以技能為核心的代理框架,允許代理透過統一的技能生命週期(創建、記憶、管理、評估與完善)持續提升任務解決能力。我們的框架使代理能夠按需創建技能,跨任務儲存與重複使用,有效組織與選取技能,並透過單元測試及執行時回饋進行評估以持續完善。我們進一步引入技能層級記憶,為每個技能積累跨任務的經驗,隨著時間實現更有效的重複使用與調適。在 SkillsBench 上的實驗初步顯示,經過生命週期管理的技能可提升任務成功率、效率、重複使用性及跨代理轉移,突顯將技能視為長效、具經驗意識且可測試資產的重要性。
社交推理遊戲已成為探索大型語言模型(LLM)智能體在推理、欺騙、協調與信念建模方面的重要測試平台。然而,多數環境僅以勝率等遊戲結果作為評分標準,且互動方式仍以純文字為主,這使得我們難以判斷智能體的語言是否真正與其感知及行動相符,也難以辨識其行為背後失誤模式的根源。為填補此缺口,我們提出QUACK——一個開源的環境與評估框架,用於審核多模態社交推理中智能體語言的接地性。QUACK從三個層級評估智能體:遊戲結果、行為軌跡以及話語層次的一致性。其核心的陳述驗證管線(Statement Verification Pipeline)能從引擎日誌重建每個智能體的真實軌跡,並比對討論中的每一項主張,自動標記空間幻覺、無根據的指控、欺騙崩潰以及語言行動不一致等問題。我們在均質與跨模型對抗設定下評估三種前沿視覺語言模型(VLM),結果顯示,即使是最強大的智能體,其可驗證的空間主張中仍有15.1%屬於幻覺,且超過一半的指控缺乏有根據的證據。我們已於 https://github.com/AAAAA-Academia-Attractions/QUACK 公開完整的引擎、評估框架、工具包及日誌。
通過可驗證獎勵的強化學習(RLVR)進行視覺推理已取得顯著進展。然而,在處理多源輸入時,現有方法往往將其視為單純的資訊累積,缺乏明確機制來區分整合額外來源是否帶來資訊增益或引入干擾。因此,它們難以在整合多個來源時有效建模動態互動,特別是當這些來源在物理特性與語義上差異顯著時(例如紅外線與深度),導致當某一來源主導訊號時,其表現甚至不如單源推理。為了解決此問題,我們提出MARS,一種新穎的單錨多源推理框架,將每種視覺模態建模為獨立資訊來源。具體而言,透過將單源獎勵視為動態錨點,我們的方法明確地將多源融合引入的資訊增益納入優勢正規化,並在RLVR過程中自適應地強調來源間的相互促進,同時抑制潛在的噪音或衝突。從理論分析來看,我們的方法能有效量化梯度估計中多源整合引入的資訊增益,從而實現一致的模態調控。實驗結果亦顯示,在GRPO與DAPO上,我們的方法在各類數據集中分別取得了3.2%與4.9%的顯著性能提升,證實了其有效性。
大型語言模型(LLMs)已演變為能在真實世界任務中與使用者協作的互動式代理。在此類情境下,有效的協作日益依賴於理解使用者的言外之意,因為使用者意圖往往體現在片段化的日常互動中,需要個人化建模與主動互動並行。然而,現有代理基準主要評估推理與工具使用能力,很大程度上忽略了在現實場景中推斷並運用使用者偏好所帶來的挑戰。為填補此缺口,我們提出 VitaBench 2.0,一個用於評估長期使用者互動中個人化與主動代理行為的基準。在 VitaBench 2.0 中,任務以個別使用者的時間排序序列來組織,其中偏好嵌於片段化且異質的互動之中。成功完成任務要求代理從這些互動中持續提取、運用並更新使用者偏好。我們進一步透過需要代理辨識缺失資訊,並在決策前主動從使用者或環境中獲取資訊的任務來評估其主動性。為支援系統性分析,我們提供可擴展的記憶介面,實現不同記憶架構間的可控比較。我們對一系列前沿的專有及開源大型語言模型進行了基準測試。結果顯示,即便對於最先進的模型,真實世界中的個人化仍極具挑戰,凸顯出當前能力與實際需求之間的顯著差距。深入分析進一步揭示了當前代理在真實世界個人化決策中的失敗模式與能力瓶頸,為未來模型改進提供了洞見。
激活预言机旨在讓其他模型的激活對人類具有可讀性,相較於白箱可解釋性技術展現出有希望的結果。然而,對此類激活預言機自然語言輸出的不確定性量化(UQ)目前尚缺乏充分研究。本研究探討了6種不同的方法來估計激活預言機的置信度,並評估其置信度分數的校準程度。我們在每個預言機的6,000個樣本上進行實驗(改變言語器與上下文提示),結果顯示,在測試的方法中,bootstrap模式頻率是校準效果最好的方法(在Qwen3-8B上,ECE為5.7%,而答案詞對數概率的ECE為25.5%;在Qwen3.6-27B上,前者為10.3%,後者為13.1%),並且對數概率基線能以極低的成本作為快速分診信號。程式碼與修補後的訓練器可在 https://github.com/federicotorrielli/probabilistic_activation_oracles 取得。
大型語言模型(LLM)正逐漸被部署為能夠進行推理、使用工具並執行多步驟行動的自主代理。然而,大多數幻覺基準測試仍然只評估最終輸出,忽略了源自中間「思考-行動-觀察」步驟的失誤。我們提出 Trajel,這是一個用於審計多代理工業工作流程中軌跡層級幻覺的資料集與評估框架。Trajel 基於 AssetOpsBench 中專家標註的代理軌跡,引入了一種五類型幻覺分類法(事實性、指涉性、邏輯性、程序性與範圍性)。我們在子任務、軌跡與長語境層級對監督式檢測模型進行基準測試。結果顯示,最常見的失誤模式被現有基準測試所忽略;近半數含有幻覺的軌跡同時涉及多種類型;而具備高二元準確率的自動檢測器仍會將最細微的類型誤判。軌跡感知檢測顯著優於標準的事後驗證,顯示出分類驅動的評估對於更安全的代理部署而言至關重要。
多智能體大型語言模型系統透過整合多個智能體的輸出結果來提升推理能力,但高度互動的方法可能導致錯誤傳播與高昂的通訊開銷。當智能體交換原始回應或推理軌跡時,錯誤的中間推理可能被採納並放大,最終形成看似正確卻實為錯誤的共識;此外,多輪通訊也會增加 token 消耗、延遲及推理成本。本文提出一個名為 DarkForest 的受控通訊協調框架。DarkForest 首先維持智能體的獨立性,使每個智能體在未參閱其他智能體輸出的情況下產出答案。接著,它將原始回應解析為結構化的候選記錄,將語義等價的候選項目分組歸類,並依據智能體的可靠性、信心度、解析品質、支持模式可靠性及獨立性修正,估算出這些群組上的校準信念分佈。協調器僅接收來自此信念狀態中經政策允許的證據,達成受控通訊。在六個推理基準上的實驗結果顯示,DarkForest 在整體品質上達到領先水準,相較於最強的基準方法,在基準指標上提升了最高 30.7%,並相較於通訊密集的基準方法,將 token 消耗降低了最高 6.5 倍。
混合專家模型(MoE)已成為千億參數語言模型的事實標準架構,然而其在次十億參數規模下用於裝置端部署的優勢仍鮮少被探討。為填補此空白,我們提出 MobileMoE:一系列活躍參數低於十億(0.3-0.9B 活躍參數,總參數 1.3-5.3B)的裝置端 MoE 語言模型,為裝置端大型語言模型建立新的帕累托前沿。我們首先制定裝置端 MoE 縮放定律,在行動裝置記憶體與計算限制下聯合優化 MoE 架構,找出裝置端的理想甜蜜點——具細粒度與共享專家的適度稀疏性——同時達到記憶體與計算最適化。基於推導出的架構,我們採用四階段訓練配方(涵蓋預訓練、中期訓練、指令微調與量化感知訓練)訓練 MobileMoE,所有階段皆使用開源資料集。在 14 個基準測試中,MobileMoE 以減少 2 至 4 倍的推理浮點運算次數,匹配或超越領先的裝置端密集大型語言模型;並以最多減少 60% 的參數量,匹配或超越最先進的 MoE 模型 OLMoE-1B-7B。為彌合通往行動部署的最後一哩路,我們提供首個在商用智慧型手機上高效執行 MoE 推論的方案,並進行全面的裝置端效能分析。在可比的 INT4 權重記憶體下,MobileMoE-S 的預填充速度為密集基準模型 MobileLLM-Pro 的 1.8 至 3.8 倍,解碼速度則為 2.2 至 3.4 倍。
主題驅動影像生成旨在根據文字指令合成新影像,同時保留給定主體的身分特徵。現有方法通常分別編碼文字與參考影像,這限制了跨模態推理能力並導致複製貼上偽影。近期連結多模態模型與擴散模型的框架雖提升了指令遵循能力,卻大幅忽略身分保留。為解決這些限制,我們以多模態大型語言模型(MLLMs)為基礎,對擴散模型進行條件化,該模型可同時編碼文字與參考影像,並加入基於VAE的身分條件化。我們設計新穎的雙層聚合模組,以匯聚多層級MLLM特徵達到最佳條件化效果,並應用多階段去噪策略,在推論過程中逐步平衡來自MLLM的語義資訊與來自VAE的細部身分資訊。大量實驗證明,我們的方法能調和多模態理解與身分保留,減輕複製貼上問題,並在主題驅動影像生成方面達到超越人類偏好的優異表現。我們的專案網站位於https://zsh2000.github.io/squeeze-mllm-subject-gen/。
我們介紹 Gemini Embedding 2,這是一個原生多模態嵌入模型,可將影片、音訊、圖片和文字等模態嵌入至統一的表徵空間。我們利用 Gemini 的多模態能力,為這些模態中任意交錯輸入組合生成嵌入,並在廣泛任務中展現良好的泛化能力。透過在多任務多階段訓練架構中應用大規模對比學習,我們在多項關鍵嵌入基準測試(包括涵蓋多樣任務的單模態、跨模態與多模態檢索)上達成最先進的性能。結果顯示,我們的嵌入模型在各類任務中表現優異(MSCOCO 上 R@1 達 62.9,Vatex 上 NDCG@10 達 68.8,MTEB 多語言達 69.9,MTEB 程式碼達 84.0),超越專門模型的表現。這些統一能力使 Gemini Embedding 2 成為 RAG、推薦系統與搜尋等下游應用的極具潛力選擇。此外,其在從天文學、生物科學到美術與烹飪藝術等不同領域的強大零樣本性能,更使其成為即使在專業領域也能即時提供高度可靠表徵的解決方案。
近期,大型語言模型(LLMs)的進展促進了其作為具備推理、規劃與工具使用能力的互動式智能體廣泛部署。儘管在現有基準測試中表現優異,此類智能體在實際應用場景中常出現顯著性能下降,原因在於真實環境本質上具有隨機性與不完善性。我們認為,此差距源於理想化訓練設定與真實互動動態之間的根本性錯配——當前範式依賴於精心設計的任務指令及穩定可控的環境。為彌合此差距,我們提出NoisyAgent,這是一個明確將環境不完善性納入智能體學習過程的訓練框架。我們識別出實際場景中兩種主要的互動噪聲來源:用戶噪聲(反映用戶互動中的模糊性與變異性)與工具噪聲(反映工具執行過程中的失敗與異常)。通過修改訓練環境中的用戶互動模式與模擬工具執行結果,我們將此類擾動引入訓練流程。為穩定訓練同時鼓勵智能體處理日益嚴峻的不完善性,噪聲僅應用於部分訓練回合,並隨模型適應當前噪聲等級而逐步增加難度。大量實驗表明,我們的方法能持續提升智能體在噪聲與動態環境下的穩健性。分析顯示,在噪聲條件下訓練亦能在理想化基準測試中帶來性能提升,這表明受控的環境噪聲暴露能促進更可泛化的推理與決策行為。我們的研究強調,為智能體訓練與實際部署搭建橋樑時,對互動不完善性的建模至關重要。
基於大型語言模型的代理在生成GPU內核方面的進展十分迅速,但其進步從根本上受到所優化基準的限制。現有基準與生產推理框架的契合度極低:它們僅在單一GPU上使用合成輸入評估內核,忽略其背後的編譯堆疊,並且獎勵的是複製已知優化而非發現新優化。由此產生的獎勵信號具有誤導性:代理學會生成在測試環境中得分良好,但實際整合到真實系統時卻會帶來接口不兼容、編譯堆疊衝突以及無聲的正確性退化等問題。我們提出FastKernels——一個基於46種代表性架構(涵蓋8大類別)的極簡內核基準,其涵蓋的內核總體上能對應96.2%(409/425)的HuggingFace Transformers架構。FastKernels同時作為一個極簡且達到生產等級的推理框架,在主流的LLM服務中能與vLLM、SGLang等成熟系統性能相當,而在服務不充分的架構上則顯著超越上游參考實現;每個任務的接口皆對應其所屬架構系列中最新函式庫的相應模組,從而能將優化後的內核直接部署至生產級代碼庫。在FastKernels上評估最先進的內核代理時,我們發現即使最強的代理相較於生產基線也僅實現0.94倍的總體加速,而較弱的代理則分別為0.78倍和0.53倍——這證實了基準與生產之間的錯位是該領域的關鍵瓶頸。我們開源FastKernels,期望它能成為一塊墊腳石,讓代理在基準上所取得的收益能直接轉化為生產吞吐量的提升。代碼見https://github.com/Snowflake-AI-Research/fastkernels。
大型語言模型因在大規模網路語料庫上訓練,不可避免地會保留敏感資訊(定義為可能引發有害生成的輸入),引發隱私與安全方面的擔憂。現有的機器遺忘方法主要依賴重新訓練或激進的微調,但這兩種方式不是計算成本高昂,就是容易導致相關知識與整體模型效用的退化。在本研究中,我們將機器遺忘重新表述為透過模型編輯進行精確知識重映射的問題。我們提出ZeroUnlearn,一個少量樣本遺忘框架。該框架透過將敏感輸入映射至中性目標狀態並移除其原始表徵,來覆寫這些輸入。ZeroUnlearn透過具封閉式解的多重參數更新來強制執行表徵正交性,從而實現高效且具針對性的遺忘。我們進一步將ZeroUnlearn擴展為基於梯度的變體,以處理多樣本遺忘任務。實驗結果表明,我們的方法在優於現有基準方法的同時,保留了模型的通用效用。我們的程式碼已開放於GitHub:https://github.com/XMUDeepLIT/ZeroUnlearn。
長期跨視野智能推理要求大型語言模型在包含思考、工具調用、觀測結果與部分結論的冗長互動歷史中進行運作。其挑戰不僅在於歷史記錄的增長,更在於當前決策所需的資訊可能散落在遠程步驟中,且僅在後續階段才顯現相關性。現有方法透過截斷互動歷史、將其壓縮為更短的替代形式,或檢索選取部分內容加以重用來應對此困難,但這些方法並未明確建模對過去互動的存取應如何根據智能體的演化狀態進行調適。我們則將長期跨視野推理重新定義為一種狀態自適應記憶問題。為此,我們提出狀態自適應記憶(State-Adaptive Memory, SAM),這是一個獨立框架,能將持續發生的互動整合為緊湊的記憶線索,同時保留原始軌跡頁面以供意圖驅動的召回。這些線索並非用作歷史記錄的替代品,而是作為輕量級把手,使智能體能根據當下需求重建時間上遙遠的資訊,無需重新訓練底層主幹模型。我們進一步透過專家引導監督與強化學習優化記憶模組,使其與軌跡層級的效用對齊。在 BrowseComp、BrowseComp-ZH、WideSearch 與 HLE 等基準測試中,SAM 在多種智能體主幹模型上持續優於強基線方法。我們的結果表明,顯式記憶建模為長期跨視野智能推理提供了簡潔而有效的基礎。
分層影像生成與編輯是一項基礎能力,能實現生成視覺內容的逐層重複使用、編輯與組合,類似於自然語言中的單詞級編輯。儘管其重要性,這在規模上仍是未充分探索的領域。為填補此缺口,我們提出 MRT——一個具 200 億參數的遮罩區域擴散模型,專為多層透明影像生成與編輯設計,並以超過一千萬個涵蓋多種長寬比與文字提示的多語言設計樣本進行訓練。為充分發揮此規模,我們做出兩項關鍵技術貢獻。首先,我們將三項互補任務——文字轉圖層、影像轉圖層與圖層轉圖層——統整至共享的遮罩區域擴散框架中,透過選擇性標記遮罩實現靈活的逐層生成與編輯。其次,為實現溢出圖層生成,我們引入溢出感知畫布層,以處理邊界不一致問題並支援半透明背景合成,從而產生可擴展至可見畫布邊界之外的完整可編輯圖層。此外,我們應用擴散蒸餾技術,以最少品質降級達成八步即時多層生成。大量實驗證明,我們的框架在三項任務上均大幅超越現有最佳方法(包括多種商業系統),為多層透明影像生成樹立新標竿。值得注意的是,根據用戶研究結果,我們的模型在影像轉圖層品質上顯著優於同期 Qwen-Image-Layered 模型,同時在影像轉圖層推論中實現 10 至 100 倍的推論速度提升,並減少 50% 至 90% 的啟動 GPU 記憶體消耗。
擴散變壓器(DiT)在影像生成中展現優異性能,但伴隨著高昂的推理成本。儘管先前研究已透過量化與蒸餾降低此成本,能將浮點運算數(FLOPs)幾乎減半的半結構化稀疏性,仍未被充分探索。關鍵原因在於,多數現有方法聚焦於權重稀疏化,而修剪50%的權重可能移除關鍵模型容量,導致生成品質下降。然而,我們的研究表明,DiT的激活值本質上具有稀疏性,且對N:M半結構化稀疏化的穩健性遠高於權重。基於此發現,我們主張從權重稀疏化轉向激活稀疏化的典範轉移。我們提出RT-Lynx,將N:M稀疏化應用於激活值,並結合誤差補償技術以減輕準確度損失。我們進一步針對此情境實現高度最佳化的CUDA核心,在線性層中平均達到1.55倍的加速。跨多個擴散模型的廣泛實驗證明,我們的方法在大幅加速推理的同時,保留了原始模型的生成品質。
代理系統正變得越來越強大:代理能制定策略、採取行動,並與不同環境互動。這種自主性為監督與評估代理行為帶來了嚴峻挑戰。當前多數工具存在局限性,要嘛側重於具備基本評估能力的可觀測性,要嘛採用靜態、人工設計的錯誤分類法,無法適應新領域。為填補此缺口,我們提出Agentic CLEAR——一個自動、動態且易於使用的評估框架。該框架能以三種粒度層次(系統層、追蹤層、節點層)產出代理行為的文本洞見。Agentic CLEAR運作於可觀測層之上,能無縫整合,並配備直觀的使用者介面,大幅提升代理評估的可及性。在四項基準測試、七種代理場景及數萬次LLM呼叫的實驗中,我們證明了Agentic CLEAR能產出高品質、資料驅動且富含洞見的反饋。分析結果顯示,其與人工標註錯誤高度一致,並能預測任務成功率。
大语言模型(LLMs)通常基于打乱顺序的语料库进行训练,这导致模型的知识在训练时固定不变,且其时间关联性难以被充分理解。本研究重点关注预训练动态对模型获取时间敏感事实性知识的影响,尤其聚焦于数据排序问题。我们的主要贡献有两方面。首先,我们构建了一个包含超过7,000个时间锚定问题的综合基准测试,并提出了一套评估协议,能够分析模型是否将事实与其对应的时间段正确关联。其次,我们利用按时间顺序排列的Common Crawl快照对60亿参数模型进行预训练,并将其与标准的乱序预训练模型进行对比。结果表明,按时间顺序训练的模型在通用语言理解与常识知识方面与乱序基线模型表现相当,同时始终展现出更即时、更精确的时间化知识。按时间顺序预训练可提升事实的新鲜度,而乱序预训练则更倾向于老旧数据,这可能是由于事实重复率更高所致。这些发现,连同我们在https://github.com/kyutai-labs/kairos 发布的代码、检查点及数据集(https://huggingface.co/collections/kyutai/kairos ),为LLMs持续学习的未来研究提供了基础。
大型語言模型能否偵測並回報自身的內部狀態?諸多研究主張此問題的答案為肯定。我們根據人類後設認知研究的教訓認為,這項結論可能言之過早:若欲確信此結論,必須區分真正的內省與基於表面線索的模式匹配。此外,我們主張僅憑行為證據本身無法充分證實強烈的內省論述。 基於此觀點,我們重新審視近期提出的兩種評估典範。在第一種典範中,模型需判斷其內部狀態是否遭受竄改。我們發現模型無法可靠區分這類對內部狀態的干預與對輸入的操弄,顯示其在原始研究中的成功實際反映的是模型偵測異常事件的普遍能力,而非專門針對內部狀態的干預。在第二種檢驗的典範中,模型需預測源自自身隱藏狀態的標籤。此處我們發現,僅能存取輸入資料的分類器,其表現與模型自身的語境內預測不相上下,顯示原始結果未能確鑿證明模型對其內部表徵具有特權存取。我們進一步引入重新標記的控制情境,使模型無法仰賴任務語義解決問題,而必須依賴內部表徵;在此經過更佳控制的任務版本中,模型表現趨近於隨機水準。整體而言,這些結果顯示現有證據尚不足以證明大型語言模型具備後設認知監控能力。
我們介紹NSF-SciFy,這是一個從美國國家科學基金會獲獎摘要中提取的科學主張與研究提案綜合數據集。相較於先前的科學主張驗證數據集在規模與範疇上的限制,NSF-SciFy代表了重大進展,包含來自40萬份摘要、橫跨所有科學與數學學科的280萬條主張。我們提出了兩個重點子集:NSF-SciFy-MatSci(包含來自材料科學獎項的11.4萬條主張)以及NSF-SciFy-20K(包含來自五個NSF理事會的13.5萬條主張)。透過零樣本提示(zero-shot prompting),我們開發了一種可擴展的方法,用於聯合提取科學主張與研究提案。我們透過三個下游任務展示了該數據集的實用性:非技術性摘要生成、主張提取與研究提案提取。在我們的數據集上微調語言模型帶來了顯著改善,相對增益常超過100%,特別是在主張與提案提取任務上。我們的錯誤分析顯示,提取的主張具有高精確率但召回率較低,這為進一步的方法論改進提供了機會。NSF-SciFy為大規模主張驗證、科學發現追蹤以及元科學分析開闢了新的研究方向。程式碼與數據可在 https://github.com/darpa-scify/NSFSciFy 取得。
先前的研究表明,透過獎勵分數設定的大型語言模型自生成回應之間的受控對比性,能改善英語的下游偏好調優。我們將此方法擴展至多種語言,並在總計14種高低資源語言上,針對多樣化任務評估兩個模型。我們的核心發現是:跨語言對比偏好調優(CroCo)可應用於自生成回應,且無需語言特定的偏好標註。一個基於英語偏好訓練(以多語言基礎模型為上層)的獎勵模型,能在大多數語言中產生有用的語言內排序;無論在單語或多語設定中配對,皆能在多數配置下優於各模型,同時防止監督微調的災難性遺忘。我們觀察到,此效益需依賴同策略(on-policy)資料。異策略(off-policy)回應會降低效益,而線上偏好優化未能改善離線變體的表現。具體而言,在結構化任務上,我們的模型在EuroLLM-9B的7種語言中有6種匹配或超越基準,在Aya-3B的7種設定中有4種匹配或超越;在開放式生成任務中,兩個經過調優的模型在所有11種評估語言中均優於其各自的基準模型。整體而言,我們為多語言偏好調優展示了具有前景的方向。
現代機器人策略日益依賴於動作分塊(action chunking)來執行現實世界中的複雜任務。雖然動作分塊在中等動作頻率下能提升時間一致性,但當動作頻率進一步提高(例如至60~Hz)時,其效能便顯不足。在此類高頻條件下,策略往往無法生成既時間平滑又空間一致的動作。我們通過將高頻動作學習從動作空間轉移至具有變分自編碼器(VAE)的潛在空間來應對此挑戰。此方法顯著提升了高頻控制中的時間與空間一致性。為實現流暢的即時執行,我們進一步引入「複用-再精煉」(Reuse-then-Refine)策略,這是一種在非同步推理下改進相鄰動作分塊間連續性的分塊級精煉方法。因此,由我們策略控制的機械人能持續執行複雜的接觸密集任務,減少停頓與顫抖動作。在三項真實世界接觸密集型機器人任務上的實驗顯示,我們的方法能以平滑動作一致完成任務。我們的程式碼與數據已於 https://github.com/tars-robotics/RTR 公開。
我們提出EverAnimate,一種高效的後訓練方法,用於長時程動畫影片生成,能維持視覺品質與角色身分。長篇動畫仍具挑戰性,因為必須在相對靜態的環境中合成高度動態的人體動作,使得基於區塊的生成容易產生累積漂移:(i) 低階品質漂移(例如靜態背景逐漸退化),以及(ii) 高階語意漂移(例如角色身分與視角相關屬性不一致)。為解決此問題,EverAnimate透過將生成錨定於持久的潛在上下文記憶來恢復漂移的光流軌跡,該記憶由兩種互補機制組成:(i) 持久潛在傳播,在區塊間維護上下文記憶,以在潛在空間中傳播身分與動作,同時減輕時間遺忘;(ii) 恢復性光流匹配,透過速度調整在取樣過程中引入隱式恢復目標,提升區塊內的保真度。僅透過輕量級LoRA微調,EverAnimate在短時程與長時程設定下皆優於現有最先進的長動畫生成方法:在10秒時,PSNR/SSIM提升8%/7%,LPIPS/FID降低22%/11%;在90秒時,增益分別提升至15%/15%與32%/27%。
大型語言模型在垂直領域中的發展,因缺乏複雜且具領域特定性的任務導向對話而遭遇瓶頸。現有的數據獲取流程面臨持續的三難困境:專家標註成本高昂、真實服務對話受限於隱私與商業限制,而靜態語料庫則迅速過時。我們提出 Stream,這是一個以數據為中心的框架,利用公開的串流媒體(直播與短影音)大規模合成高價值的服務對話。Stream 從嘈雜的串流中挖掘真實互動信號,並整合角色驅動的人物設定建構與對話藍圖建構來合成對話;進一步採用檢索增強生成(RAG)以支援具知識意識的回應。基於 Stream,我們釋出 StreamDial,這是一個大規模多領域資料集,涵蓋汽車、餐廳與旅館。StreamDial 總共包含 87,498 個對話會話與 1,497,320 個輪次,平均每個會話有 17.11 個輪次,且各領域規模相當。每個會話以結構化的四元組 ⟨P_u, P_a, B, H⟩ 組織,該四元組將對話歷史與明確的使用者/代理人角色設定及對話藍圖配對,捕捉真實服務行為,例如需求挖掘、約束衝突、協商與補救。透過自動評估者與下游任務的評估顯示,StreamDial 在內在對話品質上優於強基準模型,且使用 StreamDial 訓練的模型在不同主幹上改善了對話狀態追蹤;我們進一步報告了一套完成的人工評估集,以及在控制訓練預算下 Qwen3-8B 上令人鼓舞的多語言遷移表現。該資料集已於 https://github.com/hitxueliang/DialogDataSetBySTREAM 釋出。