每日精選AI研究論文及翻譯
近年來語言模型的發展以規模為主軸,每一代模型都將更多世界知識吸收進其參數中。然而,許多實際應用更仰賴穩健的推理能力,而非龐大的參數化知識。在此背景下,針對特定任務優化的小型語言模型(SLMs)提供了一套具原則性的設計選擇。我們提出「最優認知核心」(Optimal Cognitive Core,OCC),這是一系列基於此前提建構的小型語言模型。作為OCC的變體,我們發表了OCC-RAG,專為基於提供脈絡的忠實問答(QA)進行優化。此任務與OCC的設計方法直接契合,需對給定段落進行多跳推理,同時忽略記憶中的知識。為訓練OCC-RAG,我們實作了一套新穎的管線,用於大規模合成多脈絡、多跳問答資料,產生了包含超過三百萬個範例的語料庫,聚焦於多跳推理、嚴格的脈絡忠實度,以及校準式棄答。我們釋出了OCC-RAG-0.6B與OCC-RAG-1.7B兩個模型,兩者均在此語料庫上進行中期訓練。這些模型會產出結構化的推理軌跡,並附上基於脈絡字句引用的來源標註。透過OCC-RAG,我們證明緊湊且任務專門化的小型語言模型在多跳推理(HotpotQA、MuSiQue、TAT-QA)、忠實度(ConFiQA)及拒絕回答(MuSiQue-Un)等基準測試中,能夠匹配甚至超越規模大上2至6倍的通用模型。
識別大腦中哪些腦區表徵特定視覺概念,是神經科學的一項核心挑戰。現有方法通過激活最大化來定位粗略的功能區域(如臉部、場景),找出相對於其他概念而言對目標概念反應較強的區域。然而,僅憑強烈激活並不足以證明該區域真正表徵該概念本身,因為反應可能源於相關的視覺或語義線索。我們提出 BrainCause 這個自動化框架,結合生成模型與大腦模型,合成受控刺激,並透過目標導向的因果測試驗證神經表徵。對於查詢指定的感興趣概念,框架會建構目標刺激集,包含概念圖像、移除目標概念但保留其他圖像內容的反事實編輯圖像,以及含有候選相關干擾項的圖像。接著,使用影像到 fMRI 編碼模型預測大腦反應,並搜尋對目標概念而非相關替代選項做出特定反應的表徵。BrainCause 回傳經驗證的候選表徵,並提出後續 fMRI 實驗以進一步測試或擴展其發現。該方法成功恢復了已知的功能定位,並在數十個概念中識別出新的候選表徵,這些結果在預測與實測的 fMRI 數據上均獲得驗證。關鍵在於,我們證明了若缺乏因果驗證,大部分定位結果會是假陽性,確認僅有激活不足以作為表徵的證據。
在策略蒸餾(On-Policy Distillation, OPD)是一種用於大型語言模型(LLMs)高效後訓練的基礎技術,在智能體學習、多任務增強與模型壓縮等領域具有廣泛應用。然而,當教師與學生的分佈出現顯著差異時,OPD訓練會變得不穩定,因為教師對學生生成令牌的監督可能產生不可靠的策略梯度,甚至導致優化失敗。本研究透過信用分配策略來解決可靠的逐令牌在策略監督問題,並提出信任區域在策略蒸餾(Trust Region On-Policy Distillation, TrOPD)。它具有以下特性:1)信任區域在策略學習:TrOPD僅在教師提供可靠監督的區域執行OPD,從而緩解在分佈不匹配情況下K1反向KL估計器的優化困難。2)異常值估計:針對異常區域,我們探索梯度裁剪、遮罩以及前向KL估計,以減少不可靠監督的不利影響。3)離策略引導:學生從教師前綴繼續生成,並使用前向KL來模仿離策略引導,鼓勵向可靠區域進行在策略探索。實驗結果表明,TrOPD在數學推理、程式碼生成以及通用領域基準測試中,始終優於包括OPD、EOPD與REOPOLD在內的最先進OPD基線。
我們提出 Humanoid-GPT,這是一個採用因果注意力的 GPT 風格 Transformer,在十億級動作語料庫上進行訓練,用於全身控制。不同於先前受限於數據稀缺及敏捷性-泛化權衡的淺層 MLP 追蹤器,Humanoid-GPT 在一個包含 20 億幀的重定向語料庫上進行預訓練,該語料庫統一了所有主要動作捕捉數據集與大規模內部錄製數據。透過擴展數據與模型容量,我們獲得了一個單一的生成式 Transformer,既能追蹤高度動態的行為,又能對未見過的動作與控制任務展現前所未有的零樣本泛化能力。廣泛的實驗與規模分析表明,我們的模型樹立了新的性能標竿,在追蹤高度動態且複雜動作的同時,展現出對未見過任務的強健零樣本泛化能力。
測試時擴展是一種增強大型語言模型推理能力的有效方法,但在長序列解碼過程中,由於KV快取不斷增長,會導致記憶體瓶頸。KV快取量化有助於改善此問題,但現有方法主要在前置填充(prefill)設定下評估,而自迴歸解碼(autoregressive decoding)下的誤差行為有所不同。我們證明,在後者模式下,量化誤差會隨著時間步累積,其主要原因來自於錯誤的token尺度。我們提出KVarN,一種無需校準的KV快取量化器,它先應用哈達瑪旋轉(Hadamard rotation),再對K與V矩陣的兩個軸進行雙尺度變異數正規化(dual-scaling variance normalization)。我們發現,此組合能修正離群token尺度誤差,並顯著減少相較於現有基線的誤差累積。KVarN在生成式基準測試(包括MATH500、AIME24與HumanEval)上,以2位元精度創下KV快取量化的最新技術水準。KVarN方法的vLLM實作可於 https://github.com/huawei-csl/KVarN 取得。
強化學習(RL)後訓練能提升大型語言模型(LLMs)在個別領域的表現,例如數學推理、程式碼生成、問答及創意寫作(CW),但針對單一領域的訓練往往會導致其他領域的效能下降。現有的解釋基於災難性遺忘或全局梯度衝突,但這些解釋並不完整:即使在全模型梯度近乎正交的情況下,仍可能發生顯著的干擾。我們發現,單領域強化學習會產生稀疏且幅度微小的參數調整,且受影響最顯著的神經元之間重疊程度薄弱,然而不同領域仍共享大量活躍的計算路徑,而這些路徑上的更新方向決定了它們是產生協同效應還是相互衝突。根據此觀察,我們在多領域強化學習的局部擾動模型下證明了:後續領域的訓練主要透過二階損傷項對先前的領域造成損害,而在我們觀察到的稀疏路徑結構下,此損傷項集中於低維度的共享衝突子空間中。此外,簡短的領域刷新能收縮該子空間上的有害成分,從而在有限附帶損害下實現選擇性的恢復。與理論一致,在程式碼→數學→問答→創意寫作的序列訓練後,進行簡短的重新學習數學(Re-Math)刷新,能將數學效能從57.66提升至66.04,同時大致維持其他領域的表現,最終獲得最佳平均分數66.39。除了刷新之外,針對數學-問答這組任務,在稀疏代理衝突座標集上進行無需額外訓練的回滾操作,也能部分恢復數學效能,為局部損傷提供了直接的代理層級證據。這些結果為多領域強化學習中的干擾與恢復提供了局部的機制性解釋。
世界模型與多模态大语言模型(MLLMs)在從靜態視覺觀測預測未來結果方面提供互補的能力。世界模型可以生成具體視覺的未來可能情境推演,而MLLM則能對問題、目標與規則進行抽象推理。然而,生成的推演具有隨機性,可能在視覺上合理但在任務上不正確,因此有必要判斷視覺模擬何時有用、推演是否可信,以及它應如何影響最終答案。我們將此問題形式化為受控具象推理,模型在此過程中學習調用、驗證並整合視覺未來模擬與抽象推理。為了研究此設定,我們建構了兩個經人工驗證的基準:VRQABench(用於可控空間前瞻)與OpenWorldQA(用於開放領域物理預測),並提出特權未來在策略自我蒸餾法(PF-OPSD)。在訓練過程中,PF-OPSD僅使用真實未來影片與答案作為教師端的特權上下文,以評估在策略具象推理軌跡,而可部署的學生模型在測試時從未觀察到真實未來。實驗結果顯示,PF-OPSD在VRQABench與OpenWorldQA上分別比基線高出10.6%與10.9%,同時增強了對於雜訊或衝突推演的魯棒性。我們的程式碼與資料集可於 https://github.com/yczhou001/PF-OPSD 獲取。
自主智能體日益被期望支援端到端的醫療AI研究工作流程,超越孤立預測任務或短格式臨床問答的範疇。然而,現有的醫療智能體基準主要評估最終輸出,對於智能體在研究過程中的行為能見度有限。為填補此差距,我們提出AutoMedBench,這是一個專為自主醫療AI研究設計的工作流程感知基準,涵蓋多樣化的醫學影像與多模態推論任務,並將智能體執行過程組織為統一的五階段工作流程(S1-S5):規劃、設置、驗證、推論與提交。該基準包含長時程任務,每次執行平均涉及33個智能體回合,橫跨五個研究軌道:分割、影像增強、視覺問答(VQA)、報告生成與病灶檢測。每項任務皆在兩個難度級別(精簡版與標準版)下進行評估,兩者使用相同的數據與指標,但任務簡報的支架程度不同;每次執行同時以最終任務表現與S1至S5階段評分進行打分,從而實現從初始任務簡報到最終提交產出物的階段層級分析。在數千次記錄的執行中,階段評分顯示驗證是工作流程中最弱的階段(平均而言),而設置則是最強的,這表明當前智能體更擅長使管線可執行,而非驗證其可靠性。運行後的錯誤分析進一步顯示,驗證與提交失敗在標記錯誤中佔主導地位,分別佔觸發代碼的37.7%和38.1%,而任務理解錯誤則罕見,僅佔0.9%;且觸發一個錯誤代碼的執行,其整體分數平均比無錯誤代碼的執行低48%。
中期训练已成为现代大语言模型(LLM)开发中的重要阶段,通过使用大规模精选混合数据来增强能力,以进行最终的后期训练。其数据选择问题具有独特性:数据在接近预训练规模的范围内,按照预训练风格的目标进行优化,但其筛选过程针对下游能力,并来自不同格式和训练角色的异构数据源。因此,有效的数据选择既需要可扩展性,也需要适应数据源的语义标准。现有的基于模型的方法扩展性良好,但仅能提供隐式的质量信号。语义选择方法能提供更强的判断,但通常假设固定的评估准则或标准化的数据格式。为解决这一不匹配问题,我们提出了MIRA,一种基于自锚定准则发现的源感知过滤框架。其核心思想是将准则构建纳入数据选择过程:MIRA首先针对每个源组发现需要评估的内容,然后将这些判断提炼为可扩展的学生评分器,用于全语料库过滤。在包含21个数据源和5个源组的代码导向中期训练中,MIRA在九个代码基准测试中均优于现有的选择基线,并且在使用仅一半令牌的情况下,达到了与全语料库运行相当的效果。
視覺推理的強化學習需要可擴展、可驗證且可控的訓練信號。現有的視覺強化學習後訓練依賴於靜態精選數據集,其樣本為固定的圖像-問題-答案組合,受到收集預算的限制。本研究提出TRON(目標導向、規則可驗證之線上環境),這是一個線上環境基底:訓練的軌跡由可控的生成器-驗證器程式按需求產生,該程式會抽樣新的潛在視覺狀態、渲染圖像、提出問題,並精確驗證答案。因此,單次運行即可根據當前課程所需的難度等級,抽取無限的新鮮實例。目前的TRON套件包含520個環境,分為五大能力類別(空間、數學、圖表、模式/邏輯與計數);該基底同時支援在所有類別上訓練的單一完整模型,以及按類別劃分的能力專精模型,且無需額外收集數據。我們亦針對基底進行分析,涵蓋生成可靠性、實例與層級多樣性、跨環境近似重複,以及按難度劃分的基礎模型通過率。將強化學習後訓練結合METHOD方法後,在Qwen3-VL-4B、Qwen2.5-VL-7B及MiMo-VL-7B-SFT模型上,於十項外部多模態推理基準測試中持續獲得性能提升。
理解一段影片需要的不僅是辨識孤立的瞬間,因為人類會持續追蹤時間軸上的實體、狀態與事件。這種視覺狀態追蹤能力是影片理解的基礎,然而在當前多模態大型語言模型(MLLMs)的評測中仍未充分探討。我們提出視覺狀態追蹤基準(VSTAT),這是一個以影片為基礎的基準,旨在診斷 MLLMs 的視覺狀態追蹤能力。VSTAT 包含 834 段取自合成與真實世界影片的片段,搭配 1,500 個無法從單一影格或短片段回答的問題,需要持續感知並整合整段影片串流中的事件。儘管目前最先進的 MLLMs 在現有影片基準上表現強勁,我們發現它們在 VSTAT 上的表現遠低於人類,僅略優於基於答案先驗的基線。為分析此差距,我們比較 MLLMs 的思考軌跡與底層影片串流,以理解 MLLMs 在 VSTAT 上失敗的原因與時機。我們發現 MLLMs 能在文字上正確推理與追蹤,但在視覺上卻無法感知其所需追蹤的事件。最後,我們的初步評估顯示,近期基於代理的方法(包括基於 MLLM 的影片代理與編碼代理)並未輕易解決這些失敗,在 VSTAT 上仍顯不足。
過去幾十年間,機器學習演算法的設計取得了重大進展,從早期針對特定任務的淺層模型,到近期更通用的深度大型語言模型(LLMs)。儘管這些模型在需要即時預測或情境學習的任務中展現出潛力,但它們缺乏持續學習的能力,也無法有效地將其時間性情境知識轉移至長期參數中。受人類學習過程啟發,我們引入了一種「睡眠」範式,使模型能夠持續學習,透過重播將其短期脆弱的記憶蒸餾為穩定的長期知識,並藉由「作夢」過程遞迴地自我改進。具體而言,睡眠包含兩個階段:(1)記憶鞏固:一種向上蒸餾的過程,稱為知識播種,將較小自我的記憶蒸餾至較大網路中,以在保留知識的同時提供更大容量。作為概念驗證,我們提出了一種新的通用蒸餾過程來實現知識播種(即同策略蒸餾與基於強化學習的模仿學習之結合);(2)作夢:一個自我改進階段,模型利用強化學習生成合成資料的課程,以演練新知識並完善現有能力,無需人類監督。我們在長程任務、持續學習、知識融入及少量樣本泛化任務上的實驗,支持了睡眠階段的重要性。
随着自动驾驶技术能力的提升,在长尾场景中对驾驶策略进行安全评估仍是关键瓶颈。在闭环模拟中,驾驶策略模型与环境主动交互,其行为动态更新模拟器状态,并直接影响下一组传感器观测数据的生成。尽管基于重建的神经模拟器能够实现逼真渲染,但其本质上受限于初始捕获数据,难以泛化至高度动态或新颖场景。为突破这些局限,我们提出OmniDreams——一种基于Cosmos扩散模型进行中训练与后训练的基础生成式世界模型,能够实时自回归生成动作条件视频。通过利用Cosmos丰富的视觉先验知识,并在2.1万小时驾驶场景数据上进行中训练与后训练,OmniDreams可合成传统模拟器难以捕捉的复杂未观测现象,例如极端天气与不可预测的动态智能体行为。关键在于,它能基于历史帧、当前模拟器状态及即时驾驶动作,自回归地生成符合条件的逼真传感器数据。当与Alpamayo 1策略模型及AlpaSim编排器共同部署于闭环系统时,OmniDreams可作为高响应性的反应式环境,为训练与评估下一代自动驾驶策略提供可扩展的全面解决方案。此外,初步实验表明,基于OmniDreams后训练的世界-动作模型在物理AI自动驾驶NuRec数据集上表现优异,超越基于VLA的Alpamayo 1.5研究策略模型,且参数量仅为后者的五分之一。这些结果凸显了像OmniDreams这样的实时世界模型也有潜力成为策略架构的主干网络。
現代的生成模型對視覺內容具有深刻的理解,然而將其用於訓練影像編輯時,通常需要大量成對範例的資料集。這限制了可擴展性,尤其對於影片編輯而言,收集成對資料的成本過於高昂。我們提出Bootstrap Your Generator (ByG),這是一個通用框架,可用於無成對訓練的流匹配編輯模型。它利用基礎模型的知識,無需任何外部信號。我們的方法將從凍結模型中提取的指令遵循提示與用於結構保留的循環一致性結合。為了使此方法可行,我們提出將來自下游損失的梯度經由乾淨預測路由至噪聲訓練狀態。我們在具挑戰性的資料稀缺影像與影片編輯場景中展現了最先進的成果。大量評估與使用者研究顯示,我們的方法能有效泛化至未見過的領域,並且超越在數百萬樣本上訓練的監督式基線。分析表明,我們的梯度路由橋接了訓練與推論之間的差距,而從基礎模型中提取語義提示提供了穩健的訓練信號,從而消除了對外部獎勵模型的需求。
我们提出解耦残差去噪扩散模型(DRDD),用于统一且数据高效的图像到图像(I2I)翻译。尽管扩散模型在I2I翻译的质量和多样性方面取得了进展,但我们揭示了扩散模型中一个此前未被充分探索的性质。关键在于,除了其传统的流形提升作用(即将数据从低维流形上移开)之外,注入高斯噪声通过隐式对齐跨域特征分布来促进域协调,这一特性对于统一的I2I翻译尤为有利。然而,现有扩散模型过早地削弱了这种协调效应,因为噪声和残差在单个耦合的扩散过程中被同时移除。为解决此问题,DRDD将扩散过程解耦为两个顺序且独立的扩散阶段:(1)一个用于域协调和流形提升的随机噪声扩散阶段,以及(2)一个在固定噪声域内完全学习核心语义映射的确定性残差扩散阶段。这种解耦在整个变换过程中保留了协调和流形提升效应,显著简化了跨不同任务和域的统一映射学习。值得注意的是,噪声扩散阶段仅在大量无配对的域目标图像上训练,大幅提升了数据效率。全面的理论和实证分析表明,DRDD与主流扩散模型广泛兼容,即便在有限配对数据下也能持续提供稳健、统一的I2I翻译。我们的代码可在 https://github.com/HKU-HealthAI/DRDD 获取。
個人化是現代語言代理的關鍵能力。然而,當前的研究主要將個人化代理定位為被動回應使用者偏好的角色,限制了其主動與使用者互動、提供建議或引導的能力。為系統性評估此類主動式個人化在真實互動中的表現,我們提出Ψ-基準測試(Ψ-Bench),一個用於評估大型語言模型透過對話影響真實使用者能力的基準。我們在Ψ-基準測試中設計了三個涉及說服的現實世界互動場景,並透過從對話歷史中獲得的明確使用者檔案,賦予模擬客戶個人特質。我們在Ψ-基準測試上評估了10個前沿的大型語言模型,發現雖然大多數模型能產出連貫且合理的論點,但即使是最先進的模型在說服力上仍有相當大的改進空間。我們也發現,提供客戶檔案存取權限平均可帶來18.24%的效能提升,凸顯使用者特定資訊對有效說服的重要性。整體而言,我們的研究強調了人物敏感影響力作為評估與開發更主動個人化大型語言模型代理的一個具挑戰性且實用的方向。程式碼可見於:https://github.com/Hanpx20/Psi-Bench。
測試時擴展提升了大型語言模型的推理表現,但同時也導致總計算量和延遲大幅增加。現有的自適應採樣方法透過動態決定何時停止採樣來部分緩解此問題,但這些方法通常依賴啟發式規則或基於分佈假設。在本研究中,我們將自適應採樣表述為一個馬可夫決策過程(MDP)。我們利用強化學習(RL)訓練一個輕量級的採樣控制器,以共同平衡答案正確性、延遲和計算成本。在每一輪中,控制器決定停止採樣或獲取更多樣本。我們的方法輕量且僅需依賴最終答案的統計數據,並可在CPU上進行訓練和部署。我們進一步證明,所提出的框架可被解釋為帶有明確預算限制的約束優化問題的拉格朗日鬆弛。實驗結果顯示,與ASC和ESC等強基線方法相比,我們的方法在答案正確性、採樣輪數和所需總樣本數之間實現了更優的權衡。
自動框架系統(如 A-Evolve、GEPA 和 Meta-Harness)透過根據執行回饋最佳化提示、技能、工具、記憶及支援基礎設施,來提升大型語言模型代理的性能。然而,這些系統通常僅以固定的離線基準進行評估。在實際部署中,任務序列呈現開放式特徵:歷史紀錄會持續增長而無固定終點、異質性任務需要不同的框架、且問題分佈會隨時間演化。這些挑戰導致單一、反覆且密集更新的框架變得脆弱,表現退化——準確率在達到高峰後隨即下滑。這促使我們需要針對任務進行持續性的框架建構與自適應調整。本文提出「自適應自動框架」(Adaptive Auto-Harness),一個專為此類任務序列設計的框架與系統。該框架將與理想框架之間的差距分解為演化損失與適應損失。系統則透過具狀態的多智能體演化器、搭配求解時路由的框架樹,以及在歷史缺乏所需訊號時提供的人機引導鉤子來應對這些損失。在預測市場、安全競賽與事件預測等任務序列中,自適應自動框架的表現優於五種現有的自動框架基準,而消融實驗則將效能增益歸因於更好的建構、路由或針對性的人機引導。相關程式碼已公開於 https://github.com/A-EVO-Lab/AdaptiveHarness。
我們介紹 PaddleOCR-VL-1.6,這是一款基於 PaddleOCR-VL-1.5 升級的緊湊型文件解析模型。儘管 PaddleOCR-VL-1.5 建立了強大的 0.9B 基線,但其殘留錯誤主要集中在模型行為不穩定、數據覆蓋稀疏或監督訊號不可靠的欠優化區域。PaddleOCR-VL-1.6 並未不加區分地擴展訓練語料庫,而是引入了一個區域感知的數據優化框架,從先前的模型中識別薄弱區域,對這些區域進行針對性增強,並改善監督訊號的可靠性。此外,該框架採用基於精心挑選的數據選擇與強化學習的漸進式後訓練策略,透過分階段優化將模型性能提升至更高水準。PaddleOCR-VL-1.6 在 OmniDocBench v1.6 上取得了 96.33% 的最新最佳成績,展現出與頂級視覺語言模型的強大競爭力,並為 PaddleOCR-VL 系列提供了實用的後訓練方案。
指令微調能將大型語言模型(包括多模態模型)對齊至多樣化的使用者意圖,但當擴展至異質混合任務時,會受到梯度干擾與高頻寬同步的阻礙。我們探討是否能透過獨立訓練混合任務中的部分子集,並在參數空間中一次性合併,來同時解決這兩個瓶頸。我們在共享的平坦盆地內發展出一套局部二次理論,得出三項結果:權重合併產生曲率加權的變異數縮減;PCA對齊的衝突分割沿高曲率方向最大化此增益;且合併同時扮演帶隱式範數正則化的譜濾波。這些結果直接催生了MERIT——一個去中心化、可合併的指令微調流程,其先估計資料集層級的梯度衝突,再沿頂層PCA衝突軸劃分混合任務,各劃分子集獨立微調且無須跨子集通訊,最後以權重加權平均進行一次性合併。在搭載136項Vision-FLAN任務的Qwen2.5-VL-3B上,MERIT將8項基準平均分從54.3(聯合訓練)提升至57.0。相同的方案可擴展至7B模型與176個來源、160萬筆範例的混合任務,以極低的成本開銷達到或超越集中式聯合訓練的表現,並能遷移至純文字FLAN。我們的程式碼已公開於 https://github.com/naver-ai/merit。
具身視覺導航——智能體從原始感官輸入中感知複雜環境並採取行動以達成目標——是家庭服務機器人、輔助機器人以及大規模自主探索等多種應用領域的基礎。然而,近期試圖統一視覺與語言導航(VLN)和物體目標導航(ObjNav)的努力仍停留在架構融合、混合任務訓練及大規模視覺語言預訓練的層面,並未探討獨立訓練的視覺編碼器與語言編碼器是否已共享共同的語義結構。此外,即使是以物體為中心的拓撲地圖,依然依賴如CLIP或大型視覺語言模型等明確的跨模態監督來對齊語言目標,這使得我們無法確定在純粹由視覺構建的地圖上是否也能實現此種對齊。為了解決這些問題,我們將柏拉圖式表徵假說延伸至具身導航領域,並將純視覺ObjNav、跨模態ObjNav以及VLN重新詮釋為同一物體中心語義流形的三種不同介面。我們進一步提出PlatonicNav——一個無需訓練的框架,其柏拉圖式拓撲地圖融合了來自自監督視覺編碼器的幾何與語義節點距離,並透過無需任何配對視覺語言資料的盲匹配來對齊語言目標。我們在HM3D-IIN、OVON以及基於MP3D的R2R-CE等模擬基準測試上進行了廣泛實驗,並在Unitree Go2上進行了實機部署,結果證明PlatonicNav在無需明確跨模態訓練的情況下,能夠跨任務、跨模態、跨本體進行泛化。代碼:https://github.com/AIGeeksGroup/PlatonicNav。網站:https://aigeeksgroup.github.io/PlatonicNav。
長鏈思維(CoT)軌跡廣泛用於監督導向推理的大型語言模型(LLM)微調(SFT),然而答案正確的軌跡仍可能導致顯著不同的微調結果。我們研究答案正確的長鏈思維資料中的「結論後續延續」:此類延續是指答案已獲得充分支持,但軌跡中仍繼續進行額外的推理,而這些推理內容仍保留在監督目標中。為檢驗其訓練效果,我們採用「僅刪除編輯器」構建保留答案的後綴移除操作,並比較原始軌跡與處理後軌跡的基於思維鏈的監督式微調結果。我們觀察到,移除編輯器識別出的結論後續延續後,監督式微調效果有所提升,表明在我們的情境下,此類延續對訓練有害。因此,我們將此實證支持的現象稱為「有害延續」。除介入處理外,我們進一步透過不確定性與隱藏狀態進程來表徵被移除的結論後續延續。我們觀察到持續的局部不確定性伴隨著減弱的終點方向進程,形成「不確定性—幾何結構不匹配」。最後,我們實例化「有害延續裁剪」(HCC),這是一個輕量的邊界代理,能夠近似編輯器識別出的結論後續延續邊界。
On-Policy Distillation (OPD) 通過讓學生模型在其自身生成軌跡上,接受來自更強教師的密集詞元級反饋進行訓練,從而緩解了監督式微調 (SFT) 的離策略分佈偏移與強化學習 (RL) 的稀疏信用分配問題。然而,標準 OPD 面臨兩個相互關聯的限制。首先,它需要直接獲取教師的詞元級 logits,這排除了大量能力出眾的專有模型擔任教師的可能性。其次,詞元級 logit 信號本身十分脆弱,其依賴於教師與學生之間在合理下一個詞元上的狹窄重疊,且容易放大如重複循環這類退化模式。在本文中,我們提出 OmniOPD,這是一個新穎的框架,透過一種無需 logit 的區塊級監督信號,同時解決了上述兩個限制。OmniOPD 將確定性的 logit 匹配替換為蒙地卡羅 rollout,藉由在多詞元區塊上使用連續語意相似性度量來近似教師的局部偏好,並透過一個峰值熵調度器集中此監督信號,僅在學生高不確定性的推理分支處進行審核。此外,狄利克雷-多項式貝氏先驗與基礎模型 KL 錨點進一步約束了離散取樣的變異數,並防止在未經審核的詞元上發生策略崩塌。在具競爭力的基準測試中,OmniOPD 在數學任務上比標準 OPD 方法提升了高達 +28.64%,證實了區塊級語意驗證能提取出比詞元級 logit 匹配更可靠的學習信號,後者的高資訊密度被顯著的雜訊與脆弱性所抵消。此外,當與 Claude-4.5-Haiku 和 Gemini-2.5-Flash 等更強的黑箱教師配對時,OmniOPD 在數學任務上相較於其開放權重教師版本,取得了額外的 +9.54% 相對提升,使學生模型超越了自我探索式 RL 的性能。
目前的音樂相似度模型通常計算單一且整體的分數,將旋律、節奏和音色等不同音樂維度糾纏在一起。這限制了使用者的控制力與可解釋性,使其無法執行細膩的查詢。我們提出MERIT,一個專為學習這三個核心維度而設計的解糾纏、因子特定音樂表徵框架。為了解決真實世界音訊缺乏孤立音樂變異的問題,我們採用新穎的訓練策略,利用條件式音訊生成與聲源分離音軌,強烈鼓勵訓練數據中呈現單一因子變異。我們的評估展示了良好的因子層級解糾纏效果。每個頭部對其預期的感知維度反應強烈,而對其他維度則幾乎維持隨機水準,此表徵特性在合成訓練領域與獨立的真實世界音訊中均保持一致。
推理模型通过扩展思维链提升了准确性,但其长输出造成了内存与计算瓶颈。KV缓存淘汰方法通过从缓存中移除不重要的键值对来降低开销,然而这类方法的准确性往往低于基于选择的稀疏注意力替代方案(后者保留完整KV缓存)。我们识别出决定KV缓存淘汰准确性的关键因素:首先,少量值状态具有异常大的幅度,移除它们会导致灾难性失败——模型进入重复推理循环;其次,在淘汰过程中引入随机性通过增加缓存多样性提升准确性。基于这些发现,我们提出值感知随机KV缓存淘汰方法(VaSE),这是一种无需训练的解决方案,既能保护大幅值状态,又能促进多样化的淘汰决策。在六项推理任务中,采用4倍KV缓存压缩的Qwen3模型在同等稀疏度下,其平均准确率高于当前最先进的稀疏注意力方法,同时比最强的淘汰方法高出4%以上。总体而言,VaSE弥合了效率与准确性之间的差距,支持FlashAttention2,并为推理模型实现静态内存占用。
有限元分析(FEA)是固体力学中最重要的数值方法。其应用面临的挑战包括入门门槛高、以及因边界条件、载荷工况和求解变量等关键模拟参数设置错误可能导致的仿真结果失真。解决实际工程问题通常需要数年的工程经验。针对这些难题,我们提出基于大语言模型(LLMs)的多智能体框架AbaqusAgent,专用于固体力学分析。通过将用户自然语言指令转化为可执行的有限元分析与结果可视化,该框架实现了借助Abaqus(应用最广泛的有限元分析软件之一)的分析案例生成与执行自动化。AbaqusAgent由六大智能体模块构成:解释器、架构师、输入文件生成器、运行器、审查器和可视化器,完整覆盖标准有限元分析的前处理与后处理全流程。在涵盖50个不同固体力学问题的验证测试中,整体成功率达86%。该框架不仅提升了固体力学有限元分析的效率并降低了计算力学的教育门槛,更推动了人机仿真交互范式革新,为AI驱动的优化设计与材料表征工作流程提供了集成接口。源代码已开源发布于 https://github.com/LIRAM-LIN/AbaqusAgent
大型語言模型在通用能力方面已展現出顯著進展,並可透過在領域特定數據上進行微調,在特定領域中實現強勁表現。然而,取得目標領域的高品質數據仍是一大挑戰。現有的數據合成方法遵循演繹範式,高度依賴以自然語言表達的明確領域描述以及精心的提示工程,這限制了它們在難以用語言描述或正式表述的實際場景中的適用性。在本研究中,我們透過歸納範式來處理這個尚未充分探索的領域特定數據合成問題——目標領域僅透過一組參考範例來定義,特別是在領域特徵難以用自然語言表述的情況下。我們提出了一個名為 DOMINO 的新框架,該框架從參考樣本中學習一個最小充分的領域表徵,並利用它來引導生成與領域對齊的合成數據。DOMINO 將提示調整與對比解耦目標相結合,以分離領域層次的模式與樣本特定的雜訊,從而在保留核心領域特徵的同時減輕過擬合。理論上,我們證明 DOMINO 擴展了合成數據分佈的支撐集,確保了更大的多樣性。在實證上,針對領域定義隱含且具挑戰性的程式碼基準測試,使用 DOMINO 合成的數據進行微調後,在強勁的指令微調骨幹模型基礎上,Pass@1 準確率提升了高達 4.63%,證明了其有效性與穩健性。本研究為領域特定數據合成建立了新典範,能在無需手動設計提示或自然語言領域規範的情況下,實現實用且可擴展的領域適應。
計算社會科學的核心目標之一,是發現語言在感興趣的結果變項(如政治傾向或教學品質)之間如何變化的可解釋差異。近期基於大型語言模型的假設生成方法,雖能以自然語言描述此類差異,但僅選取全域判別模式,而未考慮研究者根據領域知識設定的共變量。忽略共變量時,所選模式可能反映混淆因素,而非實質上值得關注的差異。我們提出條件式假設生成框架,引入研究者指定的共變量,引導假設發現朝向在相關子群體內成立的差異。此過程面臨兩項挑戰:目標子群體可能代表性不足(分層不平衡),且差異方向可能在不同子群體間反轉(符號反轉)。我們提出兩種受計量經濟學啟發的方法:其一引入特徵與共變量的交互作用項以偵測符號反轉;其二應用分層內去均值及逆頻率加權,以平衡代表性不足的分層。合成實驗顯示,每種方法在其目標設定下均優於全域基準;而針對兩個真實世界資料集的專家評估則證實,考量共變量的假設生成能在相關子群體內產出更有用的假設。
準確建模軟邊界(例如毛髮與散景模糊)是立體轉換中的一項基本挑戰,原因在於前景與背景的模糊混合。現有的深度模型主要預測單層深度,導致軟邊界處深度對應關係的模糊性。雖然遮罩技術能捕捉透明度以進行分層建模,但在包含多個目標的複雜場景中常面臨困難,且通常需要使用者介入。本文介紹αDepth,一種可分解軟邊界以實現高保真立體轉換的分層表示法。具體而言,我們首先透過估算軟邊界處的分層色彩與深度值,解決混合色彩與深度的模糊性。考量複雜的多目標場景,我們設計了環形阿爾法表示法(Circular Alpha Representation, CAR),將範式從全域目標提取轉向局部邊界分解。不同於先前受限於單一前景/背景的遮罩方法,CAR無需手動引導即可實現高效的場景層級推論。廣泛的評估結果顯示,αDepth在立體轉換中達到最先進的效能,消除軟邊界處的背景滲色與結構失真。
实时视觉任务要求模型兼具准确性、效率性及跨异构硬件的易部署性。YOLO系列模型因此得到广泛部署,但现有大多数YOLO检测器在推理时仍需依赖非极大值抑制(NMS)、因使用分布焦点损失(DFL)导致检测头部过重、训练调度周期长,且最小目标可能缺乏正标签分配方案。本文提出Ultralytics YOLO26——面向架构与训练协同优化的统一实时视觉模型系列,旨在解决上述局限。YOLO26采用双头设计实现原生无NMS端到端推理,并完全移除DFL,生成更轻量且无约束回归范围的检测头。其训练流程融合三大创新:MuSGD(一种从大语言模型训练适配的混合Muon-SGD优化器)、渐进损失(Progressive Loss,将监督信号向推理时头部转移),以及STAL(一种保证小目标正覆盖率的标签分配策略)。除目标检测外,YOLO26分别为实例分割、姿态估计和旋转框检测设计了专用头部与损失函数,在各类任务与模型尺度上均实现一致性增益。该系列涵盖五类尺度(n/s/m/l/x),支持在统一流程中完成检测、实例分割、姿态估计、分类及旋转框检测,并推出开放词汇扩展版YOLOE-26,实现无文本、视觉及提示输入的推理。在所有尺度上,YOLO26在COCO数据集上以1.7-11.8毫秒的T4 TensorRT延迟达到40.9-57.5 mAP,相较现有实时检测器显著推进了精度-延迟帕累托前沿;而YOLOE-26x在文本提示下于LVIS minival数据集上达到40.6 AP。代码与模型已开源至 https://github.com/ultralytics/ultralytics。
代理技能通過可重複使用的指令、工具、腳本、參考資料和工作流程擴展AI代理,建立了一個獨立於模型安全性與傳統套件惡意軟體偵測的安全邊界。ClawHub Security Signals是一個經過淨化的資料集,包含67,453個最新的公開OpenClaw技能版本。每一行對應經編輯的SKILL.md內容(若有)與經過清理的捆綁檔案,並附上ClawScan註冊表的最終判定,以及來自三個掃描器家族(VirusTotal、靜態啟發式分析與NVIDIA SkillSpector)的證據。 我們並非評估惡意技能的普遍性,而是研究掃描器之間的不一致性。三個掃描器極少標記相同的技能:任兩個掃描器在其合計陽性結果中僅有最多10.4%重疊,僅0.69%的技能被所有三個掃描器標記,而81.9%被標記的技能僅由單一掃描器識別。此不一致性與攻擊面結構相關。SkillSpector主要發出語義層級的代理風險警示,而非惡意軟體信譽信號,在25,504個可疑資料列中有19,209列(75.3%)呈陽性,但在206個惡意資料列中僅有14列(6.8%)呈陽性。惡意判定區域則呈現相反輪廓:206個惡意資料列中有150列(72.8%)為VirusTotal陽性,這與捆綁程式碼的惡意軟體證據一致。 這些結果顯示,代理技能的安全性需要分層治理,而非單一掃描器的允許/封鎖決策。本語料庫以經過淨化的銀級標準資料集形式釋出:標籤為註冊表自動化判定,而非人工標註的基準真相,且此釋出版本為早期快照,旨在支援社群,同時正在開發人工標註子集。我們鼓勵進一步研究,包括針對技能安全分類量身打造的模型。
KV-cache 是数据中心合适的存储器,却并非机器人的合适存储器。数据中心推理会批量处理大量短请求并重置它们,从而在一群请求间分摊注意力缓存。而具身智能体则在带宽受限的边缘硬件上运行单个不间断的长回合,这类硬件缺乏高带宽存储器与闪存,闪存写入寿命有限,存储器写入而非计算可能成为制约瓶颈。 AURA-Mem(动作-效用循环自适应记忆)针对这一场景设计。它在冻结的视觉-语言-动作骨干网络上包裹一个固定大小的循环记忆和一个经过学习的门控机制,后者仅在当前观测会改变下一步动作时才执行写入:即懂得何时保持静默的记忆。与基于重构的记忆不同,该门控直接针对闭环动作误差信号进行训练。其推理状态大小固定为 4,224 字节,与回合长度无关,而 KV-cache 在 100,000 步时会膨胀至其 6,061 倍。 在受控的合成基准测试中,AURA-Mem 在准确率上与最优 O(1) 基线持平,同时写入次数减少 5.19 至 6.13 倍,在较简单的配置下写入次数最多减少 9.19 倍。预算匹配的随机和周期性调度无法恢复这一增益,从而将优势归因于动作-惊奇信号。在经训练的闭环 OpenVLA-OFT 7B 面板上,针对 LIBERO-Long(每个手臂 60 个回合)进行测试,该门控并未损害成功率:AURA-Mem 与未加门控的基础策略(0.233)相当,并略超过始终写入的 KV 分支(0.217),同时写入次数减少 7.0 倍且内存恒定。我们还实例化了一个近似信息状态的价值损失界作为方法论演示;在此规模下,该界限是空洞的而非一种保证。
工業視覺從模擬到現實(sim-to-real)常被描述為從合成影像轉移至真實影像,但實際工業部署通常涉及可用證據與所需決策之間更廣泛的落差。系統可能基於CAD渲染圖、模擬RGB-D觀測、正常參考影像、合成缺陷、預訓練特徵空間或語言提示建構,卻需在相異的感測器、光源、材質、夾具、校正、生產變異及罕見缺陷模式下部署。本文獻回顧將工業視覺的模擬到現實問題重新框架為一個由先驗可用性所組織的域差距問題。我們區分出三種情境:CAD可用情境,其中明確的物體幾何可支援渲染、校正、姿態估計、分割及測試時幾何驗證;CAD不可用情境,其中幾何被正常參考外觀、特徵分佈、教師-學生殘差、合成異常假設、基礎特徵或視覺-語言先驗所取代;以及邊界先驗情境,其中近似模型、模板、參考視角或語義對應僅保留部分CAD角色。此框架將基於CAD的檢測與6D姿態估計文獻,以及通常被分開回顧的工業異常與表面檢測文獻加以連結。為使分類具體化,我們使用T-LESS/BOP、MVTec AD與VisA上的經驗錨點。這些錨點顯示,單靠CAD渲染數量並不足以促成轉移;源域分佈設計、檢測器容量以及少量真實校正可能更為關鍵。它們也顯示,CAD在測試時透過遮罩、姿態與深度一致性創造出獨立的驗證通道,而無CAD的檢測則依賴於校準的正常性與特徵偏差。因此,本回顧反對單一的跨任務排行榜,而是提問何種先驗奠定了部署決策的基礎。
用於三維重建的前饋模型已透過深度跨視角注意力機制進行影像間資訊交換,展現出優異效能。然而,此類方法通常依賴深層解碼器堆疊,且缺乏結構化的幾何優化機制,導致多視角一致性不佳。為解決此問題,我們從經典的束調整(BA)中汲取靈感——該方法可視為姿態與局部幾何之間反覆傳播資訊的迭代過程。受BA啟發,我們提出BA-T,一種迭代式Transformer,將BA風格的結構化更新實作為隱式令牌空間中可重複使用的層。不同於依賴深層注意力堆疊,BA-T透過單一輕量層根據潛在殘差逐步精煉預測結果。實驗顯示,BA-T在多次迭代中逐步提升姿態與重建精度,相較傳統解碼器達成更強的跨視角一致性,且在使用僅16%解碼器參數的條件下,能超越或持平規模顯著更大的模型。BA-T為深度密集型注意力機制提供了緊湊、高效且具結構性的替代方案,使輕量架構中亦能實現精確的三維重建。程式碼將於https://github.com/zhangganlin/BA-T 公開。
線性探針基於大語言模型(LLM)激活值進行訓練,日益被提出作為欺騙檢測指標,其在乾淨基準測試上報告的AUROC超過0.96,但在分佈偏移下表現急遽崩潰。本文系統性地對Gemma 3系列模型(1B至27B參數)上的探針指標進行壓力測試,診斷其失效原因,而非僅僅記錄失效現象。我們針對欺騙編碼提出四項假設:(1)單一線性方向;(2)多維子空間;(3)凸錐包絡;(4)熵代理。實驗設計包含跨域轉移矩陣、結合隨機置換基線的多維探針分析、熵殘差化測試,以及涵蓋8種風格偏移的干擾評估。我們發現:(a)探針在乾淨數據上達到近乎完美的AUROC(≥0.998),但在風格偏移下急遽崩潰;經風格增強訓練的探針能在未見過的風格上恢復近乎完美的檢測(平均AUROC 0.979-0.983);(b)單一方向假設被拒絕(k=1僅能捕獲0.61-0.80的AUROC),且跨域轉移失敗被證實為幾何特性問題,而非層級錯配所驅動;(c)熵代理假設被拒絕(最大|ρ|=0.454,殘差化後最大Δ-AUROC=0.004);(d)欺騙行為並未形成顯著的線性子空間(各領域k*=0),然而多維探針(k≥5)能透過分散的亞閾值特徵恢復信號。探針的脆弱性反映的是分佈狹窄問題,而非架構限制:經風格增強訓練的探針在4B與27B模型上均能恢復近乎完美的檢測,這證實了反向縮放模式實為訓練分佈的人為產物,而非真正的規模相依現象。
近期多模态大型語言模型展現出強大的推理能力,但其作為自動評估器的可靠性仍受制於一項關鍵弱點:當視覺證據與文本線索衝突時,多模態語言模型(MLLM)評估者傾向於獎勵看似合理的故事敘述,而非知覺上正確的答案。我們識別並系統性分析此現象,稱之為「感知判斷偏差」。透過受控的視覺擾動,現有多模態評估者經常錨定於回應文本,而非其自身的視覺感知,導致不一致且無法驗證的評估。為解決此問題,我們引入「感知擾動判斷資料集」,該資料集建構最小編輯的反事實回應,以隔離感知錯誤並實現可驗證的監督。基於此資料集,我們開發一套統一訓練框架,結合結構化 GRPO 獎勵機制與批次排序目標,在無需明確成對標籤的情況下達成連貫的全局排序。跨多種 MLLM 作為評判基準的實驗顯示,我們的方法大幅提升感知忠實度、排序連貫性,以及與人類評估的一致性。我們的研究成果建立了一條可擴展且具泛化性的途徑,用以訓練感知基礎、可解釋且對視覺推理衝突具有強健性的多模態評估者。
WALL-WM 是一個世界動作模型,將視覺-動作學習從以片段為中心的優化轉變為事件導向的視覺-語言-動作預訓練,並以語義連貫的動作事件作為學習的基本單位。現有的世界動作模型通常從多模態或視覺基礎模型初始化,然後直接根據當前觀察和指令優化固定長度的動作片段。儘管這種方法便利,但以片段為中心的設計造成了基本的粒度不匹配問題。語言描述語義目標與事件,視覺透過連續場景動態演變,而動作則在控制層級的時間尺度上運行;將三者強行納入相同的固定長度預測窗口,會使視覺-語言-動作訓練淪為短時程相關性擬合。WALL-WM 透過圍繞語義事件組織監督信號與資料來解決此不匹配問題。具體而言,它將事件導向的視覺-語言-動作預訓練與基於事件層級描述及聚類平衡取樣的資料生態系統相結合,從而能在多樣的行為、場景與任務結構上進行可擴展學習。基於相同的事件預訓練骨幹,WALL-WM 支援兩種互補的推理模式:事件模式可消費下一個事件的描述,並執行可變長度的動作片段;而統一模式則利用具備階梯式解碼的視覺語言模型,來調節傳統的固定長度片段推理,同時保留梯度連續的視覺-語言-動作路徑。搭配基於 Muon 優化器的大規模預訓練基礎設施,WALL-WM 為通用世界動作模型提供了實用的擴展配方。實驗結果顯示,WALL-WM 在語言、場景與任務上具有廣泛的泛化能力,並在大規模真實世界泛化評估中達到了最先進的性能。