每日精選AI研究論文及翻譯
將多模態基礎模型部署為閉環策略時,越來越需要根據已不可見的觀測來調整行動。然而,現有基準測試要麼暴露完整狀態、混淆隱狀態重建與其他智能體技能,要麼僅在情節結束後測試回憶能力。我們提出 RNG-Bench(重建性非馬爾可夫博弈),這套基準測試旨在分離基礎模型在多重步驟互動過程中重建過往觀測並據此行動的能力。RNG-Bench 包含兩個互補遊戲:配對記憶(Matching Pairs)——需在特定位置短暫揭示牌面後回憶其內容;以及三維迷宮(3D Maze)——需將自我中心視角整合為空間地圖。所有遊戲均在統一測試框架下進行評估,並控制三個難度維度:網格大小、視覺模式與觀測模態。該基準測試進一步引入一對一對決協議以控制樣本層級變異,以及「記憶差距」指標來區分遺忘與不良行動選擇。最困難的組態要求每情節約 128K 令牌與 350 張圖像輸入,且前沿多模態大語言模型尚未達到飽和。記憶差距分析顯示,大多數殘差錯誤源自遺忘較早觀測,而非次優決策。最後,在最佳策略軌跡與過濾後的模型示範上微調 Qwen3.5-9B,不僅在 RNG-Bench 上提升表現,還能遷移至既有基準測試,同時不損害通用多模態能力。
运动预测是视觉智能的核心:智能体必须预测物体将如何移动,以规划行动、推理物理交互并合成逼真的未来场景。我们认为,世界坐标系中的3D点提供了一种通用表示,这种表示具有类别无关、视角稳定、紧凑且可直接用于下游任务的特点。我们形式化了目标条件3D点运动预测任务:给定一段简短的视觉历史、感兴趣物体上的一组3D查询点以及目标意图的语言描述,模型预测每个点未来的3D轨迹。我们引入了一个完整的堆栈来大规模研究该任务:(1)MolmoMotion-1M是一个大型语料库,包含从116万个无约束视频中标注的、带有动作描述且基于物体的3D点轨迹;(2)PointMotionBench是一个经人工验证的基准,涵盖111个物体类别和61种运动类型;(3)MolmoMotion是一个通用运动预测模型,同时支持自回归坐标预测和基于流匹配的轨迹生成。MolmoMotion能够根据不同语言指令准确预测多种运动模式,并在PointMotionBench上显著优于现有的运动预测基线。最后,我们证明学习到的3D运动先验可以很好地迁移到下游应用:它提升了机器人操作的训练效率和泛化能力,同时其预测的轨迹为生成模型提供了有效的运动指导,使其合成的视频中物体运动更加逼真。
世界模型正从被动的视觉生成器,转变为物理人工智能的基础性、可运行基础设施:它们必须原生地从异构经验中获取世界知识,在长时间跨度内维持持久状态,并在真实部署约束下高效执行。我们提出 Kairos,一个围绕这些需求设计的原生世界模型栈。(1) Kairos 通过开创一种由跨具身数据课程引导的原生预训练范式来学习世界,该范式将开放世界视频、人类行为数据和机器人交互组织成一个渐进式的发展路径。(2) Kairos 通过一个配备混合线性时间注意力的原生统一架构来维护世界,该架构集成了统一的世界理解、生成和预测功能,其中滑动窗口注意力捕捉局部动态,扩张滑动窗口捕捉中程依赖,门控线性注意力维持持久的全局记忆。我们建立了形式化理论边界,证明这种时间分解严格限制了误差累积,从而在数学上保证了跨扩展时间跨度的状态传播。(3) Kairos 通过融入部署感知的系统协同设计来运行世界,以支持在服务器和消费级硬件上进行低延迟的 rollouts 生成,用于真实的观察-行动-反馈循环。在具身世界模型、长时域和行动策略基准上的实验表明,Kairos 实现了顶尖性能,同时在效率与能力之间取得了良好的平衡。这些结果共同将 Kairos 定位为未来自进化物理智能的一个统一运行基础。
基於大規模視覺-語言數據訓練的語言模型已展現出具身智能體的強大潛力。透過具身工具使用來駕馭模型,透過將高層次推理與外部感知、規劃及控制模組相結合,提供了一種有別於端到端視覺-語言-行動系統的可行替代方案。然而,對於什麼因素能構成有效的具身操作框架,以及此種框架能在多大程度上解鎖各類推理模型的具身能力,目前仍不明確。在本研究中,我們提出Guava框架,這套用於具身工具使用的框架是透過系統性地探索智能體工作流程、行動空間與觀測空間的設計空間而開發的。我們的研究確立了有效具身智能體的三項關鍵要素:迭代的感知-推理-行動循環、語意化行動抽象,以及多模態觀測。為驗證這些設計原則是否對小型模型也具普遍適用性,我們開發了一套端到端訓練流程,能在模擬環境中僅用不到2,000條軌跡數據,即完成將具身操作能力提煉至4B參數開源模型的過程。在模擬環境與真實世界的實驗結果顯示,其效能可媲美前沿專有模型,同時對未見過的物體、新穎指令及長時程任務展現出強大的泛化能力。研究結果表明,設計良好的框架可作為具身操作的可擴展、模型無關介面,以極少量訓練數據,便能將強大的新興具身能力注入小型開源模型之中。
分數匹配與流匹配模型常依賴基於偏好的強化學習來達成兩個目的:一是與主觀偏好對齊,二是令人驚訝地恢復諸如視覺真實性與連貫物體結構等屬性——而這些本應是基於匹配的訓練從數據本身學習到的內容。我們認為,這反映了結構上的不匹配。匹配損失函數衡量的是在訓練時間邊際分佈下速度場或分數場的 ℓ₂ 迴歸誤差,這種代理指標與決定推理時樣本品質的視覺與語義屬性關聯薄弱。當獎勵與這些屬性對齊時,強化學習透過在模型自身樣本上進行評估並直接遵循獎勵地圖來繞過這種不匹配。關鍵挑戰在於獲取此類獎勵時,無需依賴人類偏好——這類方法不僅成本高昂,還將數據真實性與註釋者主觀傾向混為一談。 我們提出鑑別器引導強化學習(Discriminator-Guided RL, DRL)。DRL 訓練一個鑑別器,在預訓練表徵空間中區分數據與基線模型樣本,並將其 logit 值作為 KL 正則化強化學習的獎勵。預訓練空間將鑑別器限制在感知上有意義的方向上,而 logit 值估計了數據與模型之間的對數似然比,這正是針對數據分佈的最佳獎勵。在 SiT、JiT、REPA 及 RAE 等模型上,DRL 降低了無引導 FID(例如在 SiT 上從 9.38 降至 2.62)與語義空間 FD(例如在 SiT 上使用 DINOv3 從 88.2 降至 19.3),在所有骨幹模型上均展現一致的提升,並且在未經人類偏好獎勵訓練的情況下改善了該獎勵。此外,在後續基於偏好的微調中,DRL 在偏好獎勵與圖像保真度之間建立了更優的帕累托前緣,在提升對齊程度的同時減少了諸如過度飽和與過亮等低層次偽影。
强化学习(Reinforcement Learning, RL)已成为大语言模型(LLM)中代表性的后训练范式,能够赋予模型强大的推理与智能体能力。然而,展开生成(rollout generation)仍是主要的延迟瓶颈,原因在于自回归采样需要顺序解码响应,且少数长尾生成任务往往决定了完成时间。推测性解码(Speculative Decoding, SD)为此瓶颈提供了天然的解决方案——作为一种成熟的固定LLM服务技术,它通过快速生成候选token并利用并行验证接受这些token来降低延迟,同时保持目标模型的分布特性。然而,其实际加速效果无法直接迁移至RL展开场景,原因有二:(i)不断演化的目标策略会导致任何固定草稿模型与策略输出分布之间的失配日益加剧;(ii)展开解码过程中有效批处理规模逐渐缩小,使解码从计算密集型转向内存密集型,而并行验证恰好能利用未充分利用的计算资源。因此,加速RL展开既需要草稿模型在长序列、高温度的演化策略生成场景下保持有效性,也需要具备系统感知能力的SD使用方式以避免计算密集型阶段。我们提出EfficientRollout——一个面向RL展开的系统感知自推测性解码框架。该框架从目标模型中诱导出一个量化草稿模型(即自推测性解码),使其与演化策略保持耦合,无需独立的草稿模型预训练或在线适配。此外,它进一步协调了系统感知的SD开关策略与基于接受率的草稿长度自适应机制,仅在有利阶段启用推测性解码,并根据草稿模型质量的演化动态调整草稿预算。实验表明,相比加速后的自回归展开基线,EfficientRollout在保持最终模型质量的同时,可将展开延迟与端到端延迟分别降低高达19.6%和12.7%。
稀疏自編碼器(Sparse Autoencoders, SAEs)能將殘差流激活分解為可解釋的特徵。近期潛在空間防禦機制日益依賴此類分解,假設已識別的「不安全」SAE特徵可作為監控與干預的可操作處理點。在此範式中,預期壓制特定有害特徵能可靠防止模型失常行為。然而,我們證明此成功背後可能隱藏一種可恢復的失效模式:壓制操作可能阻斷通往某行為的可見路徑,卻未消除該行為本身。我們將此漏洞形式化為「干預後恢復」——一個受約束的殘差空間優化問題。從干預後的殘差狀態出發,我們優化殘差擾動,以恢復干預前的行為,同時保持目標SAE特徵在干預後的值。即使在強威脅模型(干預在優化與生成過程中持續生效)下,恢復依然可能。為排除恢復僅是撤銷干預的可能性,我們對單層干預採用編碼器正交更新,並在跨層情境中運用對應的特徵映射雅可比矩陣。在TPP、遺忘學習、IOI與拒絕引導等實驗中,此壓力測試揭示了即使成功達成特徵層級干預,行為仍可恢復。尤其在安全至關重要的拒絕引導設定中,我們在有效樣本上實現了95.8%的恢復率,同時將受防禦特徵的相對漂移控制在0.131,顯著低於基於後綴的基線方法。恢復路徑歸因分析進一步將此恢復定位至SAE重建殘差——即SAE未能解釋的成分。這些結果暴露了特徵層級控制與行為完整性之間的差距:SAE特徵能支援因果干預,但控制特徵不足以保證對底層行為的控制。
大型語言模型(LLM)訓練中的強化學習管線,往往依賴於從業者在不同階段之間手動重新設計環境,需要他們以啟發式方式推斷哪種配置最能改善當前策略。為了自動化這一流程,我們提出「LLM 作為環境工程師」框架,其中當前策略模型會分析失敗軌跡與背景資訊,並提出下一階段訓練環境配置的修改方案。我們還引入了 MAPF-FrozenLake,一個可控的測試平台,其生成器可揭露多維度的環境配置,使其非常適合用於研究與基準測試環境重新設計。在此測試平台上,我們讓環境工程師以策略行為、失敗案例與環境統計資料的結構化摘要為條件,從而生成下一訓練階段的配置。以 Qwen3-4B 為基礎模型,我們的框架在基準測試中取得了最強的整體表現,優於更大的專有 LLM(如 GPT、Gemini)以及固定環境的訓練基線。我們進一步分析了哪些形式的背景資訊最有效,發現成功的環境更新依賴於失敗證據,並保留已正常運作的配置。有趣的是,當前的 RL 檢查點比原始基礎模型更適合作為環境工程師,這表明策略學習提升了模型診斷其剩餘弱點的能力。
空間視覺語言模型在幾何感知方面取得了顯著進展,然而,涉及深度、距離與場景關係等多步驟推理的複雜空間推理任務仍然具有挑戰性。此外,不同類型的空間查詢需要截然不同的處理策略:有些問題最適合透過純粹的語言步驟演繹來解決,而另一些則需要在進行量化推理之前先進行明確的3D幾何定位。我們提出了一種基於強化學習的雙路徑空間推理框架(SR-REAL),該框架為空間視覺語言模型配備了兩種互補的推理路徑:純語言推理路徑(LOR),透過逐步的語言演繹進行推理;以及先檢測後推理路徑(DTR),該路徑先透過區域標記檢測3D幾何線索(例如中心點或邊界框),再進行明確的幾何推理。SR-REAL首先進行冷啟動監督式微調階段,構建LOR與DTR的思維鏈監督,並暴露區域到3D的介面,隨後利用強化學習,以準確性和格式獎勵優化策略模型;針對DTR,一個基於離散中心點的檢測獎勵進一步細化幾何對齊。在多個空間基準測試中,SR-REAL顯著優於空間視覺語言模型基線:(i)單一經過強化學習訓練的模型支援兩種推理路徑,其中DTR透過精確的3D定位在區域感知任務中表現出色,而LOR則增強了通用空間推理能力;(ii)聯合訓練兩條路徑能夠促進相互增強;(iii)高品質、混合的冷啟動數據對於穩定的強化學習優化至關重要;(iv)該模型無需針對每個任務進行調整即可跨數據集與領域泛化,展現了LOR與DTR之間的正向遷移。
圖形使用者介面(GUI)定位要求視覺語言模型(VLM)在高解析度螢幕截圖中識別微小目標元素,並預測精確的螢幕座標。同策略自蒸餾(OPSD)是一種有前景的後訓練方法,適用於這類座標敏感任務,因為它能提供超越硬座標標籤的密集 token 層級教師訊號。然而,單純的 OPSD 並不適合 GUI 定位:OPSD 會在學生生成的前綴上評估教師,而當該前綴已偏離目標座標時,座標 token 的教師訊號品質可能下降,導致不可靠的教師訊號。為緩解此問題,我們提出基於品質感知的自蒸餾方法,應用於 VLM 的 GUI 定位,透過軟性的正確性感知閘控與教師機率縮放來改善座標 token 的教師訊號品質。軟正確性感知閘控會檢查:在學生生成的前綴下,教師當前的座標 token 預測是否仍能完成為真實標籤框。若無法完成,則相應的教師訊號會被降低權重。接著,教師機率縮放利用教師的置信度作為輕量因子,進一步校準閘控監督的強度。關鍵的實驗發現是,單獨使用任一組件都無法提升整體效能,而兩者結合則能一致地改善表現。這表明兩個機制具有互補作用:正確性感知閘控抑制不可靠的座標 token 監督,而教師機率縮放則校準剩餘訊號的強度。在六個 GUI 定位基準上的實驗顯示,我們的方法能一致地提升基礎模型,並優於強基線方法。
长视频理解中的被动模型通常依赖“全量观看”范式,无论查询难度如何均统一处理所有帧,导致计算成本随视频时长增长。尽管交互式框架已出现,但它们往往依赖全局预扫描,其上下文成本仍与视频长度成正比。我们提出OmniAgent——首个原生全模态智能体,将视频理解建模为基于POMDP的迭代式“观察-思考-行动”循环。OmniAgent按需执行动作,选择性将视听线索提炼为持久文本记忆,从而有效解耦推理复杂度与原始视频时长。为实现这一目标,我们引入:(1)智能体监督微调,通过最佳轨迹合成及双阶段质量控制引导原生主动感知;(2)基于TAURA(回合感知自适应不确定性重缩放优势)的智能体强化学习,利用回合级熵引导信用分配聚焦于关键发现回合。关键在于,OmniAgent展现出正向测试时缩放特性——随着推理回合数增加,性能持续提升,验证了主动感知的有效性。在十个基准(如VideoMME、LVBench)上的实证结果表明,OmniAgent在开源模型中达到最先进性能。值得注意的是,在LVBench上,我们的7B智能体以50.5%对47.3%的成绩超越了规模大10倍的Qwen2.5-VL-72B。
基於可驗證獎勵的強化學習演算法(如GRPO)已成為大型語言模型在複雜推理任務中進行後訓練的主流方法,但此類方法在訓練過程中普遍面臨策略熵崩潰的問題。我們針對GRPO進行了逐詞層級的熵動態一階梯度分析,發現一個詞元層級的信用分配不匹配問題:每個詞元的熵變化可分解為軌跡層級優勢與下一個詞元分佈上熵敏感度函數的乘積,從而形成一個優勢-驚異四象限結構,並展現出近似臨界性質。受此啟發,我們提出了STARE(基於驚異引導的詞元層級優勢重新加權以穩定策略熵),該方法通過批次內部驚異分位數識別熵關鍵詞元子集,有選擇地重新加權其有效優勢,並引入目標熵閉環閘極以實現穩定的熵調節。在從1.5B到32B規模的多個模型,以及三個任務類別(短鏈式思考、長鏈式思考與多輪工具使用)中,STARE能在數千訓練步內維持穩定的強化學習訓練,同時將策略熵保持在目標區間內。在AIME24和AIME25上,STARE的平均準確率比DAPO及其他強基線高出4%至8%,且反思詞元與響應長度同步增長,表明其維持了探索與利用的平衡,進一步釋放了強化學習的訓練潛力。程式碼開源於 https://github.com/hp-luo/STARE。
擴散模型已成為自回歸模型之外一個極具前景的替代方案。其中,均勻擴散語言模型(UDLM)允許在任何步驟更新任何詞元,原則上能實現更靈活的生成。然而,目前尚無任何UDLM在大型參數規模與大量詞元預算下從頭進行預訓練。自回歸建模與遮罩擴散建模均已具備規模化且可供學術社群研究與借鑑的模型,但均勻擴散模型則無。從頭預訓練的大規模UDLM,能為研究擴展行為、生成動態、可控性,以及與既有自回歸與遮罩擴散模型之間的權衡取捨,提供清晰的參考基準。為此,我們提出Sumi(日語意為「墨」),這是一個完全開源的7B參數均勻擴散語言模型,從頭在1.5T詞元上進行預訓練。在知識、推理與程式碼基準測試中,Sumi的表現與在相當詞元預算下訓練的自回歸模型相比毫不遜色,但在常識基準測試上表現較弱,而我們以教育為主的資料混合策略很可能是影響因素之一。我們公開了模型權重、檢查點以及完整的訓練配方,包括公開語料庫資料混合的完整規格。我們希望此釋出能讓學術社群得以研究大規模原生均勻擴散模型,並催化對其至今仍理解不足的面向進行深入探討。
隨著全球多數影音內容在社交平台上以互動社交為目的被消費,專為社交世界設計的影片生成模型雖然重要,卻在過去研究中普遍被忽略。本研究定義了社交世界模型的定位,並建立原型模型作為邁向此目標的第一步。過往的世界模型成功模擬物理環境或遊戲世界的探索,但本質上仍與以人類為核心的社交動態脫節。為填補此差距,我們提出MaineCoon——首個即時音視自回歸模型,擁有220億參數,具備即時串流生成與次秒級互動能力,並在單一GPU上創下高達47.5 FPS的破紀錄幀率。據我們所知,MaineCoon也是首個專為社交互動應用優化的即時音視生成模型。為實現高效穩定的訓練,我們在MaineCoon中引入多項新技術,包括自我重採樣、跨模態表徵對齊、領域感知偏好優化,以及強化在線策略蒸餾(ROPD)。我們亦設計首個代理式串流推理框架,支援千秒級甚至更長生成,並透過代理快取管理與提示規劃來緩解漂移。這些創新顯著加速訓練,同時優化即時推理效能。我們相信,本研究不僅為高品質、低延遲、長時域的音視自回歸模型設立了新的最佳效能基準,更指出了下一代AI原生社交平台所需的典範轉移方向。
多文化多智能体系统越来越多地被部署于全球多样化的场景中,其中不同智能体植根于各异的文化背景。现有文化评估聚焦于价值对齐:衡量单个智能体与目标文化匹配的紧密程度。然而,对齐是单个智能体的属性,无法揭示系统作为一个整体是否保留了其理应代表的文化多元性。我们提出将价值多样性作为多文化智能体系统的一个系统级评估维度,其定义基于不同文化背景的智能体在共享价值调查中的回答差异。利用世界价值观调查,我们评估了19种文化与18种基础模型在多种系统配置下的表现。研究发现,多样性与对齐性在很大程度上不相关,表明两者捕捉的是互补的系统属性,且当前多文化智能体系统在价值多样性上显著低于人类社会。混合骨干模型虽缩小了这一差距,但未能完全消除,该差距在不同文化构成与智能体规模下持续存在。社会互动进一步削弱了多样性,驱使智能体走向共识,而参与式预算案例研究表明,这种同质化缩小了集体决策的广度。综上,我们的研究将价值多样性确立为多文化多智能体系统的一个独立评估维度,并揭示了当前基于大语言模型的社会中持续存在的同质化趋势。我们的代码与数据已公开在 https://github.com/iNLP-Lab/MultiAgent-Diversity。
語言模型代理在諸如軟體工程和客戶服務等孤立的短期任務上正變得越來越擅長執行。然而,現實世界的挑戰需要結合多種複雜技能,而這些技能在代理身上大多尚未經過考驗:(1) 在不確定性中導航長期時間跨度;(2) 在嘈雜的環境中獲取資訊;(3) 適應不斷變化的世界;(4) 協調多個動態部分以達成連貫目標。我們推出了CEO-Bench,透過模擬一個具代表性的現實任務——經營一家初創公司500天——來共同評估這些能力。代理透過可程式的Python介面管理一家虛構公司的定價、行銷、預算及其他許多方面,與人類CEO在相同的環境中運作,並面臨相同的挑戰。成功需要分析嘈雜且相互關聯的商業數據庫,將訊號轉化為穩健的策略,並透過程式設計協調眾多決策。最強的代理會編寫複雜的程式碼,模擬客戶群體以預測未來現金流,並挖掘談判歷史以發現隱藏的客戶偏好。即便如此,大多數最先進的模型在這種環境中仍難以應對。只有Claude Opus 4.8和GPT-5.5在超過100萬美元的起始資金後完成任務,且兩者都未能持續獲利。CEO-Bench朝衡量驅動持續、適應性進步所需的智慧邁出了第一步。
视觉Transformer(ViT)已成为视觉表征学习的主流架构,能够提供极其强大且广泛可复用的骨干网络特征。然而,由于全局自注意力的二次计算开销,ViT通常在相对较小的图块-标记网格上运行,这为语义分割、深度估计等密集预测任务带来了持续的性能瓶颈。这一局限催生了与任务无关的特征上采样方法。尽管近期最先进的方法能生成视觉清晰的密集表征,但其依赖浅层图像编码器进行引导上采样,可能导致特征泄露、碎片化和模糊化问题。本文提出ViT-Up——一种隐式特征上采样框架,通过从ViT中间隐藏状态逐层构建查询向量,替代外部图像引导。该方法可在任意连续图像坐标上预测特征,同时保持与骨干特征空间的对齐。实验表明,在密集预测和语义对应任务中,ViT-Up始终优于最先进的图像引导上采样器。在DINOv3-S+骨干网络上,ViT-Up在Cityscapes数据集上mIoU提升高达+2.07,在SPair-71k数据集上PCK@0.10提升达+4.17。当采用更大的DINOv3-B骨干网络时,这些增益分别扩大至+3.36 mIoU和+8.09 PCK@0.10,证明ViT-Up的性能提升与骨干网络容量呈正相关。
世界基礎模型(WFMs)是強大的模擬器,但它們主要運行於單視角設定中,缺乏機器人操作所需的多視角3D一致性。儘管機器人系統依賴多個攝影機(自我中心視角、眼對手視角及腕裝攝影機)進行策略學習,現有的多視角世界模型僅將視角標記直接串接,缺乏明確的幾何推理。這導致跨視角物體漂移、深度不一致性以及紋理錯位。我們將這些問題歸因於兩項缺陷:缺乏明確的跨視角通訊機制,以及缺少3D幾何先驗。我們認為同時解決這兩項缺陷是必要且充分的。為此,我們提出PAIWorld,這是一個透過三大核心組件來增強擴散變壓器世界模型的框架:(1) 幾何感知跨視角注意力區塊,建立視角間的明確傳遞路徑;(2) 幾何旋轉位置編碼,將攝影機光線方向與外部姿態編碼至注意力機制中;(3) 潛在3D-REPA,從凍結的3D基礎模型中萃取3D感知特徵,以確保3D一致性。PAIWorld基於DiT式世界基礎模型,在機器人操作基準測試中達到了最先進的多視角3D一致性,於WorldArena排行榜上排名第一,在AgiBot-Challenge2026排行榜上排名第二,同時支援模型為基礎的規劃、世界行動模型及多視角策略後訓練等下游應用。
前沿科學推理仍是大型語言模型(LLMs)的一大挑戰,即便最強大的商業系統也未能達到專家級表現。仔細觀察模型行為後會發現,單一模型評估所掩蓋的顯著互補性:不同前沿模型擅長不同問題類型,沒有任何單一模型能掌握全貌。我們提出 SciOrch 框架,訓練一個輕量級 8B 模型來協調前沿 LLMs 進行科學推理。該協調器將問題拆解,透過 API 呼叫將子問題委派給選定商業模型,並整合出最終答案。訓練這類協調器本質上比傳統的智能體強化學習更困難:每個動作都會觸發一次 API 呼叫,既耗費金錢成本又增加延遲,使得標準的在線推廣不可行。我們採用基於 MCTS 的方法來解決此問題,生成多樣化的協調軌跡、提取每個節點的單輪樣本,並以 GRPO 風格的訓練來最佳化協調器。在涵蓋 SGI-Reasoning 與 Scientists' First Exam 的 240 題測試集上,SciOrch 達到平均 56.66% 的準確率,超越最強單一商業模型 3.74%,並超越最強多智能體基線 3.33%。它在 SGI 與 SFE 上也取得最佳準確率,且 API 成本不到典型多智能體方法的一半。
多輪工具使用強化學習遇到了瓶頸,因為靜態數據集中具有資訊量的樣本快速耗盡。我們觀察到,GRPO中的梯度訊號集中在具有最高展開獎勵變異數的任務上,這是Popoviciu上界的結果。因此,接近智能體能力邊界(即成功與失敗大致平衡之處)的樣本會貢獻不成比例的大策略梯度。隨著訓練的進行,這個邊界不斷移動,逐漸耗盡靜態數據集中具有資訊量的樣本池。我們提出RODS(獎勵驅動的線上數據合成)來解決這種耗盡問題。RODS通過將進度獎勵變異數重新用作一個實用、零成本的邊界檢測器(不需要進行訓練已計算的展開之外的額外推論),來閉合RL訓練與數據生成之間的反饋迴路。它持續識別此類邊界樣本,通過技能對齊的重採樣管線合成與其結構複雜度(例如API拓撲結構和依賴深度)匹配的新多輪變體,並管理一個與策略共同進化的動態重播緩衝區。從400個人類種子樣本出發,並維持約800個樣本的活躍訓練池,RODS在需要大約少20倍軌跡的情況下,達到了與17K樣本離線管線相當的性能,並且在我們受控的設定中優於固定數據的RL和環境增強方法。
离线强化学习通常在过程级奖励监督下进行分析,然而许多序列决策数据集仅记录轨迹级结果。我们针对这种结果级监督下的离线策略优化发展了一套统计理论。首先研究一个典型设定:目标仍是期望累积奖励,但每条离线轨迹仅提供一个标量标签,其条件均值等于累积回报。我们提出OPAC算法,一种悲观演员-评论家算法,该算法学习一个潜在奖励模型,并从轨迹级标签中优化策略。我们证明了高阶概率保证为\(\widetilde{O}\left(\frac{H^2 C_{sa(\pi^\star)}}{n}\right)\),并给出了匹配的下界,刻画了用一条轨迹级标签替代过程级奖励所带来的尖锐统计代价。随后将该原理扩展到基于偏好的反馈,在偏好模型常数范围内保持领先的时域步长和可集中性依赖。最后,我们研究广义基于结果的离线强化学习,其中监督和目标均为由潜在每步奖励的非线性聚合产生的轨迹级量。该问题通常不可学习:对于全成功目标,即使具有确定性转移和恒定可集中性,任何离线学习器都可能需要\(\Omega(2^H)\)条轨迹。接着,我们通过两个结构系数\(\kappa_\mu(\sigma)\)和\(\chi_\mu(\sigma)\)识别出一个可处理区域,这两个系数捕获了结果聚合中的信息损失和广义贝尔曼更新,在此条件下广义OPAC实现了多项式样本复杂度。综上所述,我们的结果刻画了何时结果级监督能够实现样本高效的离线控制,以及何时缺失过程级奖励会形成根本性的统计障碍。
在交互环境中學習模擬人類使用者,可推動代理助手的訓練、個人化系統的評估、社會科學研究等更多領域的發展。現有方法通常透過訓練大型語言模型(LLM)來比對單一真實回應,方式包括最大化對數概率或使用相似度獎勵。相反地,我們提出{Turing-RL}:一種基於圖靈測試的強化學習方法,用於訓練使用者模擬器模型。{Turing-RL}利用具有LLM裁判的區分性圖靈獎勵,根據使用者的歷史記錄,對生成回應與真實使用者回應的不可區分程度進行評分;使用者模擬器LLM則學習在該獎勵下產生與使用者可能陳述難以區分的回應。在對話聊天與Reddit論壇討論這兩個不同領域中,我們發現{Turing-RL}在LLM評估與人類評估指標上,皆持續優於基線方法。我們的研究表明,相較於回應比對,最佳化不可區分性對於學習使用者模擬器更為有效。
視頻生成模型(VGMs)已成為一個新的前沿領域,不僅可用於影片生成,還能應用於包括世界建模在內的多種下游任務。為了推動這些任務的發展,一個優秀的影片模型必須理解世界的物理真實性。評估這種理解能力是一個新興領域,並催生了Physics-IQ基準測試——該基準通過將模型生成的影片與物理實驗的真實影片進行比較,明確量化這種理解。在這項工作中,我們對Physics-IQ基準進行了系統性審查,揭示了其不足之處,並提出了三項解決方案,以強化我們測量VGMs物理理解能力的方式。具體而言,我們改善了提示(prompt)和真實標註(ground-truth)的品質,以減少混淆因素的影響,並進一步引入了一套樣本級評分系統,對每個樣本和指標賦予平等權重。由此產生的新基準——Physics-IQ Verified——對所有樣本中的57.6%進行了優化,並改進了超過34.8%的提示。在對六個圖像到影片生成模型進行的比較研究中,我們觀察到適度但具意義的排名變化(Kendall's τ = 0.46)。我們希望Physics-IQ Verified能透過提供更可靠的訊號,推動社群朝向物理精確的VGMs邁進。該基準的程式碼可於 https://github.com/google-deepmind/physics-iq-benchmark 取得。
AI系統能逐漸自動化科學工作流程,但連結先前證據、生成想法、實驗與最終主張的推論過程,往往仍隱含於模型內部推論中。我們在此介紹 Xcientist,這是一個研究框架,能將研究綜合與實驗驗證外化為可檢視、由合約規範的流程。Xcientist 將文獻證據、想法狀態、實作方案、消融記錄與修復軌跡組織為持久的研究產出,使生成的機制能被奠基、執行、測試與修正,且不喪失其證據基礎。我們將「主張漂移」識別為自動化研究中的一種失敗模式,即可運行的產出不再支持最初宣稱的機制。在無訓練記憶系統、圖結構交通預測與多尺度物理資訊神經網路等領域中,Xcientist 保留了從問題制定到機制設計、驗證與有限度修正的可追溯軌跡。這些結果顯示,評估 AI 科學家時不應僅依據最終產出,也應檢視其綜合與驗證過程是否可歸因、可檢視且具科學問責性。
測試時透過序列修正進行規模擴展,已成為增強大型語言模型推理能力的強大範式。然而,標準的訓練後方法主要優化一次性目標,這與多步推理動態產生了根本性的不對齊。雖然近期研究將其視為多輪強化學習,但傳統方法直接優化多步驟軌跡,未能進一步利用模型可從中學習修正的高品質中間步驟錯誤。我們提出一個兩階段迭代框架,在線上數據/提示增強與策略優化之間交替進行。通過將成功恢復軌跡中的中間步驟(「接近正確」的答案)轉換為解耦合的修正與驗證提示,我們的方法專注於同時訓練有效的答案轉換與錯誤識別。此方法能實現高效的離策略數據生成,並相較於標準多輪強化學習,減少了長時域採樣的計算開銷。在LiveCodeBench上,使用公開測試用例作為反饋,我們觀察到相較於強化學習基線提升+6.5分,相較於標準多輪訓練提升+4.0分。除程式碼領域外,我們的方法在圓形排列問題上達到了先前報告的SOTA結果,同時使用最小的基礎模型(4B)且滾動次數遠少於大得多的演化搜尋系統。在真實驗證下的數學結果進一步證實了修正能力的提升。該方法也能泛化至分佈外的約束滿足難題,如n皇后與迷你數獨,其正確性完全由問題約束定義。程式碼已公開於https://github.com/yxliu02/REVES.git。
目前用於電腦操作代理的基準測試是在非個人化的環境中評估模型。這導致評估與實際部署之間存在差距,因為個人助手預期要在用戶的完整數位生活中運作,包括其情境、歷史資料以及已登入的帳戶。此差距在網頁任務上最為顯著,因為即時網頁評估無法操作需要登入或個人資訊的網站,而這正是真正的個人助手必須操作的網站類型。我們介紹了 MyPCBench,此基準測試在一個 Linux 桌面上測試作為個人助手的電腦操作代理,該桌面搭載了 17 個模擬的真實網頁應用程式與完整的桌面系統,並皆以一個典範人物設定(《辦公室》中的麥可·史考特)作為基礎。我們在此環境中定義了 184 個任務,每個任務的靈感皆來自 OpenClaw 社群的真實請求,並以統一的電腦加 Bash 工具介面,對六個封閉和開放權重模型進行基準測試。我們發現最佳模型 Claude Opus 4.6 能完全解決 55.4% 的任務,是唯一超過 50% 的模型。模型的失敗主要集中在跨越多個應用程式的任務以及冗長的操作軌跡上,在這些情況中,個人化對助手造成的壓力最大。我們在 https://mypcbench.com 發布了此環境、任務集與代理框架。
一個有用的手機代理人需要具備個人化智慧。它應該根據裝置上存在的使用者身分、歷史記錄和偏好進行推理,而不僅僅是在非個人化的沙箱中遵循孤立的指令。現有的行動代理人基準測試缺乏這種個人化。我們引入了 iOSWorld,這是第一個基於持續使用者身分建構的互動式原生 iOS 模擬器基準測試,涵蓋 26 個新開發的 iOS 應用程式。這些應用程式包含相互關聯的數據,例如交易、訊息、旅行記錄、社交關係和財務活動。iOSWorld 包含 133 個任務,分為三個難度遞增的類別。單一應用程式任務(27 個)測試一個應用程式,多應用程式任務(60 個)涵蓋 2 到 8 個應用程式,而記憶與個人化任務(46 個)則要求代理人從個人數據中推斷模式。我們在純視覺和特權視覺+XML 設定下評估前沿和開源的電腦使用模型。最佳配置的整體正確率達到 52%,但在多應用程式任務上僅有 37%。特權視覺+XML 存取將前沿模型提升了最多 26 個百分點,而較小的模型並未從新增的無障礙樹輸入中受益。我們將 iOSWorld 作為開源基準測試發布,包含所有應用程式、種子數據、任務、評分標準和評估程式碼。
閥門、斷路器等工業產品,由涵蓋採購、相容性與供應鏈安全等層面的密集技術規格所定義。這些規格散落在規格表、銘牌與技術圖紙等多種異質產品圖像中,然而多模態大型語言模型能否可靠地從中恢復資訊,仍屬未充分探討的範疇。為填補此缺口,我們提出 IndustryBench-MIPU,首個針對多圖像工業產品理解的大規模基準,其核心為結構化屬性抽取——從產品圖像中還原屬性-值對。此任務同時要求對規格表與銘牌進行文字辨識、對技術圖紙進行視覺推理、運用領域知識解碼工業術語,以及跨圖像證據整合以彙整分散的規格。具體而言,該基準涵蓋 18 個工業類別、4,559 項產品、27,652 張圖像及 103,703 筆註釋,透過多模型共識與三層品質保證建構而成。我們在單圖像與產品級多圖像設定下評估九個 MLLM,赫然發現完整性缺口:模型達到高精準度(86–94%),但最佳結果僅恢復 49.9% 的產品級屬性;從單圖像切換至多圖像抽取,召回率下降 15–34 個百分點。核心瓶頸在於多圖像完整性,而非單圖像準確度。資料集與程式碼已公開。
我們證明了 Transformer 隱藏狀態的標準基已提供一種無需訓練、架構通用的特徵基。每個維度透過其正負號(+/-1)編碼語義內容,透過其大小編碼置信度,作為獨立的二元暫存器運作;特徵是具備一致符號模式的維度子集,透過統計符號一致數進行讀取,無需學習旋轉。我們在七個模型上驗證了這個「維度袋」(Bag of Dims)架構,涵蓋語言模型(Qwen 3.5-4B、Gemma 3-4B、Mistral 7B、Qwen3-32B)、視覺模型(DINOv2、ViT-Base)以及音訊模型(AST)。 僅符號本身即承載預測性內容:單位大小的符號模式經由語言模型輸出層保留 60-93% 的前五個下一個 token 預測準確率,而無需解碼器的漢明評分可達前 4096 個中 80-90% 的準確率。藉由單一 token 快取(每個 token 僅一次前向傳播,無上下文、無標籤),我們透過符號一致檢測到 175 個類別,AUC 達 0.97-0.99;訓練過的探測器僅增加 +0.018 AUC,並收斂至軸對齊的權重。這些特徵具有因果作用:它們在 K/V 注意力投影後仍然存在,可追溯至寫入它們的 FFN 神經元聯盟(隨機權重對照從未複現此現象),且在即時前向傳播過程中翻轉某特徵的符號會抑制其概念,此現象在四個語言模型上均經大小匹配與概念特異性驗證。各維度在過程中保持獨立(成對互訊息低於 0.006 位元)。 此結構並非語言特有:相同的逐維度符號模式出現在自監督視覺模型(DINOv2,9/12 個 ImageNet 超類)、監督式視覺模型(ViT-Base,11/12 個)以及音訊模型(AST,50/50 個 ESC-50 類別)中。因此,它反映的是 Transformer 訓練的普遍特性,而非語言建模目標。標準基已足以在一次前向傳播中讀取特徵,無需最佳化,無需 GPU 日。開放問題從尋找正確的旋轉,轉變為編目每個維度所編碼的內容。
創意影像編輯工具(如 Photoshop 的「移除」或「生成填色」按鈕)是日常使用者核心功能,並佔據 Photoshop 與 Lightroom 主要流量。然而,當前的生成式 AI 模型面臨顯著的延遲挑戰,尤其在從以卷積為基礎的 U-Net 過渡到擴散變壓器(DiT)時更加明顯。在我們針對數百個代表性影像編輯樣本(涵蓋多種遮罩比例)的評估中,即使將 DiT 模組從 50 個時間步長蒸餾至 8 個時間步長,該模組仍平均佔總模型延遲的 73%。為解決此挑戰,我們提出 HiLo-Token,一種輸入自適應的令牌壓縮框架:將更多令牌預算分配給高頻、富含語境的區域,同時對低頻區域分配較少令牌。具體而言,針對使用者遮罩指定的編輯區域,我們保留擴張遮罩內的所有令牌,以維持強烈的局部性與上下文相關性。在編輯區域之外,我們引入一種基於空間頻率的簡單有效的高頻令牌選擇策略,以捕捉重要的局部細節,同時使用來自 16 倍降採樣影像的令牌來表示低頻成分,保留模糊但整體的結構。在生產級評估資料上的大量實驗驗證了所提方法的有效性:在 A100-80GB 上,針對小、中、大三種遮罩比例類別的影像編輯任務(平均遮罩比例分別為 6.38%、15.92% 與 35.36%),分別實現了 3.13 倍、2.59 倍與 1.67 倍的 DiT 加速,且生成品質無任何衰退。
本策略自蒸餾(OPSD)透過讓模型在其自身生成的軌跡上進行訓練,並使用凍結的複本提供以參考目標為條件的密集詞元級目標。此方法在大型語言模型的推理任務中表現良好,但直接延伸至多模態大型語言模型(MLLMs)可能產生捷徑:具備特權的目標可能主要根據文字參考目標而非圖像來引導詞元。為此,我們提出ViGOS——一個基於視覺引導的OPSD框架,用於MLLM的後訓練階段。學生模型首先撰寫視覺描述,再據此推理出最終答案。對於有效的軌跡,由純圖像感知教師監督描述部分,而具備特權的推理教師則在同一學生前綴上監督推理過程與最終答案。僅針對無效軌跡使用參考教師來恢復輸出格式。在通用視覺語言、專家推理、視覺數學、空間定位及視覺語言先驗基準測試中,ViGOS保留了OPSD的主要優勢,並在易產生捷徑的情境中改善了基於圖像的行為表現。
土耳其语是一种黏着语:其意义由词素承载,然而驱动现代语言模型的子词分词器却依据语料统计信息拆分单词,导致承载语义的后缀被碎片化——在WordPiece和基于规则的分析器中,甚至无法将输出还原为原始文本。本文提出Morpheus,一种面向土耳其语的神经词素边界模型,它同时具备无损、形态感知的分词器与词嵌入生成器的功能。一个可微的泊松二项动态规划机制在训练时将每个字符的边界概率转化为软词素隶属度,在推理时生成精确的分段,且无需任何字符串归一化处理,从而在构造上保证decode(encode(w)) = w成立。由于模型是神经网络的,同一前向传播过程既能完成分词,又能输出结构化词嵌入。在可逆分词器(唯一适用于文本生成的类型)中,Morpheus取得了最低的每字符位数(1.425),其形态对齐效果约为子词家族的同类模型的两倍(MorphScore宏F1值为0.61,而后者约为0.32),并且GPU内存使用量比64K词汇量的子词分词器低约19%。作为嵌入器,冻结的Morpheus向量在词汇检索(root-family MAP 0.85)和同根验证(ROC-AUC 1.00)任务上表现领先,超越了多语言检索器BGE-M3和BERTurk;而在依赖上下文和屈折变化的任务(NER、格/数探测)中,更重的上下文编码器依然保持优势——我们将这一权衡归因于Morpheus以词根为中心的几何结构。代码:https://github.com/lonewolf-rd/TurkishMorpheus;模型:https://huggingface.co/lonewolflab/Morpheus-TR-50K;交互式演示:https://huggingface.co/spaces/lonewolflab/morpheus-tr-demo。
儘管興趣日增,目前對大型語言模型(LLMs)個性化能力的大多數評估仍依賴合成數據。現有個性化系統對真實使用者的成效仍不明確。本文探討LLM在使用合成數據與人類數據時,在個性化表現上的差距。我們收集了人類對話(550段對話)及三個個性化階段的判斷:從對話中提取使用者屬性(5,949項判斷)、將相關屬性配對至新提示(11,919項)、以及將相關屬性納入個性化回應(1,101項)。納入人類數據後,揭示了系統在各階段的局限性。模型難以從人類對話中提取屬性,與人類對相關屬性的判斷不一致,且產生的個性化回應被人類評定為不比通用回應更好(儘管LLM自身廣泛評定為更佳)。我們引入兩種輕量級基於訓練的干預措施,在我們的前兩個階段中將自動化個性化評估更貼近人類數據。然而,在第三階段我們發現,學習到的獎勵模型與人類評分的相關性僅為中等,這表明與人類對齊的個性化品質判斷難以直接建模。我們收集的數據為研究模型應如何以人類認為有用的方式提取、選擇並納入使用者資訊提供了基礎。
预测性代码补全大幅提升开发人员的工作速度。然而,在电子表格这种更为常见的场景中,此类自动补全功能几乎不存在。为填补这一空白,我们引入了一套基准测试,用于评估那些能观察电子表格中用户操作序列并预测后续操作的系统。两大挑战在于:(1) 公开电子表格语料库中缺乏编辑历史记录;(2) 电子表格操作(空间、时间、复合操作)的复杂空间。针对挑战(1),我们手动整理出52个操作序列(共1.2万次操作),通过参数化启发式算法与大语言模型优化,从公开语料库中重建电子表格。针对挑战(2),我们提出一种在线评估方法:在每次用户操作后生成预测,接受或拒绝该预测,若接受则更新后续操作序列,重复此过程直至获得目标电子表格。我们使用多种基线预测模型(包括零样本大语言模型、微调小型语言模型和经典模型),并分析了本基准测试揭示的关键特性,涵盖(但不限于):保存操作与误报的特性、效率、用户画像影响、触发条件影响及上下文影响等。
機器人系統透過多種輸入模態(包括視覺相機串流與自然語言指令)感知世界,並必須根據這些訊號選擇合適的行動。然而,假設所有輸入裝置永久可用是不切實際的,因為感測器在部署過程中可能故障、被遮蔽或完全失效。因此,對於真實世界的機器人操作而言,穩健處理此類缺失模態情境至關重要。本文提出RL4IL,一種強化學習引導的模仿學習方法,透過從訓練庫中識別最相關的專家示範,為給定觀測選擇最合適的行動。一個經由在廣度優先搜索候選集上進行近端策略優化訓練的強化學習策略,對候選示範進行排序,並由一個軟性交叉注意力融合頭匯總其行動訊號以產生最終預測。當某個模態在推論時缺失,一個專屬於該模態的強化學習檢索策略會從訓練庫中識別捐贈示範,並由一個軟性插補頭透過對排名最高的捐贈者進行交叉注意力來重建缺失的嵌入,且無需對系統進行任何重新訓練。在三組LIBERO基準測試套件上的實驗表明,RL4IL在感測器失效條件下顯著優於最先進的模仿學習方法,且無需進行策略網路訓練。程式碼可在 https://github.com/h-ismkhan/Reinforcement-Learning-via-kNN-for-Robotic-Learning-with-Missing-Camera 取得。
網路資料分析功能(NWDAF)是實現第五代(5G)網路零接觸網路管理的核心,透過支援即時分析與閉環自動化達成此目標。儘管其角色關鍵,但開源NWDAF實作在範圍與可及性上仍有限。在本論文中,我們開發了一套與開源核心網路Free5GC相容的開源NWDAF,該功能透過訂閱網路功能(NFs)收集網路資料,並整合大語言模型(LLM)介面,使人類操作員得以透過自然語言進行互動。該介面處理使用者意圖,利用語義嵌入模型進行編碼,並將其映射至七個預定義意圖類別之一,以觸發分析查詢或事件訂閱指令。此架構抽象化傳統介面的複雜性,使非專家使用者能輕鬆管理網路分析與訂閱。系統支援存取與移動性管理功能(AMF)及會話管理功能(SMF)的事件訂閱、即時監控,並可透過Prometheus擷取分析數據,所有功能皆可透過對話式介面存取。透過將AI驅動的意圖識別與標準化網路分析結合,我們的實作提升了操作員的可用性,並為邁向AI原生6G網路奠定基礎。本研究所產生的原始碼與資料集已存放於GitHub儲存庫:https://github.com/HenokDanielbfg/testbed。