每日精選AI研究論文及翻譯
現代開放世界智能體(如 OpenClaw)展現出強大的跨環境執行能力,但也引入了廣泛的新型安全風險來源。同時,先進的前沿 AI 模型大幅降低了攻擊門檻,使得現有的智能體對齊框架無法滿足實際部署需求。為應對這些新興威脅,我們提出了一種輕量級且可擴展的智能體安全對齊框架。具體而言,我們更新了智能體安全分類法,以涵蓋來自 Codex 和 OpenClaw 執行場景的新興風險。我們進一步構建了基於分類法引導的數據引擎,結合影響函數淨化技術,僅使用約 1000 個樣本訓練出輕量級的 AgentDoG 1.5 變體(參數量為 0.8B、2B、4B 和 8B),其性能可與頂級閉源模型(如 GPT-5.4)相媲美。基於 AgentDoG 1.5,我們構建了一套高效的智能體安全監督微調(SFT)和強化學習(RL)訓練環境,將 Docker 級環境中的部署開銷降低了兩個數量級。最後,我們將 AgentDoG 1.5 部署為無需訓練的在線防護欄,用於實時安全審核。大量實驗結果表明,AgentDoG 1.5 在多元且複雜的交互式智能體場景中達到了最先進的性能。所有模型與數據集均已開源釋出。
具身智能常通过针对特定任务(如操作或导航)的专业模型进行研究,导致能力碎片化,且在不同任务、环境及机器人本体之间的泛化能力有限。本研究中,我们探讨是否可以将异构的具身决策问题统一到单一的视觉-语言-动作模型中。我们提出Qwen-VLA,这是一个统一的具身基础模型,它将Qwen的视觉-语言建模栈从感知、理解和推理扩展至连续动作与轨迹生成,其核心是基于DiT的动作解码器。Qwen-VLA通过大规模联合预训练方法,在多样化的数据源上进行训练,包括机器人操作轨迹、人类第一人称示范、合成仿真数据、视觉与语言导航数据、轨迹中心监督数据以及辅助视觉-语言数据。为支持多种机器人平台,我们引入了具身感知提示条件,其中机器人特定的文本描述指定了当前本体及其控制约定。我们进一步将操作、导航和轨迹预测统一到动作与轨迹预测框架中,从而使视觉定位、空间推理和连续动作生成能够在不同机器人形态、任务族和环境之间实现可迁移。在操作、导航和轨迹中心基准上的实验表明,该模型在场景布局、背景、光照、物体配置和机器人本体变化下,具备一致的多任务性能和分布外泛化能力。Qwen-VLA-Instruct在LIBERO上达到97.9%,在Simpler-WidowX上达到73.7%,在RoboTwin-Easy/Hard上分别达到86.1%/87.2%,在R2R上OSR为69.0%,在RxR上SR为59.6%,在真实世界ALOHA实验中平均OOD成功率为76.9%,以及在DOMINO动态操作上的零样本成功率为26.6%。
现实世界中的信息需求需要访问结构多样的知识源,从非结构化文本、关系型表格到知识图谱和属性图。然而,现有的检索器一次只能基于固定的查询语言操作单一知识源,导致可用知识的广阔版图因不兼容的接口而支离破碎。将所有这些知识源统一到一个共享空间看似可行,但这会抹去每种知识源的结构效能(如模式、本体、组合运算符),而这些正是赋予它们表达力的关键。因此,高效检索多样化知识并非要求同质化,而是需要一个涵盖各知识源、并能按其自身逻辑与之对接的顶层框架。为此,我们提出了OmniRetrieval——一种框架,它能够接受任意自然语言查询,识别合适的知识源,并将原生查询派发至相应的执行引擎。在涵盖13个数据集、309个不同知识库(涵盖文本、关系型和图结构知识源)的广泛基准测试中,OmniRetrieval超越了单知识源基线方法的性能,表明它能够作为异构知识源的通用接口,同时保留每种知识源宝贵结构差异。
自訂化圖像編輯旨在利用有限配對資料,為預訓練擴散模型配備特定視覺效果,通常透過低秩適應(LoRA)實現。隨著所需效果數量增加,儲存與動態載入大量效果LoRA將顯著提升部署成本。此外,現有管線通常將此類效果LoRA與加速模組串聯以實現快速生成,這會引發嚴重的參數干擾,導致概念混疊與風格退化。我們提出CollectionLoRA——一個多教師同策略蒸餾框架,能將多達50種不同效果LoRA的概念及少步生成能力蒸餾至單一LoRA中,從根本上解決特徵干擾問題,並大幅降低部署成本。具體而言,該方法引入:(i) 機率雙流路由機制,使模型在訓練時能隨機切換資料來源,有效增強對未見場景的泛化能力;(ii) 非對稱正交提示策略,在提示空間中實現概念隔離;(iii) 由粗到細的蒸餾目標,以縮小教師與學生模型間的分佈差距。大量評估表明,CollectionLoRA能將所有自訂效果與少步生成蒸餾至單一LoRA中,在降低部署成本的同時,達成與獨立訓練教師模型相當甚至更優的概念保真度。
近期,视频扩散基础模型在高质量视频生成方面取得了显著进展,但将其转化为实时交互式视频世界模型仍具挑战性。交互式世界模型需要可控、具有因果性且低延迟的滚动生成,这在实践中要求一个完整的数据构建、可控微调、自回归训练、少步蒸馏与流式推理的全流程。本文提出 minWM,一个用于构建实时交互式视频世界模型的全栈开源框架。minWM 提供了端到端流程,将现有的双向 T2V/TI2V 视频基础模型转化为相机可控的少步自回归世界模型。具体而言,minWM 首先以相机控制微调双向视频扩散模型,然后应用 Causal Forcing / Causal Forcing++ 流程(包括 AR 扩散训练、因果 ODE 或因果一致性蒸馏、以及非对称 DMD),将其蒸馏为低延迟滚动的少步自回归生成器。该框架模块化且架构可扩展:我们在代表性开源主干模型(包括 Wan2.1-T2V-1.3B 和 HY1.5-TI2V-8B)上进行了实例化,覆盖了基于交叉注意力的条件注入和 MMDiT 风格架构。minWM 还支持将现有视频世界模型(如 HY-WorldPlay)适配到新的数据分布、训练方法和延迟目标。除了发布可运行的脚本、检查点、文档和推理代码外,我们还提供了关于相机轨迹质量、可控性训练步骤及最小批次需求的实用消融实验。我们希望 minWM 能够作为构建和适配实时交互式视频世界模型的可复现与可扩展的配方。项目页面:[https://github.com/shengshu-ai/minWM](https://github.com/shengshu-ai/minWM)
隨著影片擴散模型(VDMs)逐步邁向世界模型,一個關鍵問題隨之浮現:它們是否真正理解因果關係,抑或僅僅是過度擬合了統計上的時間模式?現有的基準測試多仰賴合成數據,因模擬到現實的鴻溝(sim-to-real gap),限制了其在真實世界中的泛化能力。我們提出YoCausal,這是一個借鑑認知科學中「預期違背」(Violation of Expectation, VoE)範式的雙層級基準測試。透過零成本地將真實世界影片進行時間反轉,作為自然的反事實樣本,YoCausal建立了一個可任意擴展的評估協議。第一層級引入「反轉驚奇指數」(Reverse Surprise Index, RSI),透過去噪損失量化時間箭頭感知。第二層級引入「因果認知指數」(Causality Cognition Index, CCI),利用視覺語言模型(VLM)將數據集分層為因果與非因果子集,從而將真正的因果推理與時間偏誤區分開來。對13個最新VDMs的評估結果顯示,感知時間箭頭並不意味著理解因果關係,且與人類層級的因果認知之間仍存在顯著差距。
圖像生成模型已從依賴文字條件的像素合成,進化為具備視覺理解與工具調用能力的多模態代理。然而,現有代理仍受制於底層的黑箱圖像模型,其工作流程陷入重複性的提示改寫循環以優化生成結果,缺乏直接操控畫布(canvas)的機制。本質上,大型語言模型(LLM)作為真正「畫筆」以實現精確視覺建構的潛力仍未充分開發。本文提出 GenClaw,一種程式碼驅動的代理式圖像生成範式,賦予代理如人類藝術家般的創作能力:先構思概念,再繪製草圖,最後進行上色。具體而言,代理首先透過搜尋與推理構建概念知識與上下文,接著利用程式碼(如 SVG、HTML、Three.js)呈現可執行的視覺草圖,最後藉由圖像生成模型補充紋理、材質與逼真度。在此工作流程中,程式碼作為可控的中間畫布,橋接了語言推理與像素合成,將程式邏輯與生成模型的視覺表現力無縫整合。透過將圖像生成從黑箱範式轉變為類似人類真實創作的分階段過程,GenClaw 為高度可控且可解釋的視覺生成系統邁出重要一步。
視頻大語言模型(Video-LLMs)在影片理解任務中展現出強大能力。然而,其實際部署仍因處理大量視覺令牌所導致的效率低下而受到限制。儘管近期方法能在維持與全令牌基線相當準確度的同時,實現極低的令牌保留率,但多數方法僅在預填充的後期階段進行壓縮,未優化視覺編碼器的效率。本文首先指出,視覺編碼佔據了首次令牌生成時間(TTFT)的很大一部分。因此,僅在視覺編碼器之後壓縮視覺令牌,而非在編碼器內部進行壓縮,仍留有大量可探索空間。基於此洞見,我們提出EarlyTom,一個無需訓練的令牌壓縮框架,在視覺編碼器內部執行早期視覺令牌壓縮,從而顯著降低TTFT並提升吞吐量。此外,我們引入一種解耦的空間令牌選擇策略,以提升整體壓縮效果。在LLaVA-OneVision-7B模型上,EarlyTom在單張NVIDIA A100 GPU上將TTFT降低高達2.65倍,浮點運算次數(FLOPs)降低高達61%,同時維持與全令牌基線相當的準確度。這些改進大幅提升了Video-LLMs在實際生產場景中部署的實用性。
大语言模型(LLMs)必须持续学习并更新知识,才能在动态的真实环境中保持有效性。尽管低秩适应(LoRA)被广泛用于此类记忆更新,但现有研究主要依赖定性下游评估,对精确参数记忆的量化容量限制及其底层动态机制仍缺乏深入探索。为填补这一空白,我们将LoRA作为潜空间中的受控记忆容量探针,系统性地量化精确参数记忆。我们提出了参数记忆定律(Parametric Memory Law),即一个将损失减少ΔL与有效参数及序列长度关联起来的稳健幂律关系。在词元级别上,细粒度分析揭示了确定性的相变现象:在贪心解码下,预测概率p>0.5构成了逐字回忆的充分条件。基于这些发现,我们引入MemFT——一种阈值引导的优化策略,该策略将训练预算动态重新分配给阈值以下的词元。实证评估表明,MemFT能够增强记忆保真度与效率。代码将发布于https://github.com/zjunlp/ParametricMemoryLaw。
基於激活的控制通過在推理過程中干預大型語言模型(LLMs)的內部表徵來引導它們,並已成為控制如角色與風格等行為的有效範式。然而,現有方法通常依賴於固定的引導方向或特定任務的干預模組,使其難以適應細粒度的概念與組合約束。我們提出 UniSteer,一個文本引導的激活流匹配模型,該模型從自然語言條件中學習殘差流激活上的條件分佈。與其為每個目標行為擬合單獨的干預,UniSteer 在激活空間中學習一個通用的條件速度場。在推論時,UniSteer 通過將源激活部分傳輸到潛在狀態,並在目標文本條件下重新生成它,然後將其注入回凍結的 LLM 中,來執行流反演。同一條件模型通過選擇具有最低重建能量的文本標籤來支持激活空間分類。在三個目標 LLM 上的實驗表明,UniSteer 在行為控制、真實性引導、細粒度概念引導、多約束指令遵循以及激活空間分類方面提供了統一的介面。
視覺語言模型(VLM)在空間推理基準測試上表現出色,然而這究竟反映的是結構化的三維理解,抑或只是依賴自然影像中的統計捷徑,目前仍不明確。我們提出一套表徵層級分析框架,透過構建最小對比對來衡量空間軸在 VLM 嵌入中是如何組織與解耦的。針對多個模型家族的實驗分析揭示了一致的垂直距離糾纏現象:模型將影像中的垂直位置與距離混為一談,這正好反映了自然照片中的視角偏誤。此偏誤導致在符合視角預期與反啟發式範例之間出現顯著的準確率差距,而且即使整體基準準確率持續提升,該偏誤仍會隨資料擴增而加劇。我們進一步指出,基準分數相近的模型可能展現出不同的內部表徵,而這些差異能預測其在多樣空間推理基準上的準確率與穩健性。為了將此偏誤與評估集的偏差區分開來,我們提出 SpatialTunnel 這套合成基準,其設計目的是透過消除自然影像中常見的相關性來揭露空間捷徑偏誤。實驗結果證實,該糾纏現象是模型本質的,而那些空間軸分離良好的模型展現出更高的穩健性,這意味著結構良好的空間表徵能在多樣基準上帶來更可靠的空間推理能力。程式碼與基準資料集請見專案頁面:https://cheolhong0916.github.io/whyfarlooksup.github.io/。
聯合音頻-視頻生成旨在合成時間同步且語義連貫的視覺-聲學內容。然而,現有開源方法主要依賴於兩種設計:要麼採用帶有後驗對齊的雙塔架構,要麼採用將文本上下文、音頻和視頻混合在共享空間中的完全統一三模態設計。前者削弱了細粒度的音頻-視頻共同演化,後者則將語義條件與低層級同步耦合在一起。為了解決這些限制,我們提出了NAVA,一種用於聯合音頻-視頻生成的原生視聽對齊框架。NAVA基於上下文條件下的原生視聽對齊構建:首先在專用的交互空間中建立音頻-視頻對應關係,然後利用外部上下文來調節聯合去噪過程。具體來說,NAVA採用對齊後融合的MMDiT架構來實現,該架構從模態感知的音頻-視頻對齊過渡到模態共享的聯合去噪。此外,我們引入了上下文中的音色條件機制,將參考音色線索與對應的語音片段關聯起來,以實現可控的語音音色。在Verse-Bench和Seed-TTS上的實驗以及一項用戶研究表明,NAVA僅使用6.3B參數即可實現卓越的視頻質量、精確的視聽同步、具競爭力的音頻質量以及更強的參考音色可控性。
視覺語言模型(VLM)透過大規模圖文訓練以實現多模態融合,已在廣泛的理解與推理任務中取得顯著進展。理想情況下,將文字問題替換為其渲染圖像版本,模型表現應基本不受影響。然而在實務中,此類模態替換會導致模型效能急遽下降。我們將此「載體敏感性」問題歸因於當前訓練語料內在的偏差。在常見的資料集,如圖像描述、VQA、OCR及網路來源的交錯資料中,文字與圖像通常被組織為截然不同的不對稱角色:文字作為語言查詢,圖像作為視覺參考。此類資料偏差使得VLM對於不同模態的資訊獲取表現出明顯偏好。因此,VLM無法對齊語義等價內容在文字與視覺載體間的表示,導致模型推理在模態替換下變得脆弱。為解決此問題,我們提出局部模態替換(LoMo),一種輕量級、無關架構的資料整理範式,旨在為語義等價的文字與圖像載體間的跨模態表徵不變性提供監督。LoMo透過將單模態提示重新構建成無縫交錯的多模態序列來達成此目標。它動態選取目標文字片段並將其重新塑造為渲染圖像,從而在「文字、視覺、文字」載體間保留相同語義。在13個多樣化的多模態基準上進行的廣泛實驗表明,LoMo顯著改善整體多模態推理並帶來更深入的跨模態融合。具體而言,它在基礎模型上帶來一致增益,在LLaVA-OneVision-1.5-8B上比標準SFT提升2.67分,在Qwen3.5-9B上提升2.82分。
強化學習(RL)後訓練已被證實能提升大型語言模型(LLM)的推理能力。然而,針對RL後訓練中數據污染問題的探討仍然不足,這可能損害訓練過程本身的泛化能力與評估可靠性。現有檢測方法主要依賴輸出層級訊號(如似然度或熵值),但對經過RL訓練的模型而言,此類訊號並不可靠——因為RL是透過軌跡層級的獎勵來塑造行為,而非詞元似然度。我們提出LaRA,這是一個基於層級表徵分析的框架,用於檢測RL後訓練LLM中的污染問題。LaRA引入了三種互補性指標,分別測量受控擾動下的擾動敏感性、方向坍縮程度,以及局部表徵剛性。我們發現,污染會在各層之間引發漸進式的幾何偏差,包括放大擾動敏感性、增強方向坍縮,以及提升局部剛性。根據這些發現,我們還開發了一套污染檢測協議,跨層整合層級表徵偏差與多項指標。在經過RL訓練的推理模型上進行的實驗顯示,我們的協議在污染檢測表現上優於現有的輸出層級基準方法。
為大型語言模型配備顯式技能,已成為一種有前景的範式,使自主代理能夠解決複雜任務。代理技能本質上可分為兩類:用於廣泛認知遷移的通用技能,以及用於動態執行的任務特定技能。然而,現有的基於技能的強化學習方法通常強制在完全外化(會帶來過高的上下文開銷)與完全內化(可能導致過擬合與知識衝突)之間做出僵化選擇。為解決此困境,我們提出Skill0.5,這是一種新穎的代理強化學習框架,透過結合通用技能內化與任務特定技能利用,明確區分不同技能的處理方式。在動態、難度感知路由器的驅動下,Skill0.5將任務分流至不同的掌握層級,並採用量身訂製的優化策略:對困難任務,透過特權蒸餾內化通用技能,以建立認知基礎;對簡單任務,則利用診斷探測來懲罰捷徑並強制使用特定技能。在ALFWorld和WebShop上的實驗表明,Skill0.5在分佈內與分佈外場景中均優於基於記憶與基於技能的強化學習基準,展現出性能提升。
解釋為何密集檢索器會賦予高相關性分數仍然具有挑戰性,因為檢索決策是透過不透明的高維嵌入來進行的。現有的解釋通常關注表面信號,例如詞彙匹配、詞元對齊或事後文本理由,因此對於塑造密集檢索行為的嵌入層級潛在因素提供的洞察有限。我們提出 Xetrieval,這是一個用於解釋密集檢索的嵌入層級機制框架。Xetrieval 首先引入一個輕量級推理內化器,該內化器在嵌入空間中透過單次前向傳遞近似思維鏈推理,以推理導向資訊豐富句子嵌入,同時避免昂貴的自迴歸生成。然後,它將這些經推理增強的嵌入分解為稀疏、人類可解釋的特徵,每個特徵都與連貫的自然語言描述相關聯。透過匯總多個文件端視角的稀疏特徵重疊,Xetrieval 提供個別檢索決策的特徵層級解釋。在各種檢索器和基準測試上的實驗顯示,Xetrieval 能發現連貫的可解釋特徵,產生更強的配對層級干預效果,並支援任務層級的特徵引導。專案頁面和原始碼可在 https://hihiczx.github.io/Xetrieval 取得。
長時間互動要求語言模型管理不斷累積的資訊:何時更新狀態、何時保留狀態,以及忽略哪些資訊。我們將此挑戰稱為「情境信念管理」(Contextual Belief Management, CBM):在隔離與任務無關的雜訊的同時,維持與形式證據一致的預測信念狀態。為使CBM可量化,我們提出BeliefTrack,一個涵蓋規則發現與電路診斷的封閉世界基準,其中有限的信念空間與符號驗證器能夠實現精確的逐輪評估。BeliefTrack診斷出三種失敗模式:保持失敗、更新失敗與隔離失敗。在多個大型語言模型中,基礎模型展現出嚴重的CBM缺陷,而明確的信念追蹤提示僅提供有限改善。相反地,採用信念狀態獎勵的強化學習平均將失敗率降低70.9%。進一步探測揭示這些失敗背後的潛在信念狀態動態,而表徵層面的引導在兩個任務中將失敗率降低46.1%\footnote{程式碼即將於 https://github.com/zjunlp/CBM 釋出。}。
擴散模型實現了當前最先進的影像生成技術,其生成軌跡本質上展現出頻譜偏誤:早期解析低頻全局結構,後期處理高頻細微細節。傳統隨機微分方程式(SDE)求解器未考量此動態特性,在整個過程中單純注入均勻白噪聲,導致有限能量預算的浪費。本研究建立一套數學框架,將SDE推論重新定義為具目標性、頻率解耦的能量傳遞。基於此框架,我們提出「有色噪聲取樣」(Colored Noise Sampling, CNS)——一種無需訓練的新型隨機求解器。CNS捨棄均勻白噪聲,採用隨時間步與頻率動態調整的排程,將注入能量更有效率地分配至結構尚未確立的頻帶。透過主動利用模型內在的頻譜偏誤,CNS系統性地引導生成分佈趨向真實數據流形。大量實驗證明,作為嚴格的即插即用推論期間取樣替代方案,CNS在多种架構(SiT、JiT、FLUX)中均顯著優於標準ODE與SDE基線。在ImageNet-256上,CNS實現無引導FID的大幅降低:SiT-XL/2從8.26降至6.27,JiT-B/16從32.39降至26.69,JiT-H/16從11.88降至8.31,並在分類器自由引導下保持一致的相對FID改善。專案頁面位於https://hadardavidson.github.io/CNS/。
密集檢索器存在位置偏誤,傾向於將查詢相關資訊出現在文件開頭的文件排得更前面,而當相關資訊出現較晚時,檢索效能便會下降。雖然過去針對密集檢索器中位置偏誤的研究大多聚焦於架構層面的解釋,但我們探討的是訓練資料中證據的位置分佈如何影響檢索層級的偏誤方向。為進行驗證,我們建構了合成的位置定向訓練集,使查詢相關證據分別出現在文件的開頭、中間或結尾,並在位置偏斜與平衡的訓練分佈下,對八種架構各異的預訓練模型進行微調。在排序層級上,我們觀察到受測模型呈現強烈的方向性模式:偏斜的訓練分佈會使模型偏好對應位置的證據。在位置感知基準測試中,位置平衡的訓練可將位置敏感度降低57%至87%,而在我們控制的設定下,平均檢索效能仍具競爭力。表徵層級的分析進一步顯示,微調通常會重塑模型習得的位置偏好,儘管某些模型中仍殘留著先前的架構或預訓練特有的傾向。這些結果將訓練位置分佈確立為檢索層級位置偏誤的主要可控因素,並建議平衡的資料篩選可作為實務上的緩解策略。
我們介紹CausaLab,一個用於評估LLM智能體進行互動式因果發現的可擴展環境。與先前評估不同,CausaLab同時評估智能體是否能利用因果證據解決問題,以及其答案是否奠基於忠實恢復的因果機制。每個回合將智能體置於一個合成實驗室中:它接收先前的測量記錄,對操縱器晶體進行干預,並預測由相同機制支配的獨立反應器晶體的共振頻率。隱藏的數據生成過程是一個隨機取樣的結構因果模型(SCM),因此成功需要恢復因果圖與結構方程,而非回憶先驗知識。 實驗顯示預測與機制恢復之間存在持續差距:在純觀測的6節點設定中,GPT-5.2-high達到92%的任務準確率,但全邊F1分數僅為0.471。混合觀測-干預策略提升了結構保真度,而純干預即使對強智能體仍具難度。我們識別出過早停止為主要弱點,並顯示一致性驗證可緩解此問題。因此,CausaLab將預測成功與因果理解區分開來,並揭露當前LLM智能體作為實驗因果推理者的局限性。
基於大型語言模型(LLM)的智能體在利用外部工具解決複雜任務方面展現出強大的能力。然而,現有評估往往忽略工具使用的時間維度,尤其是工具回應延遲的影響,且通常僅限於單一任務場景。在實際應用中,多個任務常需並行執行,整體效率取決於智能體能否在等待工具回應時有效利用空閒時間。我們將這種能力稱為「非同步工具調用」。為評估此能力,我們提出了 AsyncTool,這是一個用於評估 LLM 智能體在具延遲工具反饋的互動式多任務工具使用環境中的基準測試。AsyncTool 同時呈現多種異質任務,並在執行過程中模擬真實的工具回應延遲。透過混合資料演化策略,我們構建了一個多樣化的非同步多任務資料集,涵蓋多種場景與工具使用模式。我們在步驟、子任務與任務層級評估模型,並引入以效率為導向的指標來衡量任務協調與完成效率。大量實驗顯示,延遲的工具反饋對當前智能體構成顯著挑戰,並導致效能明顯下降。能更好協調任務切換、依賴追蹤與狀態維護的模型在 AsyncTool 上表現更強。我們的分析揭示了當前使用工具的智能體之關鍵失敗模式,並為設計具有更強時間推理與協調能力的未來系統提供了實用見解。
代理式AI推理的設計空間涵蓋了兩個極端:前沿大型語言模型(LLM,通常部署於雲端,在廣泛任務中展現強大效能但成本極高),以及更具成本效益的小型語言模型(SLM,適合於裝置端推理)。結合裝置端與雲端模型的混合多智能體系統(MAS)提供了一個極具前景的中間方案,但也引入了複雜且理解不足的設計空間——在該空間中,任務準確度、金錢成本與邊緣端能耗三者緊密耦合;由於缺乏通用設計原則,混合組件(儘管並非最常見的選擇)通常透過針對特定領域的臨時決策來引入。在本研究中,我們更系統性地探討此設計空間。我們改編兩種具代表性的MAS架構以支援混合推理,並探討個別設計選擇如何沿著功耗、成本與效能的帕累托前沿移動作業點。我們的研究結果描繪出混合MAS設計的精細圖像:雖然小型語言模型能有效受益於大型語言模型的輔助,但最佳架構高度依賴於任務特性,且越高的前沿級計算能力並不一定轉化為更優的效能。
大型语言模型(LLMs)已将自主代理从深度搜索——检索简洁事实性答案——推进至深度研究——将零散证据综合成长篇报告。然而,可验证的多模态深度研究仍面临挑战,原因在于开放式综合缺乏确定性事实基准,且需要将文本论证与视觉证据交错融合。我们提出 Ptah,一个用于生成交错式报告的多智能体框架。Ptah 通过规划、研究与写作阶段,协调从用户查询到渲染网页报告的完整生命周期:专业智能体构建视觉感知规划、收集基于主张的证据、在视觉工作记忆中维护源对齐图像,并通过声明式多模态工具使用撰写报告。验证智能体作为框架的接受函数,在整个工作流中强制实施事实依据、引用忠实性及跨模态一致性。我们进一步引入 PtahEval,一个评估协议,在现有基准测试基础上增加图像级与展示级评估。在深度研究基准上的实验表明,相较于强基线模型,Ptah 生成的面向人类用户的多模态报告更可靠、视觉信息更丰富且更实用。
近期,移动GUI代理的進展展現出自動化執行行動裝置任務的巨大潛力,但大多數高效系統仍依賴大型視覺語言模型來理解螢幕畫面與進行長期規劃。能夠直接部署於行動裝置上的小型GUI代理,因具備較低的推論成本與更完善的敏感資料在地保護能力,在實際應用中更具吸引力。然而,受限於模型容量,這類輕量級代理在僅憑螢幕畫面從頭到尾規劃與執行GUI任務時仍不可靠。我們提出「知識導向行為探索框架(UI-KOBE)」,這是一套透過可重複使用的應用特定圖形知識來強化輕量級行動GUI代理的架構。UI-KOBE首先自主探索行動應用程式並建構應用知識圖譜,其中節點代表不同的UI狀態,邊代表可執行的狀態轉換。在執行階段,輕量級GUI代理將此圖譜作為外部指引:根據使用者任務與當前螢幕畫面,它會識別當前的圖節點,並從與該節點相關的自我迴圈動作、鄰近轉換、任務完成或備用自由動作中做出選擇。透過以應用特定圖形指引支援執行階段的決策,UI-KOBE減輕了端到端GUI規劃的負擔,幫助輕量級模型更有效地執行行動GUI任務,為朝向高效、可解釋且注重隱私的裝置端GUI代理邁出了務實的一步。
掌握终端环境需要具备多步规划、基于反馈的执行以及动态状态适应能力的语言代理。然而,当前训练此类代理的瓶颈在于依赖从外部存储库抓取的数据,这限制了领域多样性、环境可控性以及针对特定能力缺陷的训练。我们提出了LiteCoder-Terminal-Gen,一个零依赖的合成管道,能够直接从领域规范中自主生成可执行且可验证的终端训练环境。利用这一框架,我们构建了两个大规模资源:LiteCoder-Terminal-SFT,包含跨10个领域的11,255条专家轨迹;以及LiteCoder-Terminal-RL,包含602个可验证的环境,用于轨迹级偏好优化。在SFT数据集上对Qwen系列模型进行监督微调后,所得代理在性能上显著优于基础版本。值得注意的是,我们的32B变体在Terminal Bench 1.0、2.0和Pro上分别达到了29.06%、18.54%和34.00%的pass@1。此外,在RL环境中应用直接多轮偏好优化(DMPO)进一步提升了性能。这些结果系统性地表明,完全合成的可执行环境能够为掌握复杂的现实命令行工作流提供可扩展且可验证的监督信号。
我們針對生成物理準確且視覺真實的4D人-物互動(HOI)任務進行研究。給定一個靜態3D人體與目標物體(以3D高斯濺射(3DGS)表示),我們的目標是合成動態場景,其中人體根據給定的輸入文字,透過動作(例如出拳或踢腿)主動與物體互動。為此,我們提出PhyGenHOI,這是一個新穎框架,將生成式人體運動與顯式物理物體模擬結合。我們將人體建模為由運動擴散模型(MDM)驅動的語義智能體,將物體建模為透過物質點法(MPM)模擬的物理智能體,並利用3D高斯作為統一且可微分的表示方式。我們透過三種耦合機制監督其互動:(1) 窗口吸引損失,該損失在時間上同步生成式運動以攔截物體;(2) 接觸驅動重模擬步驟,該步驟在碰撞時觸發物理一致的動量傳遞;(3) 遮罩影片SDS目標,該目標注入基於影片的先驗資訊以增強接觸保真度。實驗結果顯示,PhyGenHOI能在多種動作、人體與物體上生成物理一致的4D HOI,優於基線方法。專案頁面與影片:https://omerbenishu.github.io/PhyGenHOI/
機器學習領域投稿數量快速成長,已對科學同儕審查系統造成壓力,並使基於大型語言模型(LLM)的自動同行評審系統受到更多關注。然而,這些系統實際上表現如何——特別是在捕捉科學漏洞方面與人類審查者的比較——仍缺乏深入理解。在本研究中,我們提出PRISM(透過結構化多維度評估的同行評審智慧)基準框架,從四個維度評估審查品質:分析深度、新穎性評估、缺陷識別與重大問題優先排序,以及多維度建設性。不同於多數現有評估僅依賴ROUGE和BLEU等表面指標,或使用未受約束的LLM-as-a-judge提示(此類提示常混淆流暢性與嚴謹性),PRISM將每個維度奠基於論證探勘、檢索增強驗證與共識導向評分。我們應用PRISM對五個領先的自動審查系統及人類審查者進行基準測試,測試語料庫涵蓋ICLR、ICML和NeurIPS的審查意見分層樣本。結果顯示,LLM在各別維度上能匹配或超越人類審查者:分析深度相當、新穎性驗證更強、批評優先排序高度準確。然而,沒有任何單一系統能在所有維度上一致達到人類基線的均衡表現。每個系統都展現出獨特的專業化特徵,並帶有特徵性盲點——這是總體指標無法捕捉的失敗模式。這意味著LLM審查者最適合被視為人類審查的針對性輔助工具,在特定維度上有效,但無法可靠地獨立取代人類審查。我們的展示頁面與關鍵結果可參見https://khanhthanhdev.github.io/prism-page/。
逐點獎勵建模為大型語言模型(LLM)的後訓練提供了關鍵信號,但在主觀、不可驗證的場景中難以進行絕對評分。基於評分標準的方法透過將評估分解為明確的標準來解決此問題,但現有方法通常依賴前沿大型語言模型,並因硬性布林聚合而產生平手問題。我們提出 RUBRIC-ARROW,一種交替框架,聯合訓練評分標準生成器與條件於評分標準的評判模型,其強化學習階段僅使用成對偏好數據。我們的方法結合了減少平手的概率型評分規則,以及階段特定的基於偏好的獎勵與交替 GRPO 方案,共同訓練逐點評估器。大量實驗顯示,RUBRIC-ARROW 在獎勵建模準確度上達到競爭力,並為下游策略後訓練帶來一致的增益。
機器人操作很大程度上依賴於能夠保留場景中與動作相關面向的感知能力。然而,大多數機器人學習的流程是基於為靜態辨識或視覺-語言對齊而預先訓練的視覺編碼器,將動作的理解留給後續的策略。我們提出了DynaFLIP,一個具動力學感知能力的多模態預訓練框架,將動作理解推向感知的較前階段。我們從異質的人類與機器人影片中建構出影像-語言-3D光流三元組,並將這些三元組作為訓練時的監督訊號,來塑造一個僅以影像為輸入的編碼器。我們的核心想法是促使這三種模態在共享的超球面空間中橫跨一個小的單形體體積——體積越小代表對齊越強。為了避免單純最小化體積所帶來的幾何模糊性與瑣碎崩潰,我們將單形體體積最小化與一個餘弦正則化項以及一個對比目標相結合。我們的分析顯示,DynaFLIP聚焦於對操作至關重要的控制相關區域。所得到的具動力學感知的表示可作為可重複使用的視覺骨幹,並在各種下游策略(包括VLA)中持續優於基線。我們在模擬與真實世界的多種設置中驗證了這一點,在分佈外情境下可獲得最高+22.5%的提升。我們的結果表明,當視覺表示不僅被訓練來編碼「存在什麼」,還編碼「世界如何在動作下變化」時,機器人的泛化能力會有所提升。
将强化学习应用于提升知识密集型问答中的事实准确性,面临着奖励设计困境。回复级奖励仅提供粗粒度的监督,无法区分推理过程中陈述的正确与错误。句子级替代方案能提供更细粒度的反馈,但通常依赖于自然语言推理验证器、大语言模型裁判或知识验证流水线,这些方法在强化学习规模化部署时成本高昂,且对于稀有实体事实往往不可靠——而恰恰在这些情况下,准确的奖励信号尤为重要。我们提出CorVer(语料验证),这是一种轻量级、即插即用的过程奖励机制,用源自维基百科共现统计的基于语料的信号替代神经验证器。CorVer赋予句子级信用,并通过简单的对齐将其映射为词元级优势,仅需一个0.5B的提取器及每个句子一次语料查找。在涵盖六种指令微调模型(3B至14B)和五个问答基准的30个(模型,基准)单元中,CorVer在每个单元上均优于原始基线,TriviaQA平均提升4.1个百分点。在其可行配置下,CorVer在20个单元中的18个单元上超越四种神经验证器基线,同时训练速度提升4.8至8.4倍。
我們提出ChildVox,這是一個新穎的基準測試,專門用於表徵兒童透過多種聲學訊號進行溝通的特性。具體而言,ChildVox 涵蓋從出生到學齡的完整發展軌跡,包括生理聲音、非語言發聲、典型音節及口語語言。ChildVox 整合了17個以兒童為中心的音訊與語音資料集中的20多項子任務,能夠進行系統性的跨語料庫與跨領域比較。我們針對一系列具代表性的音訊與語音基礎模型進行評估,包括自監督模型、專注於語音辨識(ASR)的模型,以及大型音訊語言模型,任務涵蓋生理聲音分類、發聲與典型音節建模,以及語音品質評估與辨識。基準測試結果顯示,ChildVox 提供了一套高效能模型,能夠辨識兒童的多樣聲學訊號,並支援如表徵兒童語言能力水準及追蹤隨年齡變化的語音產出等下游應用。
多模态大语言模型正越来越多地被部署为长期智能体,在此情境下,记忆必须超越简单回忆:它需要追踪不断演变的世界、修正已过时的信息,并在决策时刻提供恰当的证据。现有基准测试仅衡量静态对话中的回忆能力,将记忆简化为单一的任务结束准确率,并将视觉观测压缩为文字描述,导致我们无法将失败定位到记忆的写入、维护、检索或使用环节。自主创建记忆的智能体框架的兴起进一步加剧了这一差距,因为我们缺乏原则性方法来比较人工设计的流水线与自主管理方案。为弥补这些不足,我们将多模态智能体记忆形式化为一个具有可观察四阶段生命周期的"行动-世界交互循环",并在WorldMemArena中实现:该基准包含400个多会话多模态任务,涵盖终身演化(演变的个人与任务状态)与自主执行(基于真实观测、行动和反馈的记忆),并标注了黄金记忆点、更新、干扰项以及用于阶段级诊断的证据链。这使得我们首次能够对长上下文、人工设计(RAG与外置记忆系统)及基于框架的记忆智能体进行直接对比。结果表明:(1)更好的记忆写入与存储并不必然带来更优的性能;(2)多模态记忆在充分利用视觉证据方面仍面临挑战;(3)系统在不同领域间表现不稳定,在更真实的智能体轨迹上性能下降;(4)基于框架的记忆虽更灵活,但成本高昂且可靠性较低。
單次思路程式(PoT)會生成一個Python程式,該程式印出原始動作計畫;任何一個無效動作都會直接使整個軌跡失效。我們提出RePoT(可恢復思路程式):一種確定性驗證重放機制,它會沿著計畫在環境中執行至第一個無效轉換,然後透過一次LLM調用從已驗證的前綴繼續執行。在PoT失敗的約14%問題中,RePoT最多只需額外一次LLM調用。在PuzzleZoo-775的四個閉源模型配置上,RePoT比PoT高出+3至+11個百分點,並在gpt-5.4-mini-medium上達到96.9%對86.3%的峰值;相較於預算匹配的PoT重試基線,RePoT在Gemini上取得決定性勝利(+3.8pp,95%信賴區間[+2.2,+5.4]),在GPT-medium和Claude上則落在抽樣雜訊範圍內,但在GPT-mini上表現較差——這是一種能力規模化的模式,我們開始以自適應RePoT來因應,這是一種基於規則的調度器,會根據已驗證前綴的長度在後綴修復與全新PoT重試之間進行路由(初步結果)。我們在PlanBench Blocksworld上重現了結果(+1.1至+11.4pp),並在四個開放權重模型上取得三個模型+3.3至+20.0pp的提升。在我們的控制恢復基準Derail-550中,所有能存取檢查點資訊的條件,在GPT-medium上達到>=30%,在Gemini上達到>=70%,相較之下僅提供錯誤回饋的條件<=3.1%——這顯示,真正承擔恢復重責的訊號是檢查點資訊,而非特定的已驗證前綴尾部。
較大的模型能學會較小的模型無法學會的任務。是什麼驅動了這個現象?我們提出一個簡單的現象學論證:即使擁有無限的訓練數據,冪律縮放本質上就已暗示,較大的模型能夠學會數據分佈中較小模型無法學會的部分。為了驗證此主張並找出其成因,我們研究模型縮放對一個由多項任務組成的合成設定之影響,這些任務呈現出單調的縮放曲線。結果指向一種由數據引發的資源(神經元)競爭。具體來說,較小的模型會將其神經元分配給高頻率或低複雜度的任務,因此它們學到的解決方案在罕見且複雜的任務上表現不佳。此外,即使存在能夠表達所需任務的解決方案,這種情況仍會發生。接著,我們評估較大的模型如何繞過這個以數據為中心的瓶頸,發現這源於一種減弱的干擾機制:較大的模型能為常見任務分配足夠的資源,使得這些任務的梯度更新變弱,這意味著它們在罕見任務特徵緩慢累積的過程中,不會將其覆蓋。最後,為了進一步驗證這些主張,我們在頻率和複雜度各異的新任務上預訓練了OLMo模型(參數量從4M到4B)。結果與合成數據實驗的結果一致:只有較大的OLMo模型學會了不常見且複雜的任務,而這些較大的模型在其表徵中嵌入了更多任務特徵,並且任務間的梯度干擾較少。總體而言,我們提出了一個以數據為中心的解釋,說明為何較大的模型能學會較小模型無法學會的任務。這有助於解釋為何較大的模型在實務上表現更好,也能為關於模型規模設定與訓練數據組合的實際問題提供參考。
數據驅動的方法徹底改變了3D視覺領域,使Transformer能夠有效重建與生成靜態3D物體。然而,生成模擬性的4D動態——即靜態物體在各種物理條件下隨時間變形的真實過程——仍然充滿挑戰,且往往採用臨時性方法,儘管這對於建立全面的3D世界模型至關重要。現有方法大多假設預先定義的物理模型,並通過系統識別來估計參數,從而將這些方法限制在特定類別與小規模數據集中。我們提出,通過學習以物體為中心的物理系統的數據驅動運動學狀態參數化,可以克服這些限制。具體而言,我們同時學習一個代表物體所有可能狀態的潛在空間,以及一個將任一採樣潛在向量映射到物體合理變形形狀的解碼器。我們將此參數化稱為神經物體運動學(NeuROK),並在精心策劃的大規模4D數據集上訓練基於Transformer的編碼器-解碼器模型。此公式化與所學模型顯著簡化了模擬動態的生成,因為我們只需從經典物理中拉格朗日力學的角度,考慮低維潛在空間中的動力學。我們展示了該神經模擬框架在不同動態物體類型上的有效性與通用性,明顯優於先前的工作。專案頁面:https://chen-geng.com/neurok
自回归视频扩散模型通过顺序生成帧来产生流式视频,每一帧块都基于先前生成的内容进行条件生成。这些模型在结构上锚定于第一帧:其键-值表示在注意力缓存中占据特权位置,并在整个生成过程中充当主要场景参考。作为缓存中最干净、出错最少的位置,这一锚点吸引了不成比例的注意力,从而抑制了视频的动态性,并将场景构图锁定在初始视角上,即使场景自然演变也是如此。其结果是生成时间上浅层的视频,其中运动、镜头移动和场景推进被削弱,而静态一致性得到强化。为解决这一问题,我们用自适应状态取代静态锚点——这是一种隐藏潜变量,模型在每一帧块中与内容一同进行去噪处理,但从不渲染。模型不再参考冻结的第一帧,而是通过同时关注先前状态与当前内容,在每一步生成自身的场景锚点,从而产生一个随生成内容演变的参考。与编码绝对时间概念的标准视频生成不同,我们的表述将时间视为相对的:无论生成进展到哪一步,每一步生成都看到相同的位置结构,且每一帧块的状态转移完全相同。这些特性共同在生成过程中引入了一种递归机制,其中去噪充当转移函数,KV缓存充当载体,无需任何外部模块。实验表明,自适应状态显著改善了视频动态性,使得生成视频中能够呈现更丰富的运动和自然的场景推进。
自然生成允许大型语言模型(LLMs)产生包含丰富推理的自由形式回应,然而缺乏结构使得输出难以验证。相反,约束解码确保了标准化的格式,但可能因过早施加约束而无意中限制推理能力。我们提出了一种混合方法,即In-Writing,它在一个单一调用中结合了自由形式推理和结构化生成。该模型先进行无约束推理,仅在生成触发标记后才应用结构化解码,明确地将推理与格式化分离。我们证实,我们的触发标记策略能够有效消除过早触发这一失败模式——即约束解码中断正在进行的推理。跨越多类别涵盖分类与推理任务的数据集评估表明,我们的方法相比自然生成实现了高达27%的准确率提升,超越了当前最先进水平。我们的代码可在以下网址获取:https://github.com/Nokia-Bell-Labs/InWriting。
视频的叙事质量从根本上决定了其感知价值。虽然现有视频生成方法能产生视觉上吸引人的内容,但它们主要依赖稀疏的条件信号,如文本提示或首/末帧,这限制了对叙事结构和时间节奏的精确控制。本文提出SmartDirector框架,通过多个关键帧增强视频生成模型的叙事能力。SmartDirector支持灵活生成场景,包括单镜头生成、多镜头叙事合成以及视频扩展。该框架分两个阶段运行:Director-Gen根据提供的关键帧生成低分辨率视频,而Director-SR则利用高分辨率关键帧作为语义锚点来恢复精细细节,从而优化输出。为实现稳健的多关键帧训练,我们构建了一个数据管道,从电影中提取单镜头和多镜头序列。大量实验表明,SmartDirector显著优于现有最先进方法。我们将开源代码以促进进一步研究。
遮挡感知预测因未观测区域的固有不确定性,始终是自动驾驶领域的关键挑战。现有方法要么基于可达状态高估风险,要么在高遮挡不确定性下难以准确预测轨迹。为克服这些局限,我们提出了一种面向部分可观测环境的统一风险地图建模与学习框架。该方法通过时空建模整合交通流风险与碰撞风险,实现对遮挡引发风险的细粒度评估。针对遮挡交互场景稀缺的问题,我们引入基于扩散模型的场景生成框架,可生成真实且具对抗性的场景。我们将统一风险地图的建模与学习集成至框架中,支持部分可观测环境下的风险感知规划。在Waymo开放运动数据集上的实验表明,该方法显著优于现有遮挡感知基线模型,将最小碰撞时间提升0.78倍,平均碰撞时间提升1.67倍。所提框架为部分可观测环境中的风险感知规划提供了全面且实用的解决方案。
自監督視覺模型與文字到圖像擴散模型中的基礎特徵已被證實能有效應用於語義對應估計。然而,由於這些特徵主要從二維圖像目標中學習而得,它們缺乏明確的三維感知能力,經常混淆物體的對稱側面、重複部位,以及在三維空間中截然不同但視覺上相似的結構。我們提出一個三維感知的後訓練框架,藉由納入三維基礎模型的先驗知識,突破現有二維基礎特徵的限制。對於給定圖像,我們的方法利用 SAM3D 估計物體幾何與姿態,並透過渲染與比較優化流程來修正姿態。隨後,根據估計出的物體姿態,我們將重建幾何結構中的 PartField 描述符渲染至圖像平面。所產生的幾何感知特徵圖能與 DINO 及 Stable Diffusion 特徵相輔相成,而重建形狀上的測地距離則可有效篩選候選對應點。我們將篩選後的匹配結果作為監督信號,在 DINO 與 Stable Diffusion 之上訓練一個輕量級適配器,以進行語義對應。與先前需要姿態標註且依賴粗略球體幾何的後訓練方法不同,我們的方法能自動獲取實例專屬的三維結構,並以此引導對應學習。實驗結果顯示,我們的方法在改善語義對應的同時,減少了對人工幾何監督的需求。程式碼與模型可於 https://github.com/GenIntel/3D-SC 取得。
近期多模態網頁代理的進展,往往依賴於增加推理階段的計算量,包括展開搜索、驗證器輪次、離線技能發現以及專家模型堆疊。這引發了一個核心問題:網頁代理能否隨著經驗累積變得更有效率,而非更昂貴?我們首先分析了VisualWebArena中的軌跡,並找出三個反覆出現的效率瓶頸:重複動作循環、隱藏發現成本,以及低提示快取重複利用率。接著,我們提出PANDO,這是一個一次展開的線上技能蒸餾框架,能維護結構化的技能庫,並結合進度反思、基於信心的技能降級、層次化路由、視覺壓縮,以及快取感知提示技術。在完整的910項VisualWebArena任務中,PANDO達成了58.3%的成功率,優於SGV(54.0%)與我們重現的WALT(45.2%),同時比SGV減少58%的token用量,比WALT減少61%,且無需任何預先評估的發現預算。一項包含300項任務的消融研究進一步顯示,規則與常規貢獻了大部分的成功提升,而路由、壓縮與快取感知提示則將更大的技能庫轉化為更低的邊際token成本。最後,我們引入了三項軌跡層級的效率指標——動作重複率、步驟開銷比,以及提示快取利用率——使效率在終端成功率之外也能被清晰觀察。
長序列LLM推理使鍵值(KV)快取成為GPU記憶體的主要消耗者,並使每個詞元的注意力計算日益昂貴。許多常見的淘汰策略依賴於靜態近期視窗或歷史注意力,卻忽略了每個解碼步驟中可用的訊號:模型當下的不確定性。我們提出CONF-KV,一種KV快取管理器,它將下一個詞元的分佈轉換為標量置信度分數,並以此決定每步的快取預算——當模型不確定時保留更多上下文,當模型自信時則積極修剪。在每個預算內,詞元根據累積注意力權重與近期性的複合指標進行排序,同時受保護的近期視窗維持局部連貫性。我們將此策略與區塊式線上softmax注意力、混合FP16/INT8儲存以及金字塔式逐層預算變體相結合。在四個模型系列及生成長度達4K的實驗中,CONF-KV的記憶體佔用接近固定512詞元滑動視窗,同時困惑度僅距完整KV 1.5至2.1個百分點。在長達32K詞元的「大海撈針」任務中,CONF-KV達到91.4%的檢索準確率,而滑動視窗為53.8%,H2O為80.6%;在75項VisualWebArena任務中,CONF-KV保留了完整KV 95.3%的成功率,同時峰值記憶體降低了2.8倍。
大型語言模型(LLMs)在遵循指令與複雜推理方面已展現出日益增強的能力,使提示(prompting)成為一種無需更新參數即可調整模型的靈活介面。然而,提示設計仍然相當耗費人力,且對格式、措辭及指令順序高度敏感,這促使自動化提示優化方法的發展,以減少人工負擔,同時保留推理時的靈活性。然而,現有方法通常搜尋候選提示,或使用由單一範例或小批次驅動的固定批評-修改流程,因而難以捕捉系統性錯誤模式,也無法根據失敗歷史進行有針對性的編輯。我們提出反思性提示調整(Reflective Prompt Tuning, RPT)框架,該框架利用LLM函數呼叫模擬人類提示工程師的迭代工作流程。LLM優化器呼叫一個診斷函數,該函數在整個優化集上評估目標模型,總結重複出現的失敗模式,並回傳結構化的診斷報告。優化器利用這份報告,加上先前報告的累積記憶,來修改下一輪迭代的提示。RPT還透過在診斷回饋及最終提示選擇中使用校準訊號,支援具信心感知的優化。在三項推理任務中,RPT將初始提示的表現提升了最多12.9個百分點,與現有最佳方法競爭力相當,並改善了信心校準。我們的分析顯示,RPT在多重跳躍與數學推理上尤其有效,能產生與診斷出的失敗模式相符的目標性提示修改,進而帶來任務表現與校準的提升。
大语言模型(LLMs)已成为人工智能的核心范式,但其核心计算单元——注意力机制——在结构上始终未发生根本改变。局部线性注意力(LLA)是一种基于测试时回归框架中非参数统计推导出的注意力机制。与先前关于高效注意力变体的研究不同,LLA 将 softmax 注意力中的局部常数估计升级为局部线性估计,从而在关联记忆方面实现了理论上更优的偏差-方差权衡。然而,由于计算和数值稳定性问题,LLA 尚未在大语言模型预训练中实现规模化扩展。我们提出 Parallax——一种可扩展至大语言模型的参数化局部线性注意力机制。Parallax 取消了 LLA 中的数值求解器,并学习一个额外的类查询投影器来探测 KV 协方差。我们将 Parallax 置于一个通过带宽、投影器构建以及仿射结构相互关联的注意力机制家族中。我们提出一种硬件感知算法,该算法相比 FlashAttention 提升了算术强度,使注意力机制进入更偏重计算受限的区域。我们的原型解码核在多种批次大小和上下文长度下,性能可与 FlashAttention 2/3 持平或更优。我们在 0.6B 和 1.7B 参数规模下对 Parallax 进行预训练,发现整个预训练过程中困惑度持续改善,这些收益可迁移至下游基准测试。在参数匹配和计算匹配的控制条件下,该优势依然存在,展现出帕累托改进。我们进行了细致的预训练消融实验,并发现一种新现象:Muon 能够释放 Parallax 的能力。据我们所知,这是架构研究文献中首次对注意力机制中架构与优化器强协同设计进行的实证验证。
基於人類回饋的強化學習(RLHF)是將大型語言模型(LLM)與人類偏好對齊的標準方法。在本研究中,我們引入了「對齊篡改」——一種潛在的漏洞,即正在進行對齊的 LLM 能夠影響偏好資料集,導致 RLHF 放大不良行為。此漏洞源於 RLHF 的核心限制:(1) 偏好資料集由 LLM 自身的輸出建構而成,使其有能力影響資料集;(2) 成對比較僅能指出哪個回應較佳,卻無法說明原因。這些限制可能被利用來引發對齊篡改。舉例來說,若 LLM 生成了具有偏見但品質更高的回應,標註者會基於品質而偏好這些回應。然而,偏好標籤無法區分品質與偏見,獎勵模型也因此繼承了此限制。透過強化學習或 best-of-N 抽樣來優化這類獎勵,可能進一步放大未對齊的偏見。我們的實驗展示了多種偏見的放大效應:從關鍵字偏見到宣傳(例如性別歧視)、品牌推廣,以及工具性目標追求。緩解此問題仍具挑戰性,因為現有的穩健 RLHF 技術在未犧牲回應品質的情況下,無法完全解決對齊篡改。這些發現揭示了當前 RLHF 的結構性漏洞,並強調了防範此漏洞的必要性。專案頁面:https://alignment-tampering.github.io/
在大型 API 目錄中進行工具檢索是 LLM 代理的核心瓶頸:使用者查詢以口語化、常常欠指定的語言形式出現,而目錄則使用技術性的 API 詞彙,任何固定的編碼器都無法獨自彌合兩者的差距。目前主流的兩種訓練方法——對比編碼器微調與使用凍結 LLM 進行 HyDE 風格的查詢擴展——從相反方向處理此問題,並在互補層面上失敗:微調後的編碼器在查詢的表面形式與目錄匹配時表現出色,但一旦不匹配則效能崩潰;而零樣本 HyDE 對欠指定查詢更穩健,卻會生成與目錄無關的假設性描述,導致查詢結構良好時檢索效能下降。我們提出 CoHyDE,這是一種迭代程序,將稠密編碼器與 LLM 改寫器訓練為一個共同進化的系統:編碼器使用改寫器所產生的目錄風格假設性描述,以 InfoNCE 重新訓練;改寫器則透過 DPO 根據編碼器的檢索分數進行偏好對齊,兩者在循環開始前均在工具目錄上進行熱啟動。在 ToolBench 目錄約 10k 工具的子集上,經過三輪 CoHyDE 訓練後,標準查詢的 NDCG@5 比最強的單一組件基線提升了 +2.5 個百分點,而在保留的模糊查詢上提升了 +6.3 個百分點,其中在難度最高的模糊查詢層級上,提升幅度高達 +8 個百分點。消融實驗證實,共同訓練是關鍵要素:單獨使用任一組件都無法在結構良好與模糊查詢上匹敵 CoHyDE,在模糊查詢上的損失可達 -8 個百分點。
我們展示了LoRA適配器(微調大型語言模型的主流發佈格式)可透過訓練資料投毒被可靠地植入後門,同時維持基準任務的表現。在以Qwen 2.5 1.5B模型為基礎的提示注入分類器中,少量中毒樣本就足以驅動一個能保持乾淨準確率的後門達到飽和狀態。該後門在詞元特徵層級而非結構模式層級進行泛化:針對某個RFC參考文獻訓練的模型,會對任何RFC參考文獻產生觸發,但不會轉移到結構相同的ISO、OWASP、CWE或NIST引用上。這種不對稱性對攻擊者有利,因為防禦者無法廣泛地針對「結構化引用」進行偵測。 我們從基礎模型的規模與系列、LoRA秩數、觸發字串等面向刻劃此攻擊,並針對一個多種子適配器群組評估兩種互補的偵測路徑。第一種行為偵測器基於兩個探測電池統計量(異常值差距與平均攻擊率)建構,當探測電池與觸發詞元的鄰域重疊時,能完美區分中毒與乾淨適配器;即使不重疊,也能在零誤報率下達到高召回率。另一種權重層級的統計量——跨模組的維度正規化Frobenius範數的標準差——則無需執行模型即可完美區分該群組。兩者結合後,對探測組成具有穩健性。透過因果修補,我們將後門定位於中後層的MLP區塊,其中down_proj是最強的單一投影原因。 在跨規模、系列與秩數的重複實驗中,行為偵測器無需重新調整即可轉移,而權重層級偵測器則需針對基礎模型進行校準。攻擊強度隨秩數單調遞增,且所選的觸發錨點詞元既依賴於觸發字串,也依賴於基礎模型。行為偵測是針對適配器供應鏈掃描時,具有操作可攜性的結果。
视觉-语言模型(VLM)在鲁棒的3D空间推理方面常常面临挑战。现有方法多依赖于通过3D视觉问答(VQA)数据集进行微调,这容易导致模型过拟合数据集特有的偏差;而集成专门的3D视觉编码器往往又缺乏灵活性且笨重繁琐。在本文中,我们认为真正的空间理解应源于对基本几何先验的学习,而非仅依赖高层次的VQA监督。为此,我们提出GASP(几何感知空间先验)框架,将这类先验直接注入大语言模型的Transformer层中。GASP采用一个小型对应头,作为跨所有层的深度监督信号,并基于大规模视频场景中的真实几何数据,通过双重目标进行训练:对比损失作用于真实点对应关系,强制实现2D视角不变性;深度一致性监督则用于解决3D几何歧义。我们的分析首先通过诊断表明,标准VLM的内部对应匹配准确率极低(通常低于5%)。随后,我们证明所提出的训练方法显著改善了这一问题,将逐层的峰值对应率提升至70%以上,并保持超过85%的时间鲁棒性,而基线方法始终低于5%。这些内部改进转化为下游空间基准测试上的显著增益,包括在All-Angles Bench上提升18.2%,在VSI-Bench上提升29.0%,且全程未使用任何3D VQA数据训练。我们的研究结果表明,从基本几何先验中学习是使VLM获得更可靠的3D空间推理能力的一条有前景且可泛化的路径。
我們研究了一種用於合作的自動化雙層研究框架:外層AI智能體自主重新設計內層LLM策略合成系統的管線,應用於多智能體順序社會困境。研究者智能體R(以編碼智能體形式運作)會讀取內層原始碼、編輯系統提示詞、回饋函式、輔助函式庫及迭代邏輯,執行評估並決定保留項目,遵循自動研究典範。在兩種遊戲(Cleanup與Gathering)、兩種策略合成LLM及兩種福利目標(功利效率與羅爾斯式最大最小原則)下,研究者均可靠地超越人工設計的基準線,顯著縮小實驗間變異,並勝過僅最佳化提示詞的方法。所發現的管線會依目標而異:只有在最大最小原則下,研究者才會在合成器管線中注入明確的公平機制,而此類機制在其自身無關目標的系統提示詞及所有效率最佳化管線中均不存在。這支持了一種資訊設計的解讀:研究者會根據福利目標,選擇向有限理性的合成器揭露哪些資訊。程式碼位於 https://github.com/vicgalle/autoresearch-social-dilemmas。
我们提出了OmniInteract,这是一个面向实时全模态大语言模型的流式基准测试,通过原生在线推理对音视频流进行评估。与离线视频理解或基于文本提示的流式问答不同,OmniInteract保留了原始的音视频流,并要求模型在线处理,无法访问未来内容。用户查询和周围环境声音嵌入在音频轨道中,需要模型检测多模态触发信号,决定何时响应,并在流式过程中作答。OmniInteract包含250个视频,共有1430个时间锚定的响应插槽:其中1062个1Q1A插槽覆盖了实时、主动和嵌套场景,368个1QnA插槽用于连续任务监控和逐步指导。每个插槽包含触发信号、响应窗口和目标答案。我们使用交互感知质量-时效性F1分数、中断诊断套件和嵌套链完成分数来评估回答正确性、时序、无效输出、中断处理以及上下文连续性。实验表明,当前模型在流式交互中仍然较弱,最佳整体IA-QTF1仅达到0.368,最佳1QnA的IA-QTF1仅0.052。进一步对全双工设置下的数学推理能力研究表明,离线能力并不一定能迁移到在线交互中。代码和数据集将在 https://github.com/Lucky-Lance/OmniInteract 公开提供。
高保真3D高斯头部头像生成对于增强现实/虚拟现实(AR/VR)、远程临场和数字人应用至关重要。现有方法依赖多视角数据集、三维捕捉或中间二维视角合成。相比之下,我们仅从随机采样的二维图像中学习有条件和无条件的3D头部模型,无需多视角数据、三维监督或中间视角生成。我们提出MVCHead,一种单步状态空间模型,直接在三维表示中强制执行多视角一致性(MVC),并在这些约束下回归3D高斯。其核心在于我们提出的分层状态空间(HiSS)模块,该模块从粗到细逐步细化高斯,同时捕捉长程依赖关系。在每个HiSS模块内,我们将Mamba的标准单向扫描改进为所提出的分层双向状态扫描(HiBiSS),使递归方向与多视角不一致性最强的轴线对齐。最后,我们设计了一个SE(3)多视角评判器,用于判断一组自渲染图像是否源自同一个底层三维配置,从而在不观察真实多视角对的情况下奖励跨视角像素对齐。MVCHead实现了最先进的感知质量,在纹理和几何一致性上均超越先前方法,并保持了相当的形状一致性。为展示可扩展性,我们发布了FaceGS-10K,这是首个大规模可直接使用的3D高斯头部资产数据集,用于训练和评估3D头部模型。项目页面和代码:https://humansensinglab.github.io/MVCHead/
全球化與多元文化持續催生出日益多樣的語音變體。然而,現有的口語對話系統在處理代表性不足的方言與口音時經常失敗,常誤判輸入語言,導致下游對話任務出現串聯式錯誤。在低資源限制下解決此類方言變異問題仍是開放的挑戰,因為標準的微調方法不僅計算成本高昂,且易在高維度語音資料上過度擬合。我們提出凸性語言偵測(Convex Language Detection, CLD),一個將理論根基穩固的凸優化技術整合至口語對話系統管線的新型框架。我們的方法透過 JAX 中的多 GPU 交替方向乘子法(Alternating Direction Method of Multipliers, ADMM)高效實現,從而提供全局最優性保證,並在多項式時間內完成快速訓練。在理論上,我們證明凸性目標函數可導出認證的邊際穩定性,並提供對抗特徵擾動的保證。在實驗上,我們展示出樣本效率與對輸入方言變異的穩健性,在挑戰性的低資源環境中達到 97-98% 的準確率。我們的開源套件可於 https://pypi.org/project/jaxcld/ 取得。
離散擴散模型通常透過乾淨資料預測進行訓練,但該預測可用不同方式定義逆向動態。在遮罩擴散模型(MDM)中,這些選擇大致一致,而在均勻擴散模型(UDM)中則不然。我們證明,UDM 標準的插件式橋接參數化並非由去噪後驗最佳化,而是由一種留一後驗所主導,該後驗在預測每個乾淨 token 時不依賴其自身的雜訊觀測值。這指出了插件式 ELBO 與常見的交叉熵去噪目標之間的不匹配。我們刻畫了留一目標的特徵,並推導出去噪器、留一後驗與得分之間的精確轉換關係。這些轉換使我們能夠將參數化與訓練目標分離。我們的研究結果還帶來了推理階段的改進,無需額外訓練:基於留一預測器的資訊型預測器-校正器取樣器,以及改良的溫度取樣方法。 我們進一步提出均勻擴散的吸收態重構,該方法在保留 UDM 聯合分佈的同時,將其分解為類似遮罩擴散的取樣操作,並具備更簡潔的去噪後驗、遷移性去遮罩以及自然的重新遮罩機制。在語言建模任務中,留一參數化持續改善 UDM 的生成品質,而吸收態構造則能媲美甚至超越遮罩擴散。這些結果表明,遮罩擴散與均勻擴散之間的經驗差距,主要源於參數化與取樣設計的差異,而非邊際分佈本身的選擇。程式碼與模型可在 https://github.com/samsongourevitch/rev_udm 取得。
在電影級動物特效的創作過程中,精準模擬肌肉與毛髮動態是不可或缺的一環,但傳統製作流程既耗費大量人力,也需投入高昂的運算成本。儘管生成式擴散模型已在多種藝術創作流程中展現潛力,其在高擬真動物模擬方面的能力仍未獲得充分開發。我們提出 MoZoo,這是一款生成式動力學解算器,能夠跳脫傳統的細化流程,直接從粗糙網格生成高擬真動物影片,並可在多模態引導下運作。我們進一步提出角色感知旋轉位置編碼(RAR-RoPE),透過基於角色的索引重映射來同步動作對齊,同時利用固定的時間偏移來解耦參考資訊。此外,非對稱解耦注意力機制將潛在序列分區,強制執行單向資訊流,從而有效防止特徵干擾並提升運算效率。為了解決高品質訓練資料稀缺的問題,我們引入了 MoZoo-Data,這是一條「合成轉真實」的資料管線,結合渲染引擎與逆向映射方法,建構出大規模的配對序列資料集。我們並建立了 MoZooBench,一個包含 120 組網格-影片配對的全面基準測試。實驗結果顯示,MoZoo 能在各式動物骨架與佈局下實現高擬真度的毛髮模擬,同時保持優異的時間與結構一致性。
大型語言模型(LLMs)在各種敏感情境中展現出系統性的政治偏見。我們發現,LLMs 在處理來自不同政治立場的對應議題時,會呈現不對稱的表現。我們將此現象稱為「隱性政治偏見」,並歸納出七種運作技術類別。我們為隱性偏見提出兩項衡量指標:情感一致性(衡量對立政治配對提示中,修辭與框架的對稱性);助益一致性(衡量回應深度與參與度的對稱性)。為減少這兩類隱性偏見,我們提出政治一致性訓練(PCT),這是一種結合兩種互補範式的強化學習訓練方法:情感一致性訓練與助益一致性訓練。我們證明 PCT 能維持整體助益性、顯著降低隱性政治偏見,並可推廣至未見的基準測試。我們的研究成果已開源於 https://political-manipulation.ai。
近年来,视觉语言模型(VLM)在众多任务上取得了显著进展,但先前研究表明,将大型语言或多模态模型应用于时序数据中的异常模式发现时,其性能表现仍不尽人意。公开的异常检测基准通常提供区间标注,却缺乏自然语言解释,这使得微调VLM以生成基于证据的可解释决策变得困难。为弥补这一空白,我们构建了VisAnomBench——一个基于公开时间序列数据集精心整理的基准,并通过使用细粒度、任务特定的奖励机制从多个大型VLM中筛选高质量异常解释进行增强。在此基准上微调后,我们开发了VisAnomReasoner,一种面向时间序列异常检测的参数高效型VLM。在VisAnomBench上的实验结果表明,VisAnomReasoner能够实现更精确的异常定位,并在所有基线方法中持续领先,在精确率和F1分数上分别至少提升21.23和23.87个百分点。此外,在TSB-AD-U基准上的额外实验展示了其强大的跨基准泛化能力,VisAnomReasoner在精确率和F1分数上分别提升了9.57和13.39个百分点。
本研究提出ViGeo,一個基於前饋式基礎模型,旨在從影片序列中恢復空間密集且時間一致的幾何結構。該模型以純變壓器架構為基礎,未針對特定任務修改結構,並能在單一模型中支援串流、完整序列及長影片推論。其核心設計為動態分塊注意力機制,使模型在訓練期間同時接觸雙向與因果時間上下文,並能在測試時調整注意力模式而無需重新訓練。為提升監督品質,我們進一步引入基於補全的資料精煉框架。該框架訓練一個影片深度補全教師模型,以其稀疏且含噪的標註為條件,利用影片/多視角上下文生成密集、時間連貫且幾何可靠的訓練目標。除深度圖與點雲圖外,ViGeo亦在同一框架內預測表面法向量。僅使用公開資料集訓練,ViGeo在線上、離線及長影片深度估計、表面法向量估計及影片點雲圖估計上均達到最先進水準。
手机操作代理的一个核心瓶颈在于,能够覆盖真实移动行为的可控、可复现环境难以大规模构建。现有移动代理基准测试在评估方面取得了重要进展,但其本身并未提供一种可扩展的方式来构建大量新型手机使用环境。我们提出PhoneWorld,这是一个可复用的流水线,能将真实的GUI轨迹及截图转化为可控的手机使用环境、可执行任务、自动验证器以及训练展开数据。PhoneWorld并非每次手动构建一个移动基准测试,而是利用真实轨迹来恢复哪些屏幕具有重要性、屏幕之间如何连接、哪些交互必须改变环境状态,以及哪些用户目标能够自动验证。通过这些信号,它构建了基于只读应用内容和可变状态的可运行模拟Android应用,进而从同一环境中衍生出可执行任务、基于规则的验证器以及训练展开数据。在当前实现中,PhoneWorld覆盖了16个领域的34个应用,涵盖搜索、浏览、购物、预订、媒体和社交互动等常见消费者移动行为。在固定训练预算下,将一个基于AndroidWorld的基线中来自辅助AndroidWorld语料库的1万步替换为广泛的PhoneWorld监督,同时提升了所有四个评估基准:HYMobileBench提升17.7个百分点,AndroidControl提升6.0个百分点,AndroidWorld提升14.7个百分点,PhoneWorld提升52.5个百分点。随后我们研究了另外两个规模化问题:增加PhoneWorld监督量可大幅提升PhoneWorld性能,而在固定PhoneWorld预算下,扩大应用覆盖范围能带来更大的收益。总体而言,PhoneWorld将焦点从每次构建一个移动基准测试,转向了规模化供给手机使用环境本身。
智慧型手機詐騙日益猖獗,通常表現為多階段、跨應用程式的過程,且意圖逐漸浮現。因此,有效的干預需要在意圖明確之前預測詐騙行為。這本質上具有挑戰性,因為決策必須依賴含有時間分散證據的部分軌跡。在本文中,我們提出 ORACLE(Online Reasoning for Anticipating Cross-temporal Latent thrEats,跨時間潛在威脅預測線上推理),這是首個用於從串流應用程式使用軌跡中提前預測詐騙的代理框架。為支援此設定,我們構建了一個真實世界、長時程的串流應用程式使用軌跡基準,涵蓋12種詐騙類型,跨長時間(平均15天),涉及多樣化的應用程式(95個應用),並交織正常與詐騙行為。針對零散證據,我們引入一個自演化情境管理器,能隨著時間適應性地整合以實體為中心的互動,從而更有效地從部分觀察中重建跨時間證據。為了增強對早期潛在訊號的敏感度,我們提出一種在策略自我蒸餾機制,其中教師模型在總結反詐騙反思與技能提示的條件下,監管無法取得此類反思的學生模型。此機制因此蒸餾出具證據依據的知識,並提升從部分軌跡中辨識新興詐騙模式的能力。實驗顯示,ORACLE 持續改善早期詐騙預測,在現實串流場景中提供及時警告,同時減少誤報。