每日精選AI研究論文及翻譯
我們推出Apriel-1.5-15B-Thinker,這是一個擁有150億參數的開放權重多模態推理模型,通過精心設計的訓練而非單純的規模擴展,達到了前沿性能水平。基於Pixtral-12B,我們採用了漸進式的三階段方法:(1)深度擴展以增強推理能力,無需從頭開始預訓練;(2)分階段持續預訓練,首先建立基礎的文本與視覺理解,然後通過針對性的合成數據生成來提升視覺推理能力,涵蓋空間結構、組合理解及細粒度感知;(3)高質量的純文本監督微調,使用精心挑選的指令-響應對,並包含明確的推理軌跡,涉及數學、編程、科學及工具使用。值得注意的是,我們的模型在未使用強化學習或偏好優化的情況下取得了競爭力結果,凸顯了我們以數據為中心的持續預訓練方法的貢獻。在Artificial Analysis Intelligence Index上,Apriel-1.5-15B-Thinker獲得了52分,與DeepSeek-R1-0528持平,但所需計算資源顯著減少。在十個圖像基準測試中,其性能平均與Gemini-2.5-Flash和Claude Sonnet-3.7相差不到五分,這對於在單GPU部署限制下運行的模型而言是一項關鍵成就。我們的結果表明,深思熟慮的中期訓練設計能夠在不依賴大規模擴展的情況下彌補顯著的能力差距,使具備有限基礎設施的組織也能觸及前沿的多模態推理技術。我們在MIT許可下發布了模型檢查點、所有訓練配方及評估協議,以推動開源研究的發展。
大型推理模型(LRMs)通過生成結構化的思維鏈(CoT)來「思考」,但在產生最終答案之前,它們仍然缺乏對安全對齊進行批判性推理的能力,並且在思維過程中注入有缺陷的前提時容易產生偏見。我們提出了RECAP(通過對齊預填充實現的魯棒安全對齊),這是一種原則性的強化學習(RL)方法,用於後期訓練,明確教導模型覆蓋有缺陷的推理軌跡並重新路由到安全和有用的回應。RECAP在合成生成的對齊預填充CoT和標準提示的混合數據上進行訓練,無需額外的訓練成本或修改,僅需基於人類反饋的強化學習(RLHF),並顯著提高了安全性和越獄魯棒性,減少了過度拒絕,並保留了核心推理能力——同時保持推理令牌預算。廣泛的分析表明,經過RECAP訓練的模型更頻繁地進行自我反思,並在自適應攻擊下保持魯棒性,即使在多次嘗試覆蓋其推理後仍能保持安全性。
在多模態大型模型(MLLMs)中,視覺標記消耗了大量的計算資源,顯著降低了其效率。近期研究嘗試通過在訓練過程中壓縮視覺標記來提升效率,這包括對模型組件的修改或引入額外參數。然而,這些方法往往忽視了壓縮所帶來的學習難度增加,因為模型的參數空間難以迅速適應由標記壓縮引起的特徵空間中的顯著擾動。在本研究中,我們提出通過漸進一致性蒸餾(EPIC)來開發高效的多模態大型模型,這是一種漸進學習框架。具體而言,通過沿著標記維度和層次維度分解由標記壓縮引入的特徵空間擾動,我們分別引入了標記一致性蒸餾和層次一致性蒸餾,旨在利用教師模型的指導並遵循漸進學習軌跡來降低訓練難度。大量實驗證明了我們所提出框架在有效性、魯棒性和泛化能力方面的卓越表現。
深入研究已彻底革新了数据分析领域,然而数据科学家们仍需投入大量时间手动构建可视化图表,这凸显了从自然语言查询实现强大自动化的迫切需求。然而,当前系统在处理包含多个文件及需迭代优化的复杂数据集时仍面临挑战。现有方法,包括简单的单代理或多代理系统,往往过于简化任务,仅聚焦于初始查询解析,而未能有效应对数据复杂性、代码错误或最终可视化质量等问题。本文中,我们将这一挑战重新定义为协作式多代理问题,并引入CoDA——一个采用专门大型语言模型(LLM)代理进行元数据分析、任务规划、代码生成及自我反思的多代理系统。我们形式化了这一流程,展示了以元数据为核心的分析如何绕过令牌限制,以及质量驱动的优化如何确保系统的鲁棒性。广泛的评估表明,CoDA在综合评分上取得了显著提升,较竞争基线最高超出41.5%。本研究表明,可视化自动化的未来不在于孤立的代码生成,而在于集成、协作的代理工作流。
對話式口語語言模型(SLMs)正逐漸成為實時語音互動的一個有前景的範式。然而,其時間動態能力,包括管理時機、節奏和同時說話的能力,仍然是對話流暢性的一個關鍵且未經評估的挑戰。為解決這一問題,我們引入了「遊戲時間基準」(Game-Time Benchmark),這是一個系統性評估這些時間能力的框架。受人類通過語言活動學習語言的啟發,遊戲時間基準包括基本的指令跟隨任務和具有時間約束的高級任務,例如節奏遵守和同步回應。我們對多種SLM架構的評估揭示了明顯的性能差距:雖然最先進的模型在基本任務上表現良好,但許多當代系統仍然在基本的指令跟隨上遇到困難。更為關鍵的是,幾乎所有模型在時間約束下都顯著退化,暴露了在時間意識和全雙工互動上的持續弱點。遊戲時間基準為引導未來研究朝向更具時間意識的對話式AI提供了基礎。演示和數據集可在我們的項目網站https://ga642381.github.io/Game-Time上獲取。
近期,由NVIDIA和AMD GPU支持的硬件加速微縮放4位浮點格式(如MXFP4和NVFP4)有望徹底改變大型語言模型(LLM)的推理效能。然而,其實際效益尚未得到證實。我們首次對MXFP4和NVFP4進行了全面的訓練後量化研究,揭示了其承諾與實際性能之間的差距。我們的分析表明,由於兩個關鍵問題,最先進的方法在處理FP4時面臨挑戰:(1)NVFP4的小組大小理論上抵消了傳統的異常值緩解技術;(2)MXFP4的二次方比例量化由於引入的高誤差嚴重降低了精度。為彌補這一差距,我們引入了微旋轉GPTQ(MR-GPTQ),這是經典GPTQ量化算法的一個變體,通過使用分塊哈達瑪變換和格式特定的優化,使量化過程適應FP4的獨特特性。我們通過一組高性能GPU內核支持我們的提案,這些內核通過將旋轉融合到權重中並快速在線計算激活,以可忽略的開銷實現了MR-GPTQ格式。這在NVIDIA B200上實現了相對於FP16的層級加速最高達3.6倍,端到端加速達2.2倍;在RTX5090上實現了層級加速6倍,端到端加速4倍。我們廣泛的實證評估表明,MR-GPTQ匹配或超越了最先進的精度,顯著提升了MXFP4,使其接近NVFP4的水平。我們得出結論,雖然FP4並非INT4的自動升級,但像MR-GPTQ這樣的格式專用方法可以開啟精度與性能權衡的新領域。
基於擴散模型的機器人控制方法,包括視覺-語言-動作(VLA)和視覺-動作(VA)策略,已展現出顯著的能力。然而,其發展受到獲取大規模互動數據集高成本的限制。本研究提出了一種無需額外模型訓練即可提升策略性能的替代範式。令人驚訝的是,我們證明了組合策略的性能可以超越任一父策略。我們的貢獻有三方面。首先,我們建立了理論基礎,證明多個擴散模型的分佈分數的凸組合可以產生比任何單一分數更優的一步函數目標。隨後,使用Grönwall型界限證明這種單步改進會傳播到整個生成軌跡,從而帶來系統性的性能提升。其次,基於這些結果,我們提出了通用策略組合(GPC),這是一種無需訓練的方法,通過凸組合和測試時搜索來結合多個預訓練策略的分佈分數,從而提升性能。GPC具有通用性,允許即插即用地組合異構策略,包括VA和VLA模型,以及基於擴散或流匹配的模型,無論其輸入視覺模態如何。第三,我們提供了廣泛的實證驗證。在Robomimic、PushT和RoboTwin基準上的實驗,以及真實世界機器人評估,均證實GPC在各種任務中持續提升性能和適應性。對替代組合運算符和加權策略的進一步分析,為GPC成功的機制提供了見解。這些結果確立了GPC作為一種簡單而有效的方法,通過利用現有策略來提升控制性能。
近期,大型語言模型(LLMs)自我改進領域的進展已顯著提升了模型能力,且未大幅增加成本,尤其是在人力投入方面。儘管這一領域仍相對年輕,但其向多模態領域的延伸展現了巨大潛力,能夠利用多樣化的數據源並開發出更為通用的自我改進模型。本調查首次全面概述了多模態大型語言模型(MLLMs)中的自我改進。我們從三個角度對當前文獻進行了結構化梳理並討論了相關方法:1)數據收集,2)數據組織,以及3)模型優化,以促進MLLMs自我改進的進一步發展。此外,我們還涵蓋了常用的評估方法和下游應用。最後,我們總結了開放性挑戰及未來的研究方向。
大型语言模型(LLMs)的进展催生了一类新型自进化智能体,这些智能体通过与环境互动自主提升,展现出强大的能力。然而,自进化也带来了当前安全研究尚未充分关注的新风险。本研究探讨了智能体自进化偏离预期方向,导致不良甚至有害后果的情形,我们称之为“误进化”。为系统性地探究这一问题,我们从模型、记忆、工具和工作流四个关键进化路径对误进化进行了评估。实证结果表明,误进化是一种普遍存在的风险,即便是基于顶尖LLMs(如Gemini-2.5-Pro)构建的智能体也难以幸免。在自进化过程中,我们观察到了多种新兴风险,例如记忆积累后安全对齐性的退化,或工具创建与重用中无意引入的漏洞。据我们所知,这是首次系统性地概念化误进化并提供其发生实证的研究,强调了为自进化智能体建立新安全范式的迫切需求。最后,我们探讨了潜在的缓解策略,以期激发构建更安全、更可信自进化智能体的进一步研究。我们的代码与数据可在https://github.com/ShaoShuai0605/Misevolution获取。警告:本文包含可能具有冒犯性或有害性质的示例。
大型語言模型(LLMs)已成為解讀多模態數據的強大工具。在醫學領域,它們尤其展現出將大量臨床信息綜合轉化為可操作見解和數字健康應用的潛力。然而,其主要限制在於無法處理時間序列數據。為彌補這一不足,我們提出了OpenTSLM,這是一系列時間序列語言模型(TSLMs),通過將時間序列作為原生模態整合到預訓練的LLMs中,從而實現對任意長度多時間序列的推理。我們探討了OpenTSLM的兩種架構。第一種,OpenTSLM-SoftPrompt,通過軟提示將可學習的時間序列標記與文本標記隱式地結合起來來建模時間序列。儘管這種方法參數效率高,我們假設顯式時間序列建模具有更好的擴展性和性能。因此,我們引入了OpenTSLM-Flamingo,它通過交叉注意力機制將時間序列與文本整合。我們在一系列文本-時間序列的思維鏈(CoT)推理任務中,將這兩種變體與將時間序列視為文本標記或圖表的基線模型進行了對比。我們引入了三個數據集:HAR-CoT、Sleep-CoT和ECG-QA-CoT。在所有數據集上,OpenTSLM模型均優於基線模型,在睡眠分期中達到69.9的F1分數,在HAR中達到65.4,而僅微調的純文本模型分別為9.05和52.2。值得注意的是,即使是1B參數的OpenTSLM模型也超越了GPT-4o(15.47和2.95)。OpenTSLM-Flamingo在性能上與OpenTSLM-SoftPrompt相當,並在更長的序列上表現更優,同時保持穩定的內存需求。相比之下,SoftPrompt的內存需求隨序列長度呈指數增長,在ECG-QA上使用LLaMA-3B訓練時需要約110 GB的顯存,而Flamingo僅需40 GB。臨床專家的評審發現OpenTSLM在ECG-QA上展現出強大的推理能力。為促進進一步研究,我們開源了所有代碼、數據集和模型。
稀疏自編碼器(Sparse Autoencoders, SAEs)是一種將神經網路激活分解為人類可解釋特徵的技術。然而,現有的SAEs存在特徵吸收問題,即專用特徵捕捉通用特徵的實例,導致表示空洞;以及特徵組合問題,即獨立特徵合併為複合表示。在本研究中,我們提出了正交稀疏自編碼器(Orthogonal SAE, OrtSAE),這是一種新方法,旨在通過強制學習特徵之間的正交性來緩解這些問題。通過實施一種新的訓練程序,該程序懲罰SAE特徵之間的高成對餘弦相似度,OrtSAE促進了特徵解耦的發展,同時隨著SAE規模的增大而線性擴展,避免了顯著的計算開銷。我們在不同模型和層次上訓練OrtSAE,並與其他方法進行比較。結果顯示,OrtSAE發現了多9%的獨特特徵,減少了特徵吸收(降低65%)和組合(降低15%),在去除虛假相關性方面提升了6%的性能,並且在其他下游任務上與傳統SAEs表現相當。
基於擴散模型的文本到圖像(T2I)技術近期取得了顯著進展,能夠從文本提示生成高質量的圖像。然而,確保生成圖像與文本之間的精確對齊仍然是當前最先進擴散模型面臨的重大挑戰。為解決這一問題,現有研究採用基於人類反饋的強化學習(RLHF)來使T2I輸出更符合人類偏好。這些方法要么直接依賴配對的圖像偏好數據,要么需要學習獎勵函數,兩者都高度依賴成本高昂的高質量人工標註,因而面臨可擴展性限制。在本研究中,我們提出了文本偏好優化(TPO)框架,實現了T2I模型的“免費午餐”對齊,即無需配對圖像偏好數據即可達成對齊。TPO通過訓練模型偏好匹配的提示而非不匹配的提示來工作,其中不匹配提示是使用大型語言模型對原始描述進行擾動構建的。我們的框架具有通用性,可與現有的基於偏好的算法兼容。我們將DPO和KTO擴展到我們的設置中,分別得到TDPO和TKTO。在多個基準上的定量和定性評估表明,我們的方法始終優於其原始版本,提供了更好的人類偏好分數和改進的文本到圖像對齊效果。我們的開源代碼可在https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment獲取。
小型視覺語言模型(VLMs)提供了一種計算效率高的替代方案,相較於大型模型,其代價是較弱的泛化能力和下游任務表現。這些不足可以通過測試時擴展技術來解決,但現有方法通常計算需求高,與小型模型的資源高效設計目標相矛盾。為了解決這些限制,我們提出了兩種新穎且高效的測試時擴展策略,這些策略利用模型內部特徵而非外部監督:(i) 測試時增強(TTAug),它生成多個增強輸入並在無需參數更新的情況下在令牌級別聚合輸出,以及(ii) 測試時適應(TTAdapt),它在推理過程中利用來自TTAug的基於共識的偽標籤來調整模型參數。通過在九個基準上的廣泛實驗,我們展示了在保持適合資源受限環境的計算效率的同時,性能的持續提升。我們方法的通用性在不同規模的模型內和跨不同VLMs無需額外調優的情況下得到了證明。
大型語言模型(LLMs)的後續訓練面臨著獲取新知識或修正錯誤的高昂成本,以及重新訓練時頻繁出現的意外副作用等限制。為解決這些問題,我們提出了REPAIR(通過漸進式適應性干預與再整合實現的穩健編輯),這是一個旨在支持精確且低成本模型更新,同時保護非目標知識的終身編輯框架。REPAIR通過閉環反饋機制結合動態記憶管理,緩解了大規模序列編輯的不穩定性與衝突。此外,通過融入頻繁的知識融合並實施強局部性保護,REPAIR有效解決了傳統無分佈方法常忽視的意外連鎖反應問題。我們的實驗表明,REPAIR在多個模型家族中提升了10%-30%的編輯準確率,並顯著減少了知識遺忘。這項工作為開發可靠、可擴展且持續進化的大型語言模型引入了一個穩健的框架。
近年來,三維場景重建與新視角合成技術取得了快速進展。神經輻射場(Neural Radiance Fields)展示了連續體積輻射場能夠實現高質量的圖像合成,但其冗長的訓練與渲染時間限制了實際應用。三維高斯濺射(3D Gaussian Splatting, 3DGS)通過使用數百萬個高斯分佈來表示場景,解決了這些問題,實現了實時渲染與快速優化。然而,高斯基元本身與虛擬現實頭顯及實時圖形應用中基於網格的管線並不兼容。現有解決方案嘗試通過後處理或兩階段管線將高斯轉換為網格,這增加了複雜性並降低了視覺質量。在本研究中,我們提出了三角形濺射+(Triangle Splatting+),該方法直接在可微濺射框架內優化計算機圖形學的基本基元——三角形。我們制定了三角形參數化方法,通過共享頂點實現連接性,並設計了一種訓練策略來強制三角形不透明。最終輸出無需後處理即可直接應用於標準圖形引擎。在Mip-NeRF360和Tanks & Temples數據集上的實驗表明,Triangle Splatting+在基於網格的新視角合成中達到了最先進的性能。我們的方法在視覺保真度上超越了先前的濺射方法,同時保持了訓練的高效與快速。此外,生成的半連接網格支持基於物理的模擬或交互式漫遊等下游應用。項目頁面請訪問:https://trianglesplatting2.github.io/trianglesplatting2/。
學術綜述寫作,作為將浩瀚文獻提煉為連貫且富有洞察力敘述的過程,依然是一項耗時且對智力要求極高的任務。儘管近期方法,如通用深度研究代理和專注於綜述生成的方法,能夠自動生成綜述(即LLM4Survey),但其輸出往往難以達到人類標準,且缺乏一個嚴謹、與讀者需求對齊的基準來全面揭示其不足。為填補這一空白,我們提出了一個細粒度、基於測驗的評估框架SurveyBench,其特點包括:(1)從近期的11,343篇arXiv論文及對應的4,947篇高質量綜述中選取典型綜述主題;(2)一個多維度的指標體系,評估大綱質量(如覆蓋廣度、邏輯連貫性)、內容質量(如綜合粒度、洞察清晰度)以及非文本豐富性;(3)雙模式評估協議,包含基於內容和基於測驗的可回答性測試,明確對齊讀者的信息需求。結果表明,SurveyBench有效挑戰了現有的LLM4Survey方法(例如,在基於內容的評估中平均低於人類21%)。
標準的離散擴散模型將所有未觀測狀態統一映射到一個吸收的[MASK]標記,這種處理方式創造了一個「信息真空」,在去噪步驟之間,原本可從未遮罩標記推斷出的語義信息因此丟失。我們提出了連續增強離散擴散(CADD)框架,該框架通過在連續潛空間中配對擴散來增強離散狀態空間。這樣一來,遮罩標記不再坍縮為「信息真空」,而是由帶有噪聲但仍具信息量的潛在向量表示,形成分級、逐漸被破壞的狀態。在每個反向步驟中,CADD可以利用連續潛在向量作為語義提示來引導離散去噪。這一設計簡潔且與現有的離散擴散訓練兼容。在採樣時,通過調整連續潛在向量的估計器強度與選擇,可以在模式覆蓋(生成多樣化輸出)與模式尋求(生成上下文精確輸出)行為之間實現可控的權衡。實驗表明,CADD在文本生成、圖像合成和代碼建模任務上相較於基於遮罩的擴散模型提升了生成質量,無論是在定性還是定量指標上,相較於強大的離散基線模型均取得了穩定的提升。
本研究探討了通過多輪強化學習訓練大型語言模型作為代理時,哪些方法實際有效,哪些無效。儘管該領域進展迅速,但現有框架和定義仍顯零散,缺乏對跨任務設計選擇的系統性表述與分析。為填補這一空白,我們首先將設計空間分解為三個相互關聯的支柱——環境、獎勵與策略,並基於實證研究提煉出在特定文本領域訓練LLM代理的配方。具體而言,我們測試了用於檢驗情境化具身推理的熱門領域TextWorld和ALFWorld,以及更偏向軟件工程風格的任務SWE-Gym。(i) 在環境方面,我們從狀態與動作空間的大小及最優解長度角度分析了任務複雜性的影響,發現即使領域內簡單的環境也能提供代理向更複雜任務泛化能力的信號。(ii) 對於獎勵機制,我們探討了相對獎勵稀疏性的影響,觀察到雖然密集的回合級獎勵能加速訓練,但性能與穩定性高度依賴於所選的強化學習算法。(iii) 在代理策略方面,我們研究了獎勵稀疏性與有偏(PPO, GRPO)及無偏(RLOO)策略梯度方法之間的相互作用,並展示了在固定預算下如何找到監督微調(SFT)與強化學習訓練的最佳比例。我們將這些發現凝練成一份訓練配方,指導跨三大支柱的協同設計,推動多輪代理強化學習的研究與實踐。代碼見:https://github.com/pearls-lab/meow-tea-taro
脊椎疾病影響全球6.19億人口,是導致殘疾的主要原因之一,然而人工智慧輔助診斷仍受限於缺乏層級感知的多模態數據集。脊椎疾病的臨床決策需要跨X光、CT和MRI在特定椎骨層面進行複雜推理。然而,由於缺乏可追溯、基於臨床的指導數據和標準化的脊椎專用基準,這一領域的進展受到限制。為此,我們推出了SpineMed,這是一個與執業脊椎外科醫生共同設計的生態系統。它包含SpineMed-450k,這是首個專為跨影像模態的椎骨層面推理設計的大規模數據集,擁有超過45萬條指導實例,以及SpineBench,一個基於臨床的評估框架。SpineMed-450k從多樣化來源中精心挑選,包括教科書、指南、開放數據集和約1,000例去識別化的醫院案例,採用臨床醫生參與的兩階段大語言模型生成方法(草稿和修訂),以確保高質量、可追溯的數據,用於問答、多輪諮詢和報告生成。SpineBench在臨床重要軸線上評估模型,包括層級識別、病理評估和手術規劃。我們對SpineBench上幾種最新進展的大型視覺語言模型(LVLMs)進行全面評估,揭示了在細粒度、層級特定推理方面的系統性弱點。相比之下,我們在SpineMed-450k上微調的模型在所有任務中均展現出持續且顯著的改進。臨床醫生的評估證實了我們模型輸出的診斷清晰度和實際效用。
尽管大型语言模型(LLMs)的最新进展已成功实现了具备自然语言交互能力的生成式推荐系统,但其推荐行为仍显局限,导致诸如元数据或属性过滤等更为基础却至关重要的组件在系统中未能得到充分利用。为此,我们提出了一种基于LLM并配备工具调用功能的音乐推荐系统,旨在构建一个统一的检索-重排序流程。该系统将LLM定位为端到端的推荐引擎,能够解析用户意图、规划工具调用,并协调各类专业组件:布尔过滤器(SQL)、稀疏检索(BM25)、密集检索(嵌入相似度)以及生成式检索(语义ID)。通过工具规划,系统预测应使用的工具类型、执行顺序及所需参数,以寻找符合用户偏好的音乐,支持多样化的交互模式,同时无缝整合多种数据库过滤方法。我们展示了这一统一的工具调用框架通过依据用户查询选择性采用恰当的检索方法,在多种推荐场景下均展现出竞争力,为对话式音乐推荐系统描绘了新的范式。
GUI 定位任務,即將自然語言指令映射到像素座標,對於自主代理至關重要,但對當前的視覺語言模型(VLMs)而言仍具挑戰。核心瓶頸在於可靠的局部到像素的映射,當推廣到訓練期間未見過的高分辨率顯示時,這種映射會失效。現有方法直接從視覺特徵生成座標作為文本標記,迫使模型隱式推斷複雜的位置到像素映射;結果,在新分辨率下,準確性下降且失敗案例增多。我們通過兩項互補的創新來解決這一問題。首先,RULER 標記作為顯式的座標標記,讓模型能夠像地圖上的網格線一樣參考位置,並調整而非從零生成座標。其次,交錯的多分辨率旋轉位置編碼(I-MRoPE)通過確保寬度和高度維度得到同等表示,改善了空間編碼,解決了標準位置方案的不對稱性。在 ScreenSpot、ScreenSpot-V2 和 ScreenSpot-Pro 上的實驗顯示,定位準確性持續提升,尤其是在高分辨率界面上改進最為顯著。通過提供顯式的空間指導而非依賴隱式學習,我們的方法實現了跨多種分辨率和平台的更可靠的 GUI 自動化。
基於大型語言模型(LLMs)的網路代理在完成用戶目標時,必須處理冗長的網頁觀察數據;這些頁面通常超過數萬個標記。這不僅會飽和上下文限制,還增加了計算成本;此外,處理完整頁面會使代理面臨如提示注入等安全風險。現有的修剪策略要麼丟失相關內容,要麼保留無關上下文,導致次優的行動預測。我們提出了FocusAgent,這是一種簡單而有效的方法,利用輕量級LLM檢索器從可訪問性樹(AxTree)觀察中提取最相關的行,並以任務目標為指導。通過修剪噪聲和無關內容,FocusAgent實現了高效推理,同時降低了對注入攻擊的脆弱性。在WorkArena和WebArena基準測試中的實驗表明,FocusAgent與強基線的性能相當,同時將觀察大小減少了50%以上。此外,FocusAgent的一個變體顯著降低了提示注入攻擊的成功率,包括橫幅和彈出攻擊,同時在無攻擊環境中保持任務成功性能。我們的結果強調,基於LLM的定向檢索是一種實用且穩健的策略,用於構建高效、有效且安全的網路代理。
自Deepseek-R1发布以来,基于可验证奖励的强化学习(RLVR)已成为训练大型语言模型(LLMs)进行推理任务的核心方法。近期研究主要集中于修改损失函数,以提高RLVR的效率和效果。本文受LLMs中过度思考现象研究的启发,提出了一种新颖的元RLVR算法——长度感知采样策略优化(LSPO),该算法根据平均响应长度动态选择每一步的训练数据。我们在多个基础模型和数据集上评估了LSPO,结果表明其持续提升了学习效果。此外,我们还进行了详细的消融研究,探讨了将长度信号融入动态采样的其他方式,为未来研究提供了进一步见解并指明了有前景的方向。
針對網絡代理的多種提示注入攻擊已被提出。與此同時,多種檢測一般提示注入攻擊的方法也相繼開發,但尚未有系統性地針對網絡代理進行評估。在本研究中,我們填補了這一空白,首次對針對網絡代理的提示注入攻擊檢測進行了全面的基準研究。我們首先基於威脅模型,對此類攻擊進行了細緻的分類。隨後,我們構建了包含惡意與良性樣本的數據集:惡意文本片段由不同攻擊生成,良性文本片段來自四類,惡意圖像由攻擊產生,而良性圖像則來自兩類。接著,我們系統化地整理了基於文本和圖像的檢測方法。最後,我們在多種情境下評估了它們的性能。我們的主要發現表明,雖然部分檢測器能夠以中等至高準確度識別依賴於顯式文本指令或可見圖像擾動的攻擊,但對於那些省略顯式指令或採用不可察覺擾動的攻擊,這些檢測器大多失效。我們的數據集和代碼已發佈於:https://github.com/Norrrrrrr-lyn/WAInjectBench。
当前大型语言模型(LLM)的发展将任务解决与偏好对齐视为两个独立的挑战,首先优化客观正确性,再调整以符合人类聚合偏好。这一范式在面向人类的应用中失效,因为在这些场景下,即便问题被正确解决,若回应与用户需求不匹配,仍显不足。这一挑战在即时场景中尤为突出,由于冷启动条件或隐私限制,缺乏先前的用户互动历史。LLM需识别其对用户偏好未知之处,通过提问策略性地引出偏好值,随后调整其推理过程与回应——这一复杂的认知链我们称之为个性化推理。我们引入PREFDISCO,一种将静态基准转化为互动个性化任务的评估方法,采用基于心理学的、偏好稀疏的角色。我们的框架构建了相同问题因用户情境不同而需不同推理链的场景,因为最佳解释方法随个人专长与偏好而异,同时保持事实准确性。对21个前沿模型在10项任务上的评估显示,29.0%的简单个性化尝试比通用回应更差地匹配偏好,而通用回应同样无法有效满足个体用户需求。这些发现表明,个性化推理需要专门开发,而非自然涌现。PREFDISCO确立了个性化推理作为一个可衡量的研究前沿,并揭示了当前LLM在互动能力上的根本局限,为开发能够适应教育、医疗及技术领域个体用户的系统奠定了基础,这些领域个性化至关重要。
優化帶有獎勵的離散擴散模型(DDM)仍是一大挑戰:非自迴歸的範式使得重要性採樣難以處理,且推演過程複雜,這讓如群組相對策略優化(GRPO)等強化學習方法陷入困境。在本研究中,我們引入了MaskGRPO,這是首個可行的方法,能在離散擴散中實現可擴展的多模態強化學習,並配備有效的重要性採樣及模態專屬的適應機制。為此,我們首先闡明了DDM的理論基礎,這有助於構建一個能捕捉有價值詞元波動以進行梯度更新的重要性估計器。接著,我們精心調整了針對視覺序列的推演方法,從而產生多樣化的完成結果和可靠的優化梯度。在數學推理、編碼及視覺生成基準測試中,MaskGRPO帶來了更穩定且高效的更新,從而實現了更強的推理性能和更優的生成質量。本研究確立了MaskGRPO作為一種系統性的策略優化方法,並成為離散視覺擴散的首個實用途徑。
梯度下降法已被证明是众多机器学习应用中一种强大且有效的优化技术。然而,计算神经科学领域的最新进展表明,标准梯度下降优化公式中的学习过程与生物系统中的学习并不一致。这一发现为构建受生物学启发的学习技术开辟了有趣的新途径。其中一种方法便是受戴尔定律(Dale's law)启发,该定律指出在学习过程中,抑制性和兴奋性突触不会互换角色。由此产生的指数梯度下降优化方案导致了突触权重呈对数正态分布。有趣的是,满足与几何布朗运动(GBM)对应的随机微分方程(SDE)的福克-普朗克方程的密度正是对数正态密度。利用这一联系,我们从控制几何布朗运动的SDE出发,证明了离散化相应的反向时间SDE会产生一个乘法更新规则,令人惊讶的是,这一规则与基于戴尔定律的指数梯度下降更新的采样等价形式相吻合。此外,我们提出了一种新的乘法去噪分数匹配形式,涵盖了Hyvaerinen为非负数据提出的损失函数。实际上,对数正态分布的数据是正数,而所提出的分数匹配形式自然契合这一特性。这使得能够训练基于分数的图像数据模型,并产生了一种从对数正态密度开始样本生成的新颖乘法更新方案。在MNIST、Fashion MNIST和Kuzushiji数据集上的实验结果展示了新方案的生成能力。据我们所知,这是首个基于几何布朗运动、采用乘法更新的受生物学启发生成模型实例。
檢索增強生成(Retrieval-Augmented Generation, RAG)將文檔檢索與大型語言模型(LLMs)相結合。雖然擴展生成器能提升準確性,但同時也增加了成本並限制了部署的靈活性。我們探索了一條正交的途徑:擴大檢索器的語料庫以減少對大型LLMs的依賴。實驗結果表明,語料庫的擴展持續增強了RAG的性能,並常能作為增加模型規模的替代方案,儘管在更大規模下收益遞減。中小型生成器搭配更大的語料庫,往往能與配備較小語料庫的更大模型相媲美;中型模型通常獲益最多,而微型和大型模型的受益則較少。我們的分析顯示,性能提升主要來自於涵蓋更多包含答案的段落,而利用效率基本保持不變。這些發現確立了一種原則性的語料庫與生成器之間的權衡:投資於更大的語料庫,為強化RAG提供了一條有效途徑,其效果常可與擴大LLM本身相提並論。
生成式視頻模型展現了令人印象深刻的文本到視頻轉換能力,推動了其在眾多實際應用中的廣泛採用。然而,與大型語言模型(LLMs)類似,視頻生成模型也容易產生幻覺,即使事實錯誤,也能生成看似合理的視頻。儘管先前的研究已對LLMs的不確定性量化(UQ)進行了廣泛探討,但目前尚無針對視頻模型的UQ方法,這引發了重大的安全隱患。據我們所知,本文是首次嘗試量化視頻模型不確定性的研究。我們提出了一個用於生成式視頻模型不確定性量化的框架,包括:(i)基於無嚴格建模假設的穩健秩相關估計,用於評估視頻模型校準的指標;(ii)一種針對視頻模型的黑箱UQ方法(稱為S-QUBED),該方法利用潛在建模嚴格地將預測不確定性分解為其偶然性和認知性成分;以及(iii)一個UQ數據集,以促進視頻模型校準的基準測試。通過在潛在空間中條件化生成任務,我們將由模糊任務規範引起的不確定性與由知識缺乏引起的不確定性分離。在基準視頻數據集上的大量實驗表明,S-QUBED計算的總不確定性估計值與任務準確性呈負相關,並有效地計算了偶然性和認知性成分。
現有的視頻到音頻(V2A)生成模型通常以離線方式運行,假設整個視頻序列或幀塊已事先可用。這嚴重限制了它們在互動應用中的使用,如實時內容創作和新興的生成世界模型。為解決這一問題,我們引入了幀級在線V2A生成的新任務,其中模型自迴歸地從視頻生成音頻,而無需訪問未來的視頻幀。此外,我們提出了SoundReactor,據我們所知,這是第一個專門為此任務設計的簡單而有效的框架。我們的設計強制端到端的因果性,並針對低每幀延遲與音視頻同步。我們模型的骨幹是一個僅解碼器的因果變換器,作用於連續的音頻潛在表示。對於視覺條件,它利用了從DINOv2視覺編碼器的最小變體中提取的網格(補丁)特徵,這些特徵被聚合為每幀單個令牌,以保持端到端的因果性和效率。模型通過擴散預訓練和一致性微調進行訓練,以加速擴散頭的解碼。在來自AAA遊戲的多元化遊戲視頻基準測試中,我們的模型成功生成了語義和時間上對齊的高質量全頻段立體聲音頻,並通過客觀和人類評估進行了驗證。此外,我們的模型在30FPS、480p視頻上使用單個H100實現了低每幀波形級延遲(NFE=1時為26.3ms,NFE=4時為31.5ms)。演示樣本可在https://koichi-saito-sony.github.io/soundreactor/獲取。
隨著擴散模型和流匹配模型在生成性能上達到頂尖水平,研究界的關注點轉向了在不犧牲樣品質量的前提下減少推理時間。一致性模型(Consistency Models, CMs)通過在擴散或概率流常微分方程(PF-ODE)軌跡上訓練以保持一致性,實現了一步或兩步的流或擴散採樣。然而,CMs通常需要長時間的訓練和大批量數據來獲得競爭性的樣本質量。本文中,我們考察了CMs在接近收斂時的訓練動態,發現CM切線——即CM輸出的更新方向——具有較大的振盪性,其運動方向平行於數據流形而非朝向流形。為減輕切線振盪,我們提出了一種新的損失函數,稱為流形特徵距離(Manifold Feature Distance, MFD),它提供了對齊於流形的切線,指向數據流形。因此,我們的方法——命名為“對齊你的切線”(Align Your Tangent, AYT)——能夠將CM的訓練速度提升數個數量級,甚至超越學習感知圖像塊相似度度量(LPIPS)。此外,我們發現我們的損失函數允許在極小批量數據下進行訓練,而不影響樣本質量。代碼見:https://github.com/1202kbs/AYT
多模態大型語言模型(MLLMs)在通用視覺基準測試中表現出色,但在特定領域(如醫學影像)的分佈外(OOD)任務上卻面臨挑戰,這些領域的標註數據既有限又昂貴。我們提出了LEAML,這是一個標籤高效的適應框架,它充分利用了稀缺的標註視覺問答(VQA)樣本和大量未標註的圖像。我們的方法通過一個受標題蒸餾正則化的問答生成器,為未標註數據生成與領域相關的偽問答對。重要的是,我們選擇性地僅更新與問答最相關的神經元,使問答生成器在蒸餾過程中能高效地獲取領域特定知識。在胃腸內鏡和體育視覺問答上的實驗表明,LEAML在最小監督下始終優於標準的微調方法,這凸顯了我們提出的LEAML框架的有效性。
現代語言模型令人矚目的性能提升,目前依賴於參數規模的擴展:更大的模型能存儲更多的世界知識並具備更強的推理能力。然而,將所有世界知識壓縮至模型參數中既無必要——因為每個提示僅需使用其中一小部分——也對推理時內存和計算資源有限的邊緣設備而言不切實際。針對這一不足,我們提出了一種記憶增強架構及與現有硬件範式相契合的預訓練策略。我們引入了小型語言模型,這些模型能夠訪問編碼了世界知識的大型分層參數記憶庫。在預訓練和推理過程中,我們提取一個與上下文相關的小型記憶塊並將其融入模型。我們的預訓練方法旨在學習將長尾世界知識存儲於記憶參數中,而小型語言模型則作為錨點,捕捉通用知識和一般推理能力。通過萬億級別的實驗,我們展示了顯著的性能提升:一個160M參數的模型,配備從4.6B記憶庫中提取的18M參數記憶,其性能可與參數數量超過其兩倍的常規模型相媲美。通過廣泛的實驗,我們研究了變壓器中參數記憶的最佳類型與規模,並將其擴展至超過21B參數。我們發現,所提出的分層前饋記憶無論是在預訓練期間還是後期添加,均能在各類變壓器架構中穩定工作。
軟件開發高度依賴於廣泛的單元測試,這使得自動化單元測試生成(UTG)的效率尤為重要。然而,現有的大多數大型語言模型(LLMs)在每次前向傳播時逐個生成測試用例,導致UTG效率低下。最近,擴散式大型語言模型(dLLMs)應運而生,提供了有前景的並行生成能力,並展現出高效UTG的強大潛力。儘管具有這一優勢,但其在UTG中的應用仍受到效率與測試質量之間明顯權衡的限制,因為增加每步生成的標記數量往往會導致測試用例質量急劇下降。為克服這一限制,我們提出了DiffTester,這是一個專為dLLMs在UTG中設計的加速框架。DiffTester的核心思想是,針對同一焦點方法的單元測試通常共享重複的結構模式。通過在生成過程中動態識別這些共同模式,並利用抽象語法樹分析,DiffTester在不影響輸出質量的前提下,自適應地增加每步生成的標記數量。為了實現全面評估,我們擴展了原本僅限於Python的TestEval基準,引入了包括Java和C++在內的更多編程語言。在三個基準上使用兩個代表性模型進行的廣泛實驗表明,DiffTester在保持測試覆蓋率的同時,實現了顯著的加速效果。此外,DiffTester在不同dLLMs和編程語言之間具有良好的泛化能力,為軟件開發中的高效UTG提供了一個實用且可擴展的解決方案。代碼和數據已公開於https://github.com/wellbeingyang/DLM4UTG-open。
理解自動駕駛中的風險不僅需要感知和預測,還需要對代理行為和情境進行高層次推理。當前基於視覺語言模型(VLMs)的方法主要將代理定位於靜態圖像中,並提供定性判斷,缺乏捕捉風險隨時間演變所需的時空推理能力。為解決這一問題,我們提出了NuRisk,這是一個全面的視覺問答(VQA)數據集,包含2,900個場景和110萬個代理級樣本,基於nuScenes和Waymo的真實數據構建,並輔以CommonRoad模擬器中的安全關鍵場景。該數據集提供了基於鳥瞰圖(BEV)的序列圖像,並帶有量化的代理級風險註釋,從而實現時空推理。我們在不同提示技術下對知名VLMs進行基準測試,發現它們無法執行顯式的時空推理,導致在高延遲下的峰值準確率僅為33%。為解決這些不足,我們微調的7B VLM代理將準確率提升至41%,並將延遲降低了75%,展示了專有模型所缺乏的顯式時空推理能力。儘管這代表著重大進步,但適中的準確率凸顯了該任務的深刻挑戰,使NuRisk成為推進自動駕駛中時空推理的關鍵基準。
政策合規性評估是一項基礎性任務,旨在評估輸入案例是否嚴格遵循一系列人為定義的規則,這些規則更廣泛地被稱為政策。在實踐中,人類專家遵循系統化、逐步的過程來識別違反政策中具體規定的行為。然而,獲取此類黃金標準、專家級推理過程的文檔成本高昂。本文介紹了政策推理軌跡(Policy Reasoning Traces, PRT),這是一種專門生成的推理鏈,作為推理橋樑,以提升大型語言模型(LLM)的政策合規性評估能力。我們的實證評估表明,無論是在推理階段還是訓練階段使用PRT,均能顯著提升開源權重模型和商業模型的性能,為HIPAA和GDPR政策設定了新的技術前沿。除了準確性的提升,我們還強調了PRT如何增強LLM準確引用政策條款的能力,以及通過其高利用率從原始思維鏈中影響合規決策。