每日精選AI研究論文及翻譯
可驗證獎勵的強化學習(RLVR)最近已成為訓練後大型語言模型(LLMs)的關鍵範式,特別是在複雜推理任務中。然而,傳統的RLVR訓練已被證明在提升Pass@1性能的同時,會導致策略熵的降低,從而減少生成多樣性並限制Pass@k性能,而Pass@k通常代表LLM推理能力的上限。本文從訓練問題的角度系統分析了策略的生成多樣性,發現增加和更新訓練問題有助於緩解訓練過程中的熵崩潰。基於這些觀察,我們提出了一種用於RLVR訓練的線上自對弈與變分問題合成(SvS)策略,該策略利用策略的正確解來合成變分問題,同時確保其參考答案與原始問題保持一致。這種自我改進策略在訓練過程中有效地保持了策略熵,並與標準RLVR相比顯著提升了Pass@k性能,實現了持續的改進,並在競賽級別的AIME24和AIME25基準測試中分別取得了18.3%和22.8%的Pass@32絕對增益。在從3B到32B不同模型規模的12個推理基準測試中,實驗一致證明了SvS的通用性和魯棒性。
本文提出了一種新穎的學習範式,用於適應性大型語言模型(LLM)代理,該範式消除了對底層LLM進行微調的需求。現有方法往往要么過於僵化,依賴於靜態、手工製作的反思工作流程,要么計算密集,需要對LLM模型參數進行梯度更新。相比之下,我們的方法通過基於記憶的在線強化學習實現了低成本的持續適應。我們將其形式化為記憶增強的馬爾可夫決策過程(M-MDP),配備了神經案例選擇策略來指導行動決策。過去的經驗存儲在情節記憶中,無論是可微分的還是非參數的。該策略通過記憶重寫機制基於環境反饋不斷更新,而策略改進則通過高效的記憶讀取(檢索)實現。我們在深度研究場景中實例化了我們的代理模型,即AgentFly,它在GAIA驗證集上達到了87.88%的Pass@3,在測試集上達到了79.40%。它在DeepResearcher數據集上達到了66.6%的F1和80.4%的PM,超越了基於訓練的最先進方法,而基於案例的記憶在分佈外任務上增加了4.7%到9.6%的絕對分數。我們的方法為開發能夠在不進行梯度更新的情況下進行持續、實時學習的通用LLM代理提供了一條可擴展且高效的途徑,推動機器學習向開放式技能獲取和深度研究場景邁進。代碼可在https://github.com/Agent-on-the-Fly/AgentFly獲取。
語言引導的長時程移動操作長期以來一直是具身語義推理、可泛化操作和適應性運動中的重大挑戰。三大根本性限制阻礙了進展:首先,儘管大型語言模型通過語義先驗提升了空間推理和任務規劃能力,現有實現仍局限於桌面場景,未能解決移動平台受限的感知能力和有限的操作範圍。其次,當面對開放世界環境中多樣的物體配置時,現有的操作策略表現出不足的泛化能力。第三,雖然對於實際部署至關重要,但在非結構化環境中同時保持高平台機動性和精確末端執行器控制的雙重要求仍未得到充分研究。 在本工作中,我們提出了ODYSSEY,一個為配備機械臂的敏捷四足機器人設計的統一移動操作框架,它無縫整合了高層次任務規劃與低層次全身控制。為應對語言條件任務中自我中心感知的挑戰,我們引入了一個由視覺-語言模型驅動的分層規劃器,實現了長時程指令分解和精確動作執行。在控制層面,我們新穎的全身策略實現了在複雜地形上的穩健協調。我們進一步提出了首個長時程移動操作的基準測試,評估了多樣的室內外場景。通過成功的模擬到現實的轉移,我們展示了系統在實際部署中的泛化能力和魯棒性,強調了腿式機械臂在非結構化環境中的實用性。我們的工作推動了能夠執行複雜動態任務的通用機器人助手的可行性。我們的項目頁面:https://kaijwang.github.io/odyssey.github.io/
尽管外中心视频合成已取得显著进展,但第一人称视角视频生成仍处于探索不足的状态,这需要同时模拟第一人称视角内容以及由佩戴者身体运动引发的相机运动模式。为填补这一空白,我们提出了一项新颖的任务——联合生成第一人称视频与人体运动,该任务面临两大关键挑战:1)视角对齐:生成视频中的相机轨迹必须精确匹配由人体运动推导出的头部轨迹;2)因果互动:合成的人体运动必须在相邻视频帧间与观察到的视觉动态因果对齐。针对这些挑战,我们提出了EgoTwin,一个基于扩散变换器架构的联合视频-运动生成框架。具体而言,EgoTwin引入了一种以头部为中心的运动表示法,将人体运动锚定于头部关节,并融入了一种受控制论启发的交互机制,该机制在注意力操作中显式捕捉视频与运动之间的因果互动。为了进行全面评估,我们精心策划了一个大规模的现实世界数据集,包含同步的文本-视频-运动三元组,并设计了新颖的指标来评估视频与运动的一致性。大量实验验证了EgoTwin框架的有效性。
随着大型语言模型(LLMs)在现实世界应用中的部署日益增多,如何在保持模型效用的同时选择性移除不需要的知识变得至关重要。最近的研究探索了使用稀疏自编码器(SAEs)对单义特征进行精确干预。然而,大多数基于SAE的方法在推理时操作,这不会对模型参数产生持久性改变。此类干预可能被拥有参数访问权限的恶意行为者绕过或逆转。我们提出了CRISP,一种利用SAEs进行持久概念遗忘的参数高效方法。CRISP自动识别跨多个层的显著SAE特征并抑制其激活。我们在两个LLMs上进行了实验,结果表明我们的方法在WMDP基准测试的安全关键遗忘任务上优于先前的方法,成功移除了有害知识,同时保留了一般和领域内的能力。特征级分析显示,CRISP实现了目标与良性概念之间的语义连贯分离,从而精确抑制了目标特征。
促進實體與物體的互動需要準確識別支持特定動作的部件。弱監督功能基礎(WSAG)旨在模仿人類從第三人稱示範中學習的過程,在此過程中,人類無需像素級註釋即可直觀理解功能部件。為實現這一目標,通常通過跨不同視角圖像的共享分類器以及融合部件發現過程的蒸餾策略來學習基礎。然而,由於與功能相關的部件並非總是易於區分,模型主要依賴於分類,往往關注與功能無關的類別特定模式。為解決這一限制,我們超越了孤立的部件層面學習,引入了選擇性原型和像素對比目標,根據可用信息的粒度,在部件和物體層面自適應地學習功能相關線索。首先,我們利用CLIP在自我中心(物體聚焦)和異我中心(第三人稱示例)圖像中找到與動作相關的物體。然後,通過交叉參考互補視角中發現的物體,我們挖掘出每個視角中精確的部件層面功能線索。通過持續學習區分功能相關區域與功能無關的背景上下文,我們的方法有效地將激活從無關區域轉向有意義的功能線索。實驗結果證明了我們方法的有效性。代碼可在github.com/hynnsk/SelectiveCL獲取。
競技程式設計已成為評估大型語言模型(LLMs)推理與編碼能力的關鍵基準。儘管現有基準測試取得了令人矚目的進展,我們認為當前的評估過於誇大了模型的熟練程度,掩蓋了LLMs與頂尖人類程式設計師之間的顯著差距。這一差距源於兩個關鍵限制:基準測試問題的難度與範圍不足,以及低品質測試案例帶來的評估偏差。為解決這些不足,我們提出了AetherCode,這是一個新的基準測試,它取材於IOI和ICPC等頂級程式設計競賽,提供了更廣泛的覆蓋面和更高的難度。AetherCode進一步整合了通過自動生成與人工審核相結合的方式構建的全面、專家驗證的測試套件,確保了評估的嚴謹性和可靠性。通過結合具有挑戰性的問題設計與穩健的評估,AetherCode為LLM能力提供了更真實的衡量標準,並為未來程式碼推理研究設立了新的標準。
在大型语言模型(LLMs)快速发展的推动下,智能体被赋予了将内在知识与动态工具使用相结合的能力,极大地提升了其应对现实世界任务的能力。顺应这一发展趋势,AgentScope在新版本(1.0)中引入了重大改进,旨在全面支持灵活高效的工具驱动型智能体-环境交互,以构建智能应用。具体而言,我们抽象出智能应用所需的基础组件,并提供统一的接口和可扩展的模块,使开发者能够轻松利用最新进展,如新模型和MCPs。此外,我们将智能体行为建立在ReAct范式之上,并基于系统化的异步设计提供先进的智能体级基础设施,这不仅丰富了人-智能体及智能体-智能体间的交互模式,还提升了执行效率。在此基础上,我们整合了多个针对特定实际场景量身定制的内置智能体。AgentScope还包含强大的工程支持,为开发者提供友好的体验。我们提供了一个具有可视化工作室界面的可扩展评估模块,使得长轨迹智能应用的开发更加易于管理和追踪。此外,AgentScope提供了运行时沙箱,确保智能体执行的安全性,并促进在生产环境中的快速部署。通过这些增强功能,AgentScope为构建可扩展、自适应且高效的智能应用奠定了实用基础。
精確診斷在醫學大型語言模型中的應用,因知識缺口與幻覺現象而受阻。檢索與工具增強方法雖有所助益,但其效果受限於外部知識的薄弱運用及反饋推理的可追溯性不足。為應對這些挑戰,我們引入了Deep-DxSearch,這是一個基於強化學習(RL)端到端訓練的代理式RAG系統,旨在實現醫學診斷中可引導的檢索增強推理。在Deep-DxSearch中,我們首先構建了一個大規模的醫學檢索語料庫,涵蓋患者記錄與可靠的醫學知識來源,以支持跨診斷場景的檢索感知推理。更為關鍵的是,我們將LLM定位為核心代理,檢索語料庫作為其環境,通過對格式、檢索、推理結構及診斷準確性定制獎勵,從而從大規模數據中演化出代理式RAG策略,通過RL實現。 實驗表明,我們的端到端代理式RL訓練框架在多個數據中心中持續優於提示工程與無訓練RAG方法。訓練後,Deep-DxSearch在診斷準確性上取得顯著提升,超越如GPT-4o、DeepSeek-R1等強勁診斷基線,以及針對常見與罕見疾病診斷的醫學專用框架,無論是在分佈內還是分佈外設置下。此外,獎勵設計與檢索語料庫組件的消融研究證實了它們的關鍵作用,凸顯了我們方法相比傳統實現的獨特性與有效性。最後,案例研究與可解釋性分析展示了Deep-DxSearch診斷策略的改進,為其性能提升提供了更深入的見解,並支持臨床醫生提供更可靠與精確的初步診斷。詳見https://github.com/MAGIC-AI4Med/Deep-DxSearch。
近期的視頻編輯方法在風格轉換或外觀修改方面取得了引人注目的成果。然而,在視頻中編輯三維場景的結構內容仍然具有挑戰性,尤其是在處理顯著的視角變化時,如大幅度的攝像機旋轉或變焦。關鍵挑戰包括生成與原始視頻保持一致的新視角內容、保留未編輯區域,以及將稀疏的二維輸入轉化為逼真的三維視頻輸出。為解決這些問題,我們提出了Sketch3DVE,這是一種基於草圖的三維感知視頻編輯方法,能夠對具有顯著視角變化的視頻進行精細的局部操控。為應對稀疏輸入帶來的挑戰,我們採用圖像編輯方法生成首幀的編輯結果,並將其傳播至視頻的其餘幀。我們利用草圖作為精確幾何控制的交互工具,同時也支持其他基於掩碼的圖像編輯方法。為處理視角變化,我們對視頻中的三維信息進行了詳細分析和操控。具體而言,我們利用密集立體方法估計輸入視頻的點雲和攝像機參數。隨後,我們提出了一種點雲編輯方法,使用深度圖來表示新編輯組件的三維幾何形狀,並將其有效地與原始三維場景對齊。為了無縫地將新編輯內容與原始視頻融合,同時保留未編輯區域的特徵,我們引入了一種三維感知的掩碼傳播策略,並採用視頻擴散模型來生成逼真的編輯視頻。大量實驗證明了Sketch3DVE在視頻編輯中的優越性。主頁與代碼:http://geometrylearning.com/Sketch3DVE/
近期,視覺-語言-動作(VLA)模型在一系列機器人任務中展現了卓越的性能。這些模型依賴於多模態輸入,其中語言指令扮演著關鍵角色——不僅在預測動作方面,還在於即使請求無法實現時,也能穩健地解讀用戶意圖。在本研究中,我們探討了VLA模型如何識別、解釋並回應基於錯誤前提的指令:這些自然語言命令涉及環境中不存在的物體或條件。我們提出了「指令-驗證-執行」(IVA)這一統一框架,該框架能夠(i)檢測因錯誤前提而無法執行的指令,(ii)進行基於語言的澄清或修正,以及(iii)將可行的替代方案基於感知和動作進行落地。為此,我們構建了一個大規模的指令微調設置,包含結構化的語言提示,並訓練了一個能夠處理準確與錯誤請求的VLA模型。我們的方法利用了上下文增強的半合成數據集,其中包含配對的正確與錯誤前提指令,從而實現了穩健的檢測和自然語言修正。實驗結果顯示,IVA在錯誤前提檢測準確率上較基準提升了97.56%,同時在錯誤前提情境下的成功回應率提高了50.78%。
多頭潛在注意力機制(Multi-Head Latent Attention, MLA)在DeepSeek-V2中被引入,其將鍵值狀態壓縮為低秩潛在向量,僅緩存此向量以減少記憶體佔用。然而,在張量並行(Tensor Parallelism, TP)中,注意力頭被分散在多個設備上計算,每個設備都需加載完整的緩存,這削弱了MLA相較於分組查詢注意力(Grouped Query Attention, GQA)的優勢。我們提出了張量並行潛在注意力機制(Tensor-Parallel Latent Attention, TPLA):該方案將潛在表示和每個頭的輸入維度在設備間進行分區,獨立執行每個分片的注意力計算,然後通過全歸約(all-reduce)合併結果。TPLA在保持壓縮鍵值緩存優勢的同時,釋放了TP的效率。與分組潛在注意力(Grouped Latent Attention, GLA)不同,TPLA中的每個頭仍能利用完整的潛在表示,維持更強的表示能力。TPLA與使用MLA預訓練的模型完全兼容:它支持MLA風格的預填充,並能在不重新訓練的情況下實現高效的張量並行解碼。在TP分片前應用簡單的正交變換——例如哈達瑪變換或主成分分析(PCA)——進一步減輕了跨分片干擾,使精度下降最小化。通過減少DeepSeek-V3和Kimi-K2的每設備鍵值緩存,我們在32K令牌上下文長度下分別實現了1.79倍和1.93倍的加速,同時在常識推理和LongBench基準測試中保持了性能。TPLA可與FlashAttention-3結合實現,從而實現實用的端到端加速。
三維高斯潑濺(3DGS)在新視角合成(NVS)中展現了顯著的效能。然而,其存在一個顯著缺陷:實現高保真渲染通常需要大量的三維高斯分佈,導致記憶體消耗與儲存需求大幅增加。為應對這一挑戰,我們提出了首個針對3DGS的知識蒸餾框架,該框架包含多種教師模型,如基礎3DGS、噪聲增強變體及丟棄正則化版本。這些教師模型的輸出被整合以指導輕量級學生模型的優化。為蒸餾隱藏的幾何結構,我們提出了一種結構相似性損失,以增強學生與教師模型間空間幾何分佈的一致性。通過跨多樣數據集的全面定量與定性評估,所提出的Distilled-3DGS,這一簡潔而有效的框架,在渲染質量與儲存效率上相較於現有技術方法,均取得了令人鼓舞的渲染成果。項目頁面:https://distilled3dgs.github.io。代碼:https://github.com/lt-xiang/Distilled-3DGS。
輪廓或閉合平面曲線在多個領域中普遍存在。例如,在計算機視覺中它們作為物體邊界出現,在氣象學中作為等值線,以及在旋轉機械的軌跡中。在許多從輪廓數據學習的情況下,輸入的平面旋轉將導致相應旋轉的輸出。因此,深度學習模型應具有旋轉等變性。此外,輪廓通常表示為邊緣點的有序序列,其中起始點的選擇是任意的。因此,深度學習方法在循環移位下也應具有等變性。我們提出了RotaTouille,這是一個從輪廓數據學習的深度學習框架,通過複數值圓周卷積實現了旋轉和循環移位的等變性。我們進一步引入並表徵了等變非線性、粗化層和全局池化層,以獲得用於下游任務的不變表示。最後,我們通過形狀分類、重建和輪廓回歸的實驗展示了RotaTouille的有效性。
大型語言模型(LLMs)在人類中心推理任務上展現了強大的性能。雖然先前的評估已探討過LLMs是否能推斷意圖或偵測欺騙,但它們往往忽略了影響人們在社交情境中解讀與行動的個體化推理風格。社交推理遊戲(SDGs)為評估個體化推理風格提供了一個自然的測試平台,其中不同玩家在相同條件下可能採用多樣但情境有效的推理策略。為此,我們引入了InMind,這是一個基於認知科學的評估框架,旨在評估LLMs能否在SDGs中捕捉並應用個性化的推理風格。InMind通過在觀察者與參與者模式下收集的回合級策略軌跡與賽後反思,增強了結構化的遊戲數據。它支持四項認知驅動的任務,共同評估靜態對齊與動態適應。作為案例研究,我們將InMind應用於遊戲《阿瓦隆》,評估了11個最先進的LLMs。通用型LLMs,即便是GPT-4o,也常依賴詞彙線索,難以將反思錨定於遊戲進程或適應策略的演變。相比之下,如DeepSeek-R1等推理增強型LLMs則展現出風格敏感推理的早期跡象。這些發現揭示了當前LLMs在個體化、適應性推理能力上的關鍵限制,並將InMind定位為邁向認知對齊的人機互動的一步。
在三維人體姿態與形狀估計領域,SMPLify作為一個穩健的基準方法,通過迭代優化解決逆運動學(IK)問題。然而,其高昂的計算成本限制了其實用性。近年來,跨領域的研究表明,用數據驅動的神經網絡替代迭代優化,可以在不犧牲精度的情況下顯著提升運行效率。受此趨勢啟發,我們提出了可學習的SMPLify,這是一個神經框架,它用單次回歸模型取代了SMPLify中的迭代擬合過程。我們的框架設計針對神經IK中的兩個核心挑戰:數據構建與泛化能力。為了實現有效訓練,我們提出了一種時間採樣策略,從序列幀中構建初始化-目標對。為了提升對多樣動作及未見姿態的泛化能力,我們採用了以人為中心的歸一化方案和殘差學習,以縮小解空間。可學習的SMPLify支持序列推理和作為插件進行後處理,以精煉現有的基於圖像的估計器。大量實驗證明,我們的方法確立了其作為一個實用且簡潔的基準:相比SMPLify,其運行速度提升了近200倍,在3DPW和RICH數據集上展現出良好的泛化能力,並且在作為LucidAction的插件工具時,能以模型無關的方式運行。代碼已開源於https://github.com/Charrrrrlie/Learnable-SMPLify。
推理能力在大型語言模型(LLMs)的廣泛應用中扮演著至關重要的角色。為了提升LLMs的推理表現,多種基於強化學習(RL)的微調方法被提出,以解決僅通過監督式微調(SFT)訓練的LLMs在泛化能力上的限制。儘管這些方法有效,但兩大主要限制阻礙了LLMs的進一步發展。首先,傳統的RL方法忽略了註解的思維鏈(CoT),並採用了不穩定的推理路徑採樣,這通常導致模型崩潰、訓練過程不穩定以及次優表現。其次,現有的SFT方法普遍過度強調註解的CoT,可能因未能充分利用潛在的CoT而導致性能下降。本文提出了一種基於註解CoT的對比學習強化微調方法,即,以提升LLMs的推理表現,同時解決上述限制。具體而言,我們提出為每個CoT學習一個表示,並基於此表示設計新穎的對比信號來指導微調過程。我們的方法不僅充分利用了可用的註解CoT,還通過引入額外的無監督學習信號來穩定微調程序。我們進行了全面的實驗和深入分析,與三種基線方法、兩種基礎模型和兩個數據集進行比較,展示了在魯棒性、性能(提升至10.15%)和效率(提升至30.62%)方面的顯著優勢。代碼可在https://github.com/WNQzhu/CARFT 獲取。
評估越獄攻擊的挑戰在於,當提示並非明顯有害或未能誘導出有害輸出時。遺憾的是,許多現有的紅隊數據集包含此類不適宜的提示。為了準確評估攻擊,這些數據集需要進行惡意性評估和清理。然而,現有的惡意內容檢測方法要么依賴於人工標註,這既耗時又費力;要么依賴於大型語言模型(LLMs),而這些模型在有害類型上的準確性並不一致。為了在準確性和效率之間取得平衡,我們提出了一種名為MDH(基於LLMs並輔以人工協助的惡意內容檢測)的混合評估框架,該框架結合了基於LLM的標註與最小化的人工監督,並將其應用於數據集清理和越獄響應的檢測。此外,我們發現精心設計的開發者消息能顯著提升越獄成功率,這促使我們提出了兩種新策略:D-Attack,利用上下文模擬;以及DH-CoT,融合了被劫持的思維鏈。相關代碼、數據集、判斷結果及檢測結果將發佈於GitHub倉庫:https://github.com/AlienZhang1996/DH-CoT。