每日精選AI研究論文及翻譯
基於驗證者獎勵的強化學習(RLVR)已成為在推理任務上對大型語言模型進行後訓練的廣泛應用方法,其中以群組為基礎的方法(如GRPO及其變體)獲得廣泛採用。這些方法依賴群組相對優勢估計來避免學習批評器,但其理論特性仍鮮為人知。 本研究揭示了群組式強化學習的根本問題:群組相對優勢估計量相對於真實(期望)優勢存在固有偏差。我們首次透過理論分析證明,該估計量會系統性地低估困難提示的優勢,同時高估簡單提示的優勢,導致探索與利用的失衡。為解決此問題,我們提出歷史感知自適應難度加權(HA-DW),這是一種根據動態難度錨點與訓練狀態調整優勢估計的自適應加權方案。在五個數學推理基準上的理論分析與實驗均表明,HA-DW在整合至GRPO及其變體時能持續提升效能。我們的結果顯示,修正偏差化的優勢估計對於實現穩健且高效的RLVR訓練至關重要。
人工智慧代理融入經濟市場,從根本上改變了策略互動的格局。我們在三種經典賽局理論情境中,探討技術選擇擴張對經濟的影響:議價(資源分配)、談判(非對稱資訊交易)與說服(策略性資訊傳遞)。研究發現,僅是增加人工智慧代理的選擇,就足以大幅改變均衡收益與監管結果,往往會激勵監管機構主動開發並發布技術。相反地,我們也發現名為「毒蘋果」效應的策略現象:行為者可能發布一項新技術,但最終自身與對手皆未採用,其目的純粹是為了操控監管機構選擇對自身有利的市場設計。這種策略性發布行為以犧牲對手利益與監管公平性目標為代價,提升發布者的福祉。我們的研究結果表明,靜態監管框架易受技術擴張的操縱,因此需要動態市場設計來適應人工智慧能力不斷演進的格局。
讓大型語言模型(LLMs)在多輪互動中有效運用工具,是建構強大自主代理器的關鍵。然而,獲取多樣化且真實的多輪工具使用數據仍是重大挑戰。本研究提出一種新穎的文本驅動範式:我們觀察到文本語料庫天然蘊含豐富的多步驟問題解決經驗,可作為多輪工具使用任務中尚未開發、可擴展且真實的數據源。基於此洞見,我們提出GEM數據合成流程,通過四階段處理(相關性過濾、工作流與工具提取、軌跡錨定、複雜度優化)從文本語料生成並提取多輪工具使用軌跡。為降低計算成本,我們進一步通過監督式微調訓練專用的軌跡合成器,將複雜生成流程精簡為高效的端到端軌跡生成模型。實驗表明,我們的GEM-32B模型在BFCL V3多輪基準測試中實現16.5%的性能提升,其部分表現甚至超越使用τ-bench(航空與零售領域)內部數據訓練的模型,彰顯文本驅動合成範式所賦予的卓越泛化能力。值得注意的是,我們的軌跡合成器在保持與完整流程同等質量的同時,顯著降低了推理延遲與成本。
具備可驗證獎勵的強化學習(RLVR)在數學等推理密集型領域已取得重大進展。然而,由於缺乏真實標籤,優化開放式生成任務仍具挑戰性。雖然基於評分準則的評估為驗證提供了結構化代理方案,但現有方法存在可擴展性瓶頸與評判標準粗糙的問題,導致出現監督天花板效應。為解決此問題,我們提出自動化「由粗到細評分準則生成」框架。通過融合原則引導的準則合成、多模型聚合與難度演化機制,我們的方法能產出全面且具高辨識度的評判標準,精準捕捉生成內容的細微差異。基於此框架,我們構建了RubricHub——一個大規模(約11萬條)多領域數據集。我們通過兩階段後訓練流程驗證其有效性,包括基於評分準則的拒絕採樣微調(RuFT)與強化學習(RuRL)。實驗結果表明,RubricHub能顯著提升模型性能:經後訓練的Qwen3-14B模型在HealthBench基準上達到69.3分的頂尖水平,超越GPT-5等專有前沿模型。相關代碼與數據即將開源。
個人化大型語言模型(LLMs)通過適應用戶個性特徵來提升使用者滿意度,然而這種個人化機制可能無意間扭曲事實推理。我們發現,當個人化LLMs處理事實性查詢時,會出現模型生成答案與用戶歷史偏好而非客觀事實相符的現象,導致「個人化誘導幻覺」——這種因個人化表徵與事實表徵的糾纏所產生的效應,不僅削弱模型的事實可靠性,更可能傳播錯誤認知。為解決此問題,我們提出「事實性保持的個人化導向」(FPPS),一種輕量級的推理時介入方法,能在維持個人化行為的同時有效抑制個人化引發的事實扭曲。我們進一步建立PFQABench,首個專為評估個人化情境下事實問答與個性化問答綜合表現的基準測試。跨多種LLM基礎模型與個人化方法的實驗表明,FPPS在保持個人化性能的同時,能顯著提升事實準確性。
視覺-語言-動作(VLA)模型已成為應對多樣化操作任務的重要通用機器人策略,傳統上依賴透過視覺-語言模型(VLM)嵌入將多模態輸入直接轉換為動作。近期研究引入顯性中介推理(如子任務預測的語言推理或目標圖像合成的視覺推理)來指導動作生成。然而,這類中介推理往往具有間接性,且本質上難以傳遞精確動作執行所需的完整細粒度資訊。為此,我們提出最有效的推理形式應是直接在動作空間中進行決策。我們引入動作思維鏈(ACoT),該範式將推理過程本身構建為指導最終策略的結構化粗略動作意圖序列。本文提出ACoT-VLA架構,具體實現ACoT範式。我們設計兩個互補組件:顯性動作推理器(EAR)與隱性動作推理器(IAR)。前者生成粗略參考軌跡作為顯性動作層級推理步驟,後者從多模態輸入的內部表徵提取潛在動作先驗,共同形成ACoT以制約下游動作頭模組,實現具身化的策略學習。在真實環境與模擬環境中的大量實驗表明,我們的方法在LIBERO、LIBERO-Plus和VLABench數據集上分別達到98.5%、84.1%和47.4%的優異性能。
基於強化學習的智能體搜索技術使大型語言模型能夠透過動態規劃與外部搜索來解決複雜問題。儘管這種方法透過大規模強化學習優化的智能體策略顯著提升了準確性,我們發現其可靠性存在關鍵缺陷:這些智能體無法識別自身推理的邊界,即使在證據不足或推理達到極限時也極少承認「我不知道」(IDK)。這種可靠性的缺失常導致產生看似合理但不可靠的答案,在諸多現實場景中會引發重大風險。為此,我們提出邊界感知策略優化(BAPO),這是一種新穎的強化學習框架,旨在培養可靠的邊界意識而不犧牲準確性。BAPO包含兩個核心組件:(i)基於群組的邊界感知獎勵機制,僅在推理達到極限時激勵模型給出IDK回應;(ii)自適應獎勵調節器,在早期探索階段策略性地暫停此獎勵,防止模型將IDK作為捷徑濫用。在四個基準測試上的大量實驗表明,BAPO能顯著提升智能體搜索的整體可靠性。
近年來,基於文本提示的人體動作生成技術取得了顯著進展。然而,由於缺乏細粒度、部位層級的動作標註,現有方法主要依賴序列層級或動作層級的描述,這限制了個別身體部位的可控性。本研究利用大型語言模型的推理能力,構建了一個具有原子化且具時間感知的部位層級文本標註之高品質動作資料集。有別於先前僅提供固定時間段同步部位標註或僅依賴全局序列標籤的資料集,我們的資料集以精細時間解析度捕捉非同步且語義獨立的部位運動。基於此資料集,我們提出一個基於擴散模型的部位感知動作生成框架FrankenMotion,其中每個身體部位由其專屬的時間結構化文本提示引導。據我們所知,這是首個提供原子化時間感知部位層級動作標註,並實現兼具空間(身體部位)與時間(原子化動作)控制之動作生成模型的研究。實驗表明,FrankenMotion在針對我們設定進行改編與重新訓練的所有基準模型中表現最優,且能組合出訓練時未見過的動作。我們的程式碼與資料集將於論文發表時公開釋出。
部署大型語言模型時面臨兩個相互關聯的挑戰:(1) 監控層面——在流量與領域發生偏移時,評估模型在哪些環節表現不佳;(2) 改進層面——通過優先獲取數據來彌補最大的性能差距。我們驗證了在領域遷移情境下,能否透過推理階段的信號來估算細分層級的準確率。針對每個模型回應,我們根據最終層的下一個詞元概率(來自top-k對數概率)計算輸出熵分佈曲線,並用十一項統計量進行特徵概括。透過輕量級分類器預測單個實例的正確性,再對預測概率取平均值即可得到領域層級的準確率估算。我們在十個STEM推理基準測試上進行評估(採用完整的訓練/測試組合,k值取{1,2,3,4}的所有「10選k」組合),並涵蓋六個模型家族的九款LLM(參數量3B-20B)。實驗顯示估算值能有效追蹤隱藏基準的準確率,且多個模型呈現出近乎單調的領域排序規律。這表明輸出熵分佈曲線可作為可擴展監控及數據獲取目標定位的有效信號。
監督式微調(SFT)是將大型語言模型(LLM)與人類意圖對齊的基礎訓練後策略。然而,傳統SFT常因強制模型對齊單一參考答案而忽略語言的一對多特性,導致模型過度擬合非核心表達。儘管實證分析表明引入多重參考答案可緩解此問題,但高昂的數據與計算成本促使策略轉向:與其耗費成本追求答案多樣性,更應優先解決單一參考導致的過擬合問題。為此,我們揭示詞元概率與語義重要性間的內在關聯:高概率詞元承載核心邏輯框架,而低概率詞元多為可替換表達。基於此發現,我們提出ProFit方法,透過選擇性遮罩低概率詞元來防止表面層級的過度擬合。大量實驗證實,ProFit在通用推理與數學基準測試中均穩定優於傳統SFT基線模型。
未来运动表征(如光流)在控制和生成任务中具有重要价值。然而,预测具有泛化能力的空间密集运动表征仍是核心挑战,且从嘈杂的真实世界数据中学习此类预测的研究尚属空白。我们提出FOFPred——一种采用统一视觉语言模型与扩散架构的新型语言条件光流预测模型。这种独特组合通过像素级生成保真度实现了强大的多模态推理能力,用于未来运动预测。我们的模型基于网络规模的人类活动数据进行训练,这种数据源具有高度可扩展性但结构松散。为从嘈杂的视频-文本数据中提取有效信号,我们采用了关键的数据预处理技术,并借助强图像预训练构建统一架构。训练完成的模型可进一步应用于控制和生成两大下游任务。在语言驱动场景下进行的机器人操控与视频生成评估表明,FOFPred具有跨领域通用性,验证了统一VLM-扩散架构及从多样化网络数据中进行可扩展学习对未来光流预测的价值。
三維形狀生成技術近期取得顯著進展,但現有方法大多依賴於乾淨、無遮擋且精確分割的輸入數據,這在現實場景中極難滿足。本文提出ShapeR——一種從隨意捕獲的序列中進行條件式三維物體形狀生成的新方法。針對輸入的圖像序列,我們整合現成的視覺-慣性SLAM技術、三維檢測算法及視覺-語言模型,為每個物體提取稀疏SLAM點雲、多視角位姿圖像及機器生成描述。通過訓練修正流轉換器有效融合這些模態信息,最終生成高保真度的度量三維形狀。為提升對隨意捕獲數據挑戰的魯棒性,我們採用動態組合增強、跨物體與場景級數據集的課程學習策略,以及背景雜訊處理技術。此外,我們構建了包含7個真實場景、178個帶幾何標註的野外物體的新評估基準。實驗表明,在此挑戰性設定下,ShapeR顯著優於現有方法,其倒角距離指標相較當前最優技術提升2.7倍。
大型语言模型已在多领域展现出卓越能力,但复杂推理背后的运作机制仍不明确。近期研究发现,推理模型在复杂认知任务上表现优于同等规模的指令微调模型,传统归因于通过更长思维链实现的扩展计算。本文提出,推理能力的提升不仅源于计算扩展,更关键的是通过模拟多智能体交互——即"思维社会"——实现由不同个性特征与领域专长驱动的内部认知视角多元化与辩论。通过对推理轨迹的定量分析和机制可解释性研究,我们发现DeepSeek-R1与QwQ-32B等推理模型展现出远高于指令微调模型的视角多样性,在推理过程中会激活更广泛的异质性人格特征与专业知识特征间的冲突。这种多智能体结构具体表现为对话行为(包括问答、视角转换和矛盾观点调和)以及体现激烈交锋对话的社会情感角色,共同构成推理任务中的准确率优势。受控强化学习实验表明,当仅以推理准确率为奖励时,基础模型会增强对话行为;而采用对话支架进行微调的模型比基础模型能更快提升推理能力。这些发现表明,思维的社会化组织能有效拓展解空间的探索范围。我们认为推理模型建立了人类群体集体智能的计算平行体——当系统化构建多样性时,能催生更优越的问题解决能力,这为通过智能体组织利用群体智慧开辟了新路径。
物理定律是真实视觉模拟的根基,却在基于Transformer的视频生成领域遭到显著忽视。这一空白凸显了渲染刚体运动——经典力学核心准则——的关键局限性。虽然计算机图形学与物理模拟器能轻松运用牛顿公式建模此类碰撞,现代预训练-微调范式却在像素级全局去噪过程中摒弃了物体刚性的概念。即便完全正确的数学约束,在训练后阶段的模型优化中也被视作次优解(即条件),从根本上限制了生成视频的物理真实感。基于这些考量,我们首次提出面向视频生成模型的物理感知强化学习范式,该范式直接在髙维空间强制执行物理碰撞规则,确保物理知识被严格应用而非作为条件处理。随后,我们将该范式扩展为统一框架Mimicry-Discovery循环(MDcycle),在充分保留模型利用物理基础反馈能力的同时实现大规模微调。为验证方法有效性,我们构建了新基准测试集PhysRVGBench,并通过大量定性与定量实验全面评估其性能。
尽管图形用户界面智能体在明确指令和任务完成场景下已展现出强大性能,但其实际部署需与用户更复杂的隐性意图保持对齐。本研究重点探讨面向个性化GUI智能体的分层隐性意图对齐(PersonalAlign),该新型智能体任务要求智能体利用长期用户记录作为持久上下文,以解析模糊指令中被省略的偏好,并根据用户状态预判潜在行为模式以提供主动协助。为推进该研究,我们推出了AndroidIntent基准测试平台,旨在通过长期用户记录推理评估智能体解析模糊指令和提供主动建议的能力。我们从不同用户的2万条长期记录中标注了775项用户专属偏好和215种行为模式用于评估。此外,我们提出了分层意图记忆智能体(HIM-Agent),该架构通过持续更新的个人记忆库分层管理用户偏好与行为模式以实现个性化服务。最终我们在AndroidIntent上评估了包括GPT-5、Qwen3-VL和UI-TARS在内的多款GUI智能体,实验结果表明HIM-Agent将任务执行准确率和主动服务效能分别显著提升15.7%和7.3%。
前沿语言模型的能力正在快速提升,因此我们需要更强大的防护机制来防止恶意行为者滥用日益强大的系统。已有研究表明激活探针可能是一种有效的滥用防护技术,但我们发现一个关键挑战:探针在重要的生产环境分布偏移下泛化能力不足。特别是从短上下文输入转向长上下文输入时,现有探针架构表现不佳。我们提出了几种能应对长上下文分布偏移的新型探针架构。 我们在网络攻击领域评估了这些探针,测试其针对多轮对话、静态越狱和自适应红队测试等生产环境相关偏移的鲁棒性。结果表明,虽然多重最大化方法能应对上下文长度问题,但实现广泛泛化仍需结合架构选择与多样化分布训练。此外,通过将探针与提示分类器结合,我们以较低成本实现了最优准确率,这得益于探针的计算效率。 这些研究成果已成功应用于Gemini(谷歌前沿语言模型)用户端实例中的滥用防护探针部署。最后,我们利用AlphaEvolve在探针架构搜索和自适应红队测试方面取得了初步积极成果,表明部分AI安全研究已可实现自动化。
基于大语言模型(LLM)的自主智能体展现出多维度赋能经济生产的潜力,但现有基准测试仍聚焦单一智能能力,难以模拟长周期现实场景。此外,依赖人工反馈的真实任务评估存在可扩展性瓶颈,阻碍了自动化流程的推进。为弥补这一空白,我们推出AgencyBench——一个源自日常AI应用场景的综合评估体系,通过32个现实场景中的138项任务(含具体查询、交付物和评估标准),系统评估6大核心智能能力。这些场景平均需调用90次工具、处理100万token并耗费数小时执行时间。为实现自动化评估,我们采用用户模拟智能体提供迭代反馈,并通过Docker沙箱进行基于视觉与功能指标的量化评估。实验表明:闭源模型表现显著优于开源模型(48.4% vs 32.1%)。深入分析揭示了模型在资源效率、反馈驱动自我修正及特定工具使用偏好等方面的显著差异。最后,我们探究了智能体框架的影响,发现专有模型在其原生生态中表现更优(如通过Claude-Agent-SDK调用的Claude-4.5-Opus),而开源模型在不同执行框架下呈现差异化性能峰值,暗示其存在特定优化空间。AgencyBench作为新一代智能体的关键测试平台,揭示了模型架构与智能体框架协同优化的必要性。本研究为自主智能体的发展指明方向,完整基准与评估工具包已发布于https://github.com/GAIR-NLP/AgencyBench。
大型视觉语言模型(LVLM)已展现出卓越的能力,但其在多图像理解与推理方面的熟练度仍亟待探索。尽管现有基准测试已启动对多图像模型的评估,但对其核心缺陷及其成因的系统性分析仍属空白。本研究推出MIMIC(多图像模型洞察与挑战)基准,旨在严格评估LVLM的多图像处理能力。通过MIMIC进行的系列诊断实验揭示了普遍性问题:LVLM往往难以整合跨图像信息,且在同步追踪或关注多重概念时存在困难。针对这些缺陷,我们提出两项创新性互补解决方案。在数据层面,我们提出程序化数据生成策略,将单图像注释合成为具有针对性的丰富多图像训练样本;在优化层面,我们通过分析层级注意力模式,推导出专为多图像输入设计的注意力掩码方案。实验表明,该方法显著提升了跨图像聚合能力,并在现有多图像基准测试中实现性能提升,多项任务表现超越先前最优水平。数据与代码将发布于https://github.com/anurag-198/MIMIC。
近期具备自主行为能力的大型语言模型(LLM)已发展成为能够跨领域推理与执行的通用规划器。然而现有智能体基准测试主要聚焦符号化或弱实体化环境,导致其在物理约束下的现实领域性能研究尚不充分。我们推出AstroReason-Bench这一综合性基准测试平台,专门用于评估空间规划问题(SPP)中的智能体规划能力——该类高风险问题具有异构目标、严格物理约束和长周期决策等特点。该平台整合了地面站通信、敏捷对地观测等多种调度机制,并提供统一的智能体交互协议。通过对多款前沿开源与闭源智能体LLM系统的评估,我们发现当前智能体在专业求解器面前表现显著逊色,这揭示了通用规划器在现实约束下的关键局限。AstroReason-Bench为未来智能体研究提供了一个兼具挑战性与诊断性的测试平台。
基于扩散模型的视频生成方法虽能合成视觉逼真的视频,却常难以满足物理约束。究其根源,现有方案多停留于单阶段范式:将高层物理理解与底层视觉合成相耦合,导致生成需显式物理推理的内容时存在困难。为突破此局限,我们提出免训练的三阶段流程PhyRPR:物理推理—物理规划—物理优化,实现物理理解与视觉合成的解耦。具体而言,物理推理阶段采用大型多模态模型进行物理状态推演,并配合图像生成器合成关键帧;物理规划阶段通过确定性方法生成可控的粗粒度运动骨架;物理优化阶段则通过隐空间融合策略将运动骨架注入扩散采样过程,在保持规划动态的同时优化外观表现。这种分阶段设计使生成过程具备显式物理控制能力。在物理约束条件下的广泛实验表明,本方法能持续提升生成内容的物理合理性与运动可控性。
我们通过NeurIPS 2025视觉语言推理数据策展挑战赛(DCVLR)研究多模态推理的数据策展方法。该挑战赛通过固定模型与训练方案来隔离数据集选择的影响。我们使用主要源自Walton多模态冷启动项目的精简数据集参赛,最终获得冠军。赛后消融实验表明:在基础对齐数据集上实施基于难度的样本选择是提升性能的关键驱动因素。在固定训练方案下,扩大数据集规模虽能降低实验随机误差,但无法持续提升平均准确率;而常用的多样性增强和合成数据启发式方法不仅无益,反而常导致性能下降。这些结果表明DCVLR属于饱和态评估范式,并凸显了数据对齐与难度筛选在高效多模态推理中的核心作用。
輸出多樣性對大型語言模型至關重要,因為它支撐著多元性與創造力。本研究揭示,通過控制模型思維過程中的語言載體——即「思維語言」,能為輸出多樣性提供一個新穎且結構化的來源。初步研究表明,不同思維語言在模型的思維空間中佔據著不同區域。基於此發現,我們研究了多語言思維下的兩種重複抽樣策略——單語言抽樣與混合語言抽樣,並對所有輸出(無論使用何種思維語言)統一控制為英語進行多樣性評估。大量實驗表明,將思維語言從英語切換至非英語語言能持續提升輸出多樣性,且存在清晰穩定的正相關性:思維空間中與英語距離越遠的語言帶來的增益越大。我們進一步證實,通過組合效應聚合多種思維語言的樣本可產生額外提升,而基於語言異質性的擴展抽樣能突破模型的多元性上限。最後,我們驗證這些發現可轉化為多元對齊場景的實際效益,使LLM輸出能更廣泛涵蓋文化知識與價值取向。相關代碼已開源於:https://github.com/iNLP-Lab/Multilingual-LoT-Diversity。