每日精選AI研究論文及翻譯
少步生成長期以來一直是研究目標,近期以MeanFlow為代表的單步生成方法取得了顯著成果。現有對MeanFlow的研究主要聚焦於類別到圖像的生成,然而一個直觀卻尚未探索的方向是將條件從固定類別標籤擴展至靈活的文本輸入,從而實現更豐富的內容創作。相較於有限的類別標籤,文本條件對模型的理解能力提出了更高要求,需要將強大的文本編碼器有效整合到MeanFlow框架中。令人驚訝的是,儘管引入文本條件看似直接,我們發現採用傳統訓練策略整合基於LLM的強大文本編碼器會導致性能不盡理想。為探究根本原因,我們進行了細緻分析並揭示:由於MeanFlow生成過程的精煉步數極少(例如僅一步),文本特徵表徵需具備足夠高的區分度。這也解釋了為何離散且易於區分的類別特徵在MeanFlow框架中表現優異。基於這些發現,我們採用經過驗證具備所需語義特性的LLM文本編碼器,並將MeanFlow生成過程適配至此框架,首次實現了高效的文本條件合成。此外,我們在廣泛使用的擴散模型上驗證了本方法,證實其能顯著提升生成性能。我們希望這項工作能為未來文本條件MeanFlow生成研究提供通用且實用的參考。相關代碼已開源於:https://github.com/AMAP-ML/EMF。
思維鏈推理已成為基於視覺語言模型的自主駕駛軌跡預測關鍵技術,但其自回歸特性會產生延遲成本,難以滿足實時部署需求。潛在思維鏈方法試圖通過將推理壓縮至連續隱藏狀態來縮小差距,但始終未能超越顯式推理方法。我們認為這是由於純語言潛在表徵壓縮的是世界的符號抽象,而非實際主導駕駛的因果動態。為此,我們提出OneVL(具備視覺語言解釋的一步式潛在推理與規劃),這是一個統一的視覺語言模型與世界模型框架,通過由雙輔助解碼器監督的緊湊潛在標記進行推理路由。除了重建文本思維鏈的語言解碼器,我們引入視覺世界模型解碼器來預測未來幀標記,迫使潛在空間內化道路幾何、智能體運動與環境變化的因果動態。三階段訓練流程逐步對齊軌跡、語言與視覺目標的潛在表徵,確保穩定的聯合優化。在推理階段,輔助解碼器被棄用,所有潛在標記通過單次並行處理預填充,實現僅生成答案的預測速度。在四項基準測試中,OneVL成為首個超越顯式思維鏈的潛在思維鏈方法,以僅生成答案的延遲達到最先進精度,並直接證明:當同時接受語言和世界模型監督時,更緊密的壓縮能產生比逐標記冗長推理更具泛化性的表徵。項目頁面:https://xiaomi-embodied-intelligence.github.io/OneVL
大型語言模型正日益被期望成為能與外部具狀態工具環境互動的通用智慧體。模型上下文協定(MCP)與更廣泛的智慧體技能為連接智慧體與可擴展現實服務提供了統一介面,但由於缺乏真實環境與系統化的終身學習機制,訓練魯棒智慧體仍面臨侷限。本文提出Agent-World——一個通過可擴展環境推動通用智慧體智慧發展的自演化訓練競技場。該系統包含兩大核心組件:(1)智慧化環境任務發現機制,能自主探索數千個真實世界環境主題中的主題對齊資料庫與可執行工具生態,並合成具有可控制難度且可驗證的任務;(2)持續自演化智慧體訓練框架,結合多環境強化學習與自演化競技場,通過動態任務合成自動識別能力缺口並驅動針對性學習,實現智慧體策略與環境的協同演化。在23項具有挑戰性的智慧體基準測試中,Agent-World-8B和14B模型持續超越強大的專有模型與環境擴展基線。進一步分析揭示了環境多樣性與自演化輪次相關的擴展規律,為構建通用智慧體智慧提供了重要啟示。
遊戲開發坐落於創意設計與複雜軟體工程的交匯點,需要統籌協調遊戲引擎、即時循環系統以及跨越多個文件的緊密耦合狀態。儘管大型語言模型和代碼智能體現已能輕鬆解決孤立的編程任務,但在根據高層次設計要求生成完整可玩遊戲時,它們往往因跨文件不一致性、場景連線斷裂和邏輯混亂而潰敗。我們通過OpenGame彌合這一鴻溝——首個專為端到端網頁遊戲創作設計的開源智能體框架。其核心是Game Skill技術,這種可演進的複用能力由兩部分構成:通過經驗積累形成項目骨架庫的模板技能,以及維護實時驗證修復方案的調試技能,二者協同使智能體能夠搭建穩定架構並系統性修復集成錯誤,而非僅修補孤立語法問題。驅動該框架的是GameCoder-27B,這個專精遊戲引擎的代碼大模型通過持續預訓練、監督微調與執行錨定強化學習的三階段管道打造而成。由於驗證交互可玩性本質上比檢查靜態代碼更困難,我們進一步推出OpenGame-Bench評估管道,通過無頭瀏覽器執行和視覺語言模型判分,從構建健康度、視覺可用性與意圖對齊度三個維度評測智能體遊戲生成能力。在150個多樣化遊戲提示詞測試中,OpenGame樹立了全新標杆。我們期待OpenGame能推動代碼智能體突破離散式軟體工程問題,邁向構建複雜交互式現實應用的新境界。本框架將完全開源。
影片世界模型在使用者或智能體執行動作時,成功實現了對環境動態的卓越模擬能力。此類模型以動作條件化的影片生成架構為基礎,透過輸入歷史影格與當前動作來預測未來影格。然而,現有方法多侷限於單一智能體場景,難以捕捉真實世界多智能體系統中固有的複雜互動。我們提出MultiWorld——一個支援多智能體多視角世界建模的統一框架,既能實現對多個智能體的精准控制,又能維持跨視角的一致性。我們引入「多智能體條件模組」來達成精確的多智能體可控性,並透過「全局狀態編碼器」確保不同視角間觀測結果的協調性。MultiWorld支援靈活擴展智能體數量與視角配置,並能並行合成不同視角以提升效率。在多玩家遊戲環境與多機器人協作任務上的實驗表明,MultiWorld在影片擬真度、動作跟隨能力與多視角一致性方面均超越基準方法。項目頁面:https://multi-world.github.io/
基於可驗證獎勵的強化學習(RLVR)在提升大型語言模型推理能力方面已展現顯著成效。隨著模型演進為原生多模態架構,將RLVR擴展至影片理解領域變得日益重要,但由於影片任務類型多樣性、高維度視覺輸入重複解碼與預處理的計算開銷,以及眾多敏感超參數下可重現評估的困難,該領域仍處於未充分探索狀態。現有開源RL訓練框架雖為文本和圖像場景提供堅實基礎設施,但缺乏針對影片模態的系統化優化。本研究提出EasyVideoR1——專為影片理解任務訓練大型視覺語言模型設計的完整高效強化學習框架,其貢獻包括:(1)具離線預處理與張量快取的全流程影片RL訓練管線,消除冗餘影片解碼並實現1.47倍吞吐量提升;(2)涵蓋11種影片與圖像問題類型的綜合性任務感知獎勵系統,具統一路由與模組化擴展能力;(3)融合高質量軌跡離線訓練與線上策略探索的混合訓練範式,助力困難任務學習;(4)支持獨立配置像素預算的圖像-影片聯合訓練,實現跨模態相互增強;(5)覆蓋22個主流影片理解基準的異步多基準評估框架,再現精度與官方報告分數高度吻合。
大型語言模型通常透過監督式微調(SFT)與強化學習(RL)進行後訓練,然而如何有效統一高效知識注入與穩健泛化能力仍是挑戰。本研究提出訓練動力學分析,指出SFT可視為策略梯度優化的特例:其隱含獎勵函數極度稀疏,且伴隨不穩定的逆概率加權機制,共同導致單一路徑依賴、熵值崩潰及梯度爆炸等問題。基於此診斷,我們提出群組微調(GFT)——一種統一的後訓練框架,透過雙重機制解決上述固有缺陷:首先,群組優勢學習通過構建多樣化回應群組並推導歸一化對比監督,緩解獎勵稀疏性;其次,動態係數校正透過自適應約束逆概率權重,在維持高效知識注入的同時穩定優化過程。實驗表明,GFT不僅持續超越基於SFT的方法,更能產生與後續RL訓練無縫整合的策略。
大型語言模型正快速演進為能夠進行端到端網頁編碼的互動式程式設計代理,然而現有基準測試僅評估此能力的狹隘面向,通常僅針對文本條件生成採用靜態正確性指標,致使視覺保真度、互動品質與程式碼庫層級推理能力大多未被量測。我們推出多模態基準測試WebCompass,提供網頁工程能力的統一生命週期評估。基於真實網頁編碼實為生成、編輯與修復的迭代循環,WebCompass涵蓋三種輸入模態(文本、圖像、影片)與三種任務類型(生成、編輯、修復),形成七個對應專業工作流程的任務類別。透過多階段人機協同流程,我們精選涵蓋15個生成領域、16種編輯操作類型與11種修復缺陷類型的實例,每個實例均標註易/中/難等級。評估方面,我們採用檢查表引導的LLM-as-a-Judge協議處理編輯與修復任務,並提出創新的Agent-as-a-Judge範式用於生成任務——該範式能在真實瀏覽器中自主執行生成網站,透過模型上下文協議(MCP)探索互動行為,並迭代合成定向測試案例,高度逼近人工驗收測試。我們評估具代表性的閉源與開源模型後發現:(1)閉源模型仍具顯著優勢且能力更均衡;(2)編輯與修復呈現差異化難度特徵,修復能較好保持互動性但執行挑戰更大;(3)美學設計是持續性瓶頸,對開源模型尤為明顯;(4)框架選擇實質影響結果,Vue持續表現困難,而React和Vanilla/HTML則依任務類型呈現較強性能。
目前,为爪式智能体构建训练和评估环境仍需依赖人工密集型的手动流程,难以实现规模化扩展。我们认为,解决这一问题的关键不仅在于数据集,更需要能够按需生成多样化、可验证环境的自动化流程。为此,我们推出了ClawEnvKit——一个能够将自然语言描述实例化为形式化环境的自主生成系统。该流水线包含三大模块:(1)从自然语言输入中提取结构化生成参数的解析器;(2)生成任务规范、工具接口及评分配置的生成器;(3)对生成环境进行可行性、多样性、结构有效性及内部一致性验证的校验器。 基于ClawEnvKit,我们构建了首个大规模爪式智能体基准测试集Auto-ClawEval,涵盖24个类别的1,040个环境。实证表明,Auto-ClawEval在环境连贯性与清晰度方面达到甚至超越人工构建水平,而成本仅为后者的1/13,800。通过对4大模型家族和8种智能体框架的评估,我们发现:框架工程相较基础ReAct基线可提升15.7个百分点的性能;任务完成度仍是主要差异维度,尚无模型能完全覆盖该基准;自动化生成实现了传统方法难以企及的大规模评估。 除静态基准测试外,ClawEnvKit还支持动态实时评估:用户通过自然语言描述所需能力,即可按需获取已验证环境,使评估转变为持续的用户驱动过程。该机制同样可作为按需训练环境生成器,产出能适配智能体当前弱点的任务分布,而非受限于现有用户日志数据。
大型語言模型透過可驗證獎勵的強化學習(RLVR)已實現顯著的推理能力提升。然而隨著模型能力增長,建構高品質獎勵信號變得日益困難,這使得理解RLVR在何種弱監督條件下仍能成功至關重要。我們針對不同模型家族與推理領域,在三個弱監督設定下進行系統性實證研究:稀缺數據、噪聲獎勵及自監督代理獎勵。研究發現泛化能力受訓練獎勵飽和動態支配:具泛化能力的模型會呈現延長的預飽和階段,期間訓練獎勵與下游性能同步提升;而快速飽和的模型則傾向記憶而非學習。我們定義「推理忠實性」(即中間步驟對最終答案的邏輯支持程度)作為預測模型所屬階段的預強化學習屬性,而僅憑輸出多樣性無法提供有效信息。基於這些發現,我們分離持續預訓練與監督式微調的貢獻,發現對顯性推理軌跡進行SFT是弱監督下實現泛化的必要條件,而領域數據的持續預訓練則能放大此效應。將這些方法共同應用於Llama3.2-3B基礎模型後,成功在基礎模型原先失敗的三種設定中實現全面泛化。
随着智能体能力边界的持续拓展,其通过即插即用外部技能完成专业化任务的能力日益增强。然而现有基准测试大多仅检验模型能否使用预设技能,尚未系统评估其从经验中发现技能、在失败后修复技能、以及长期维护技能库一致性的能力。我们提出SkillFlow基准,涵盖20个任务族系的166项任务,每个族系内的任务构建均遵循领域无关执行流(DAEF)框架——该框架定义了智能体工作流范式,使得所有任务具备统一的工作流结构。我们采用智能体终身学习评估协议:智能体从零技能起步,按序解决各族系任务,通过轨迹与规则驱动的技能补丁外化学习成果,并持续更新技能库。实验揭示了显著的能力差距:Claude Opus 4.6通过终身技能演化将任务成功率从62.65%提升至71.08%(+8.43点)。但高技能使用率未必带来高效用:Kimi K2.5虽达到66.87%的技能使用率,仅提升0.60点;Qwen-Coder-Next任务完成率仅44.58%,甚至较基础设置出现性能倒退。SkillFlow为此研究方向提供了结构化测试平台,并对终身学习情境下的技能发现、补丁、迁移及其失效模式进行了深度实证分析。
合併獨立訓練的LoRA適配器是聯合多任務訓練的實用替代方案,但常導致性能下降。現有方法通常將LoRA更新量ΔW=BA視為單一對象,未區分兩個LoRA矩陣。我們發現合併干擾的主要來源是輸出端矩陣B:跨任務時B會反覆使用少量共享方向,而A則保持較高的任務特定性。這導致合併後的適配器過度強調共享方向,使任務特定信息丟失。我們提出Pico(輸出空間預合併干擾校正法),這種無需數據的方法通過在合併前縮減B矩陣的過度共享方向,再重新調整合併後的更新量來實現校正。Pico可直接嵌入現有合併方法(如任務算術法、TIES和TSV-M)。在數學、編程、金融和醫療領域的八個基準測試中,Pico較基礎方法平均準確率提升3.4-8.3個百分點,達成最佳綜合平均性能。該方法還使合併適配器性能超越使用全量任務數據訓練的LoRA。這些結果表明,分開處理兩個LoRA矩陣能有效提升合併效果。
在線蒸餾(OPD)已成為語言模型後訓練中日益重要的範式。然而,我們發現了普遍存在的「誤校準縮放定律」:雖然OPD能有效提升任務準確率,卻會系統性地使模型陷入嚴重過度自信。我們將此問題溯源至資訊錯配:教師監督是在訓練時特權上下文環境下形成的,而部署模型僅能基於運行時資訊回報置信度。我們從理論角度形式化這一觀點,證明以教師為條件的成功率通常無法作為部署時置信度的有效目標,且有益的特權上下文會引發熵崩塌與系統性樂觀偏差。為解決此問題,我們提出校準感知的OPD框架CaOPD,通過模型推演估計實證置信度,以學生模型為基礎的目標取代自回報置信度,並通過相同自蒸餾流程提煉修正後的回應。在多模型與多領域實驗中,CaOPD在保持競爭性能的同時實現帕累托最優校準,並在分佈外泛化與持續學習中展現穩健性。我們的研究表明,能力蒸餾並不意味著校準後的置信度,而置信度應被視為後訓練的核心目標。代碼地址:https://github.com/SalesforceAIResearch/CaOPD
视觉语言模型展现出卓越的能力,但在组合推理方面常常表现不佳,尤其在对词序和属性绑定的处理上存在明显弱点。这种局限源于对比预训练阶段缺乏足够的信息化样本来区分细微的语义差异。尽管困难负样本挖掘提供了可行的解决思路,但现有方法缺乏明确机制来指导语言元素的修改策略。本研究摒弃生成式架构的工程化思路,将词汇具体性确立为负样本效力的根本决定因素。实验表明,修改高具体性词汇能产生更显著的结构与视觉差异,从而提供更强的学习信号。基于此原理,我们提出ConcretePlant方法系统化地分离并操控具象化概念。对InfoNCE损失函数的分析进一步揭示了严重的梯度失衡问题:易区分的样本对会过度主导优化过程,限制模型进行精细学习的带宽。为解决这一退化现象,我们采用边界感知方法构建Cement损失函数,通过将心理语言学评分与样本难度相关联,动态校准训练对的惩罚力度。综合评估验证了这些理论主张。最终整合的Slipform框架在多项组合推理基准测试中实现突破,在广义跨模态检索、单标签/多标签线性探测等任务上均达到最先进水平。
計算機操作智能體在網頁瀏覽、桌面自動化和軟件交互等實際任務中快速提升,某些情況下甚至超越人類表現。然而即使任務與模型保持不變,成功執行一次的智能體在重複執行相同任務時仍可能失敗。這引發了一個根本性問題:若智能體能成功完成某項任務,究竟是什麼阻礙了其穩定發揮?本研究通過三個維度探討計算機操作智能體的不可靠性來源:執行過程中的隨機性、任務描述的模糊性,以及智能體行為的波動性。我們在OSWorld環境中對同一任務進行重複執行實驗,並採用配對統計檢驗來捕捉不同設置下的任務級變化。分析表明,可靠性既取決於任務描述方式,也受智能體跨次執行行為變化的影響。這些發現提示我們需要通過重複執行來評估智能體性能,允許智能體通過交互消除任務模糊性,並優先選擇跨次運行保持穩定的策略。
数学解题能力始终是检验大型语言模型与多模态模型推理能力的难点,但现有基准测试在规模、语言覆盖度和任务多样性方面存在局限。我们推出MathNet——一个高质量、大规模、多模态、多语言的奥数级数学题库及评估基准,用于评估生成式模型的数学推理能力和基于嵌入系统的数学检索能力。该数据集涵盖47个国家、17种语言及近二十年的竞赛题目,包含30,676道专家编写的多领域题目及解答。除核心数据集外,我们还构建了由专家标注的数学等价题与结构相似题对组成的检索基准。 MathNet支持三项任务:(一)数学解题(二)数学感知检索(三)检索增强解题。实验结果表明,即使最先进的推理模型(Gemini-3.1-Pro达78.4%,GPT-5达69.3%)仍面临挑战,而嵌入模型在检索等价题目时表现欠佳。我们进一步发现检索增强生成性能对检索质量高度敏感:例如DeepSeek-V3.2-Speciale通过优质检索实现最高12%的性能提升,创下基准测试最佳成绩。MathNet提供了规模最大的高质量奥数数据集及首个数学题目检索评估基准,相关资源已通过https://mathnet.mit.edu 公开发布。
近年来的端到端语音对话模型实现了自然的人机交互。然而随着用户需求日趋复杂,仅依赖对话能力的模型往往难以应对。为此,引入智能体能力至关重要:通过工具调用机制,这类模型能够突破知识边界,更有效地解决现实任务。但现有研究多集中于核心感知与生成能力,对工具增强扩展的探索相对有限。为弥补这一空白,我们提出VoxMind——一个为端到端语音对话模型提供全面智能体能力的集成框架。基于我们精心构建的470小时AgentChat数据集,我们引入"先思后言"机制,使模型将结构化推理内化为规划与响应生成的关键前提。此外,为缓解大规模工具集成引发的延迟瓶颈,我们提出多智能体动态工具管理架构。通过将检索任务异步委托给与主模型推理轨迹对齐的辅助智能体,该系统有效实现推理延迟与工具集规模的解耦。实验结果表明,VoxMind在智能体性能上取得显著提升:与强基线模型相比,任务完成率从34.88%提升至74.57%,在语音智能体任务上超越Gemini-2.5-Pro,同时保持通用对话质量。相关源代码与数据已公开于https://github.com/MM-Speech/VoxMind。
长视野大型语言模型(LLM)智能体的根本局限在于上下文容量。随着交互时长的增加,工具描述、检索记忆和原始环境反馈会不断累积,进而挤占决策所需的关键信息。与此同时,从任务中获取的有效经验往往在不同任务周期间流失。我们认为,长视野性能并非取决于上下文长度,而在于有限上下文预算内能保留多少与决策相关的信息。本文提出通用智能体(GA)——一个围绕核心原则(上下文信息密度最大化)构建的通用自进化LLM智能体系统。GA通过四个紧密关联的组件实现这一目标:保持接口简洁的最小原子化工具集、默认仅展示高层摘要的分层按需记忆机制、将已验证任务轨迹转化为可复用标准操作流程与可执行代码的自进化模块,以及在长程执行中维持信息密度的上下文截断压缩层。在任务完成度、工具使用效率、记忆有效性、自进化能力和网络浏览等维度,GA在显著减少令牌消耗和交互次数的前提下持续领先主流智能体系统,并能随时间不断进化。项目地址:https://github.com/lsdefine/GenericAgent
当前多模态大语言模型(MLLMs)在短视频理解方面展现出卓越能力,但将长篇幅电影视频转化为具有时间锚点的详细剧本仍面临重大挑战。本文首创视频转剧本(V2S)任务,旨在生成包含角色动作、对话、表情及音频提示的层次化分场景剧本。为此,我们构建了首个由人工标注的基准数据集,并提出一种时序感知的层次化评估框架。此外,我们推出OmniScript——一个专为长篇幅叙事理解设计的80亿参数全模态(视听)语言模型。该模型通过渐进式训练流程实现:先利用思维链监督微调进行情节与角色推理,再采用基于时序分段奖励的强化学习。大量实验表明,尽管参数规模精简,OmniScript在时序定位和多字段语义准确性上显著超越更大规模的开源模型,并与Gemini 3-Pro等顶尖专有模型性能相当。
基于大语言模型的智能体本应能将环境观察融入推理过程:当发现高度相关却出乎意料的信息时,模型理应能主动利用这些发现。但我们证明这一假设对当前的大语言模型智能体并不成立——它们难以对意外信息做出反思或反应。通过在三个基准测试平台(Terminal-Bench、SWE-Bench、AppWorld)中注入完整任务解决方案,我们有意向模型暴露解题线索。虽然智能体在Terminal-Bench上79%-81%的测试中发现了这些方案,但仅有37%-50%的情况会实际交互或利用这些方案。这种差距在AppWorld中最为显著:智能体在超过90%的尝试中看到了声明"此命令可返回完整任务解决方案"的文档,但实际利用率却不足7%。研究表明智能体缺乏我们称之为"环境好奇心"的能力:即识别并探究环境刺激中意外却相关的观察信息。我们识别出影响环境好奇心的三大因素:智能体框架中的可用工具、测试时计算资源以及训练数据分布。实验发现,最大化好奇心的配置方案在原始基准测试中也能取得最佳性能。但即使经过联合优化的智能体,在大多数测试中仍会忽略已发现的解决方案:当前智能体仅将环境视为获取预期信息的工具,而不会借此修正策略或充分利用有效刺激。
脑信号视觉解码是计算机视觉与神经科学交叉领域的关键挑战,需要构建连接神经表征与视觉计算模型的方法。该领域的共同目标是实现可泛化的跨被试模型,而主要障碍在于个体间神经表征存在显著差异,目前仍需为每位被试训练定制模型或进行单独微调。为解决这一难题,我们提出一种基于fMRI的语义视觉解码元优化方法,无需微调即可泛化至新被试。仅需通过新被试少量图像-脑激活示例进行条件化,我们的模型便能快速推断其独特的神经编码模式,从而实现稳健高效的视觉解码。该方法专门针对新被试编码模型的上下文学习进行优化,并通过分层推理执行编码器逆变换的解码过程:首先在多脑区构建多刺激-响应上下文,估计单体素的视觉响应编码器参数;随后在多个体素上构建编码器参数与响应值的上下文,执行聚合式功能逆变换。实验表明,该方法在不同视觉骨干网络上均实现了强大的跨被试、跨扫描仪泛化能力,且无需重新训练或微调。此外,我们的方法既不需要解剖结构对齐,也不依赖刺激重叠。这项研究为构建非侵入式脑解码的通用基础模型迈出了关键一步。
当前大多数智能体仍通过遵循人类设定的奖励规则实现"自我进化",但这种进化本质上依赖外部监督,一旦失去人类指导便会停滞。本研究旨在训练智能体获得内在的元进化能力,使其能在执行任务前自主认知未知环境。 为实现这一目标,我们设计了基于成效的奖励机制,通过评估智能体自主生成的世界知识对下游任务成功率的提升程度来量化进化效果。该奖励信号仅在训练阶段用于引导模型掌握有效探索与知识归纳的方法。在推理阶段,智能体无需外部奖励或人工指令,仅凭内部参数即可实现原生自我进化以适应未知环境。 将这种方法应用于Qwen3-30B和Seed-OSS-36B模型后,其在WebVoyager和WebWalker上的性能提升达20%。尤为显著的是,基于自主生成的世界知识,仅140亿参数的Qwen3紧凑模型甚至超越了未加持的Gemini-2.5-Flash,这为真正意义上的进化型智能体确立了新范式。
游戏为开发语言模型的通用推理能力提供了引人入胜的范式,因其天然需要战略规划、概率推断和自适应决策。然而,现有自我博弈方法仅依赖最终游戏结果,无法区分可迁移的推理模式与游戏特定启发式策略。我们提出的STRATAGEM方案旨在解决推理迁移的两大根本障碍:领域特定性(即习得模式始终受限于游戏语义)和语境固化(即静态游戏环境无法培养渐进式推理)。该方案通过推理可迁移性系数选择性强化展现抽象、领域无关推理的轨迹,同时借助推理进化奖励激励自适应推理能力的发展。在数学推理、通用推理和代码生成的基准测试中,实验结果表明该方法带来显著提升,尤其在需要多步推理的竞赛级数学问题上表现突出。消融研究与人工评估证实,两个组件共同促进了可迁移推理能力的形成。
多模态大语言模型能够准确感知跨模态的数值内容,但在处理以数字、数词、图像或音频形式呈现的相同算术问题时,却难以精确执行多位数乘法运算。由于现有基准测试通常缺乏跨模态的系统性配对实例,难以在模型家族内部及不同模型家族间进行真正的算术能力比较。为此,我们提出一个受控的多模态乘法基准测试,通过可复现生成器生成配对实例,系统性地控制数字长度、数字稀疏度、表征形式(如数字符号与数词)和模态(文本、渲染图像、音频)等变量。我们还定义了算术负载C——总位数与非零位数乘积的简洁机制化指标,作为运算次数的有效代理。所有评估结果显示,准确率随C值增长而急剧下降,当C>100时常趋近于零。事实上,C值在不同模态和模型间始终具有预测性,其R平方值常大于0.5,接近基于中间算术步骤数量的复杂算术负载度量效果。通过感知与计算分离实验发现,多模态性能下降主要源于计算而非感知缺陷:在感知匹配校验中,即使乘法准确率骤降,各模态下的模型表现仍接近完美(>99%)。除测量模型失效临界点外,我们还探究了其内在运算倾向。通过强制补全损失探针评估启发式推理前缀(包括竖式乘法、分配律分解、舍入补偿等),发现文本和视觉模态均倾向于分解策略;而针对特定启发式训练的LoRA适配器虽产生近乎正交的更新,却导致准确率下降,表明基础模型保持着精心调校的内部路由机制。
我们推出SemanticQA评估套件,旨在评估语言模型在语义短语处理任务中的表现。该基准整合了现有的多词表达式资源,并将其重组为统一测试平台,涵盖词汇搭配等通用语言现象,以及惯用语、名词复合词和动词结构三大细分类别。通过SemanticQA,我们对不同架构与规模的LM进行抽取、分类、释义及序列任务组合的评估,发现模型性能存在显著差异——尤其在需要语义推理的任务上,凸显出各LM在推理效能与语义理解层面的区别,为提升模型对复杂语义短语的理解能力提供了重要洞见。SemanticQA的评估框架与数据已开源:https://github.com/jacklanda/SemanticQA。
与代码补全不同,调试需要定位故障并实施针对性修改。我们发现前沿大语言模型在调试过程中常会重新生成正确但过度修正的解决方案。为评估大语言模型与精确调试的差距,我们提出精确调试基准(PDB)框架,该框架可将任意编程数据集自动转化为支持精度感知评估的调试基准。PDB通过合成经过验证的原子级缺陷并将其组合成多缺陷程序,从而生成含缺陷程序。我们定义了两项新颖指标:编辑级精度与缺陷级召回率,分别衡量必要修改的执行比例和已修复缺陷的覆盖范围。我们发布了两项评估基准:针对单行缺陷的PDB-Single-Hard与针对多行缺陷的PDB-Multi。实验表明,GPT-5.1-Codex和DeepSeek-V3.2-Thinking等前沿模型的单元测试通过率超过76%,但即使明确要求执行最小化调试,其精度仍低于45%。最后我们证明,迭代式和智能体调试策略并未显著提升精度或召回率,这凸显了重新思考编码模型后训练流程的必要性。
原生全模态大语言模型已从流水线架构转向统一表征空间,但这种原生集成引发了一个关键却未被充分探索的现象:模态偏好。为填补这一空白,我们首先通过新构建的基于冲突的基准测试和模态选择率指标,系统量化了OLLMs的模态偏好。对十个代表性OLLMs的评估揭示了一个显著范式转变:与传统视觉语言模型的"文本主导"特性不同,大多数OLLMs表现出明显的视觉偏好。为深入理解其内在机制,我们进行分层探测并证明这种模态偏好并非静态存在,而是在中后层网络中逐步涌现。基于这些发现,我们利用内部信号诊断跨模态幻觉,在三个下游多模态基准测试中无需任务特定数据即达到竞争优势。本研究不仅提供了机制性见解,更为构建更可信的OLLMs提供了实用工具。代码及相关资源已公开于:https://github.com/icip-cas/OmniPreference
大型语言模型(LLMs)在推理密集型研究任务中已获得广泛探索,但用于检验其能否从结构化生物医学证据中推断科学结论的资源仍然有限。我们推出MedConclusion——一个包含570万篇PubMed结构化摘要的大规模生物医学结论生成数据集。每个实例将摘要的非结论部分与作者原创撰写的结论进行配对,为证据到结论的推理提供自然存在的监督信号。该数据集还涵盖期刊层级的元数据(如生物医学分类和SJR指标),支持跨生物医学领域的子群分析。作为初步研究,我们在结论生成与摘要生成两种提示设定下评估了多种LLMs,并采用基于参考指标的评估法和LLM-as-a-judge方法对输出结果进行评分。研究发现:结论写作在行为模式上区别于摘要写作;强效模型在当前自动指标下仍保持紧密聚集状态;评判者身份会显著改变绝对分值。MedConclusion为研究科学证据到结论的推理提供了可复用的数据资源。我们的代码与数据公开于:https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion。
大型語言模型(LLMs)在各領域展現出卓越性能,但其推論過程正日益受到高延遲問題的制約。早期退出機制通過動態跳過冗餘層來加速推論,已成爲備受關注的解決方案。然而在僅解碼器架構中,早期退出的效率受到KV緩存缺失問題的嚴重制約——被跳過的層無法爲後續詞元提供必要的歷史狀態。現有解決方案(如重計算或掩碼技術)要么引入顯著延遲開銷,要么導致嚴重精度損失,難以彌合理論層數削減與實際牆鐘加速之間的差距。本文提出River-LLM,一種無需訓練即可實現詞元級無縫早期退出的框架。該框架引入輕量級KV共享退出河,使骨幹網絡缺失的KV緩存在退出過程中自然生成並保留,無需耗時的恢復操作。此外,我們利用解碼器模塊內的狀態轉移相似性預測累積KV誤差,從而指導精準的退出決策。在數學推理與代碼生成任務上的大量實驗表明,River-LLM在保持高生成質量的同時,可實現1.71至2.16倍的實際加速比。
基因組工程已實現卓越的序列層級精準度,但預測細胞在受干擾後將佔據的轉錄組狀態仍是未解難題。單細胞CRISPR篩選技術能測量細胞偏離未受擾動狀態的距離,然而這種效應強度忽略了一個根本問題:細胞是否協同移動?若某次干擾使細胞沿共享軌跡一致移動,而另一次干擾使細胞在表達空間中分散,即使兩者強度相同也會產生質性不同的結果。我們提出名為Shesha的幾何穩定性指標,通過計算單個細胞位移向量與平均擾動方向間餘弦相似度的均值,量化單細胞擾動反應的方向一致性。在五個CRISPR數據集(涵蓋CRISPRa、CRISPRi及混合篩選的2,200+次擾動)中,穩定性與效應強度呈現強相關(斯皮爾曼ρ=0.75-0.97),經校準的跨數據集相關性達0.97。關鍵在於,當兩項指標解耦時的不一致案例能揭示調控架構:如CEBPA和GATA1等多效性主調控因子需支付「幾何代價」,產生強烈但雜亂的位移;而如KLF1等譜系特異性因子則能產生高度協調的反應。控制強度變量後,幾何不穩定性獨立伴隨分子伴侶活化升高(HSPA5/BiP;跨數據集偏相關ρ為-0.34與-0.21),且高穩定性/高應力象限出現系統性耗竭。這種強度-穩定性關係在scGPT基礎模型嵌入中持續存在,證實其為生物狀態空間的固有特性而非線性投影的產物。擾動穩定性為篩選中的靶點優先級排序、細胞製造中的表型質量控制,以及計算機模擬擾動預測的評估提供了補充維度。
大语言模型与智能体的融合正催生科学发现的新纪元:能动科学。尽管科学方法本质上是迭代的,但现有智能体框架多为静态设计、范围狭窄,且缺乏从试错中学习的能力。为弥补这一差距,我们推出EvoMaster——一个专为规模化能动科学打造的基础性演化智能体框架。以持续自我进化为核心原则,EvoMaster使智能体能够在实验周期中迭代优化假说、开展自我批判并逐步积累知识,真实复现人类科研探索过程。作为领域无关的基础平台,EvoMaster具备卓越的可扩展性——开发者仅需约100行代码即可为任意学科构建并部署高性能的自进化科学智能体。基于该框架,我们孵化了覆盖机器学习、物理学及通用科学等领域的SciMaster生态系统。在四大权威基准测试(Humanity's Last Exam、MLE-Bench Lite、BrowseComp和FrontierScience)中,EvoMaster分别取得41.1%、75.8%、73.3%和53.3%的顶尖成绩,相较通用基线OpenClaw实现+159%至+316%的相对性能提升,有力验证了其作为新一代自主科学发现基础框架的有效性与普适性。EvoMaster项目地址:https://github.com/sjtu-sai-agents/EvoMaster。
近年来语义对应技术的进展主要依赖于双编码器架构,即将DINOv2与扩散模型主干网络相结合。尽管这些拥有数十亿参数的模型精度较高,但其在训练关键点之外的泛化能力较弱,这暴露出基准测试性能与实际应用需求之间的差距——实际查询点很少与训练时所见点完全匹配。基于DINOv2,我们提出了MARCO这一通用化对应关系的统一模型,其创新训练框架可同时提升细粒度定位能力和语义泛化能力。通过结合从粗到精的空间精度优化目标与自蒸馏框架(将稀疏监督扩展至标注区域之外),我们的方法能够将少量关键点转化为密集且语义一致的对应关系。MARCO在SPair-71k、AP-10K和PF-PASCAL数据集上实现了最新最优性能,在细粒度定位阈值(PCK@0.01提升8.9%)、未见关键点泛化(SPair-U提升5.1%)和跨类别泛化(MP-100提升4.7%)方面表现尤为突出,同时模型体积比基于扩散的方法缩小3倍,速度提升10倍。代码已开源:https://github.com/visinf/MARCO。
用户在与基于大语言模型的智能体交互时,常会遗漏关键细节,导致工具调用时出现输入信息不完整的问题。这对工具增强型智能体构成了根本性挑战——由于API执行通常需要完整参数,这凸显出个性化工具调用的必要性。为研究该问题,我们提出了包含265个多轮对话的MPT基准测试,涵盖偏好记忆、偏好归纳和偏好迁移三大挑战。同时我们开发了PRefine方法,这种基于测试时记忆增强的技术将用户偏好建模为动态假设,通过生成-验证-优化的循环从历史对话中提取可重用的约束条件,仅需完整历史提示1.24%的令牌量即可提升工具调用准确率。研究结果表明:智能体系统要实现强健的个性化服务,必须建立能够捕捉用户选择背后逻辑的记忆机制,而非仅记录选择结果。
情感支持对话(ESC)旨在通过生成共情式支持性对话来帮助处于困境的个体。现有研究通常默认每个支持话轮仅对应单一策略,而现实中的支持性交流往往在单次发言中融合多种策略。本文通过将ESC任务重构为多策略话语生成——每个话语可包含一个或多个策略-回应对,重新审视该任务。我们提出两种生成方法:All-in-One(单步解码预测所有策略-回应对)和One-by-One(迭代生成策略-回应对直至完成),两种方法均采用强化学习引导的认知推理来优化策略选择与回应组织。在ESConv数据集上的实验表明,我们的方法能有效建模多策略话语,显著提升支持质量与对话成功率。据我们所知,本研究首次系统论证了在单次发言中融合多种支持策略对情感支持对话具有可行性和优越性。所有代码与数据将公开于https://github.com/aliyun/qwen-dianjin。
語言模型的可靠部署需要兩種看似不同卻共享共同幾何基礎的能力:預測模型是否會接受目標行為控制,以及檢測其內部結構何時發生退化。我們發現,表徵的成對距離結構一致性——即幾何穩定性——能同時解決這兩大問題。通過測量任務對齊的幾何穩定性,監督式Shesha變體在35-69個嵌入模型和三個自然語言處理任務中,以接近完美的準確度(ρ=0.89-0.97)預測線性可控性,其捕捉的獨特方差甚至超越類別可分離性(偏相關ρ=0.62-0.76)。關鍵性分化在於:無監督穩定性在真實任務的可控性預測中完全失效(ρ約為0.10),表明任務對齊是可控性預測的必要條件。然而,無監督穩定性在漂移檢測方面表現卓越,在訓練後對齊過程中測得的幾何變化量是CKA的近2倍(Llama模型中最高達5.23倍),同時在73%的模型中提供更早預警,且誤報率比Procrustes方法低6倍。監督式與無監督穩定性共同構成了大語言模型部署生命週期的互補診斷工具:前者用於部署前的可控性評估,後者用於部署後的監控預警。
视觉语言模型在临床诊断中的应用日益广泛,但其对抗攻击的鲁棒性仍未得到充分探索,这构成了严重风险。现有医学攻击主要聚焦于模型窃取或对抗性微调等次要目标,而来自自然图像的可迁移攻击会产生临床医生易察觉的明显失真。为此,我们提出MedFocusLeak——一种高可迁移性的黑盒多模态攻击方法,该方法能在保持扰动不可感知的前提下,诱导模型做出错误但临床可信的诊断。该技术通过向非诊断性背景区域注入协同扰动,并采用注意力分散机制使模型偏离病理区域。在六种医学影像模态上的广泛评估表明,MedFocusLeak实现了最先进的性能,能在不同VLM上生成具有误导性却真实的诊断输出。我们进一步提出包含新颖指标的统一评估框架,可同步捕捉攻击成功率与图像保真度,揭示了现代临床VLM在推理能力上的关键缺陷。
多模态大语言模型(MLLMs)虽展现出卓越能力,但在捕捉图像中对于精确图像翻译至关重要的细粒度文本信息方面仍存在不足,这常导致视觉文本输入与文本输入/输出之间产生模态鸿沟。现有方法主要依赖指令微调,可能导致预训练知识的参数冗余,从而影响泛化性能。为此,我们提出模态神经元感知微调(MNAFT),这一创新方法通过利用MLLMs中单个神经元在图像翻译中的专化功能来提升性能。MNAFT通过指令驱动的激活分析,识别视觉与语言模块中的语言无关神经元和语言特定神经元,并评估其在各类翻译任务中的重要性。随后我们实施选择性微调,仅更新与目标任务相关的选定层中语言特定及语言无关神经元的参数,同时保留其他神经元和层中编码的知识。我们在多个基准测试上的广泛实验表明,MNAFT显著优于当前最先进的图像翻译方法,包括级联模型、标准全参数微调及参数高效调优技术。此外,我们通过神经元激活可视化与聚类模式分析等系统性研究,揭示了不同神经元群在协调跨模态理解与促进精准语言特定翻译中的作用机制。
理解和預測與漏洞相關的活動是網路威脅情報領域的重大挑戰。本研究旨在探討漏洞觀測事件(例如概念驗證發布、檢測模板或線上討論)是否可實現時序預測。基於我們早期關於VLAI的研究(該基於Transformer的模型能從文本描述預測漏洞嚴重性),我們檢驗嚴重性評分作為外生變量是否能改善時間序列預測效果。我們針對單個漏洞的短期觀測量預測評估了多種方法:首先測試包含/不包含log(x+1)變換及VLAI衍生嚴重性輸入的SARIMAX模型。儘管這些調整帶來有限改善,但SARIMAX模型仍難以適應稀疏、短時序且爆發性強的漏洞數據——實際預測常產生過寬的置信區間,有時甚至出現不合理的負值。為更好捕捉觀測事件的離散性與事件驅動特性,我們轉而探索如泊松回歸等計數型方法。初步結果顯示這類模型能產生更穩定且可解釋的預測,尤其在採用周聚合觀測量時。我們還討論了更簡便的實務替代方案,包括針對短期預測視窗的指數衰減函數,可在無需長期歷史序列的情況下估算未來活動。整體而言,本研究既揭示了預測罕見爆發型網路事件的潛力與局限,也為將預測分析整合至漏洞情報工作流程提供了實務指引。
全双工语音语言模型(FD-SLMs)能够实现实时重叠的对话交互,相较于传统半双工模型提供更具动态性的用户体验。然而,现有基准测试主要聚焦于评估单轮交互,忽视了多轮通信的复杂性。在多轮场景下评估FD-SLMs存在显著挑战,包括通信中话轮边界模糊以及模型推理过程中的上下文不一致性。此外,现有基准往往仅关注对话特征的评估,忽略了其他关键维度。为弥补这些不足,我们提出MTR-DuplexBench——一个专为全面评估FD-SLM多轮交互能力而设计的新型基准测试框架。该框架不仅将连续全双工对话分割为离散话轮进行逐轮评估,还整合了对话特征、对话质量、指令遵循及安全性等多维评估指标。实验结果表明,现有FD-SLMs在跨多轮次和多维评估中难以保持稳定性能,这印证了本基准测试的必要性与有效性。代码与数据详见:https://github.com/ZhangHe0918/MTR-DuplexBench
我们推出Forge-UGC(通用图编译的FX优化与寄存器图引擎),这是一个面向异构加速器硬件部署Transformer的四阶段编译器,已在英特尔AI Boost NPU上完成验证。现有框架如OpenVINO和ONNX Runtime常采用不透明的编译流水线、有限的通道级可见性及薄弱的缓冲区管理,导致较高编译成本和运行时开销。Forge-UGC通过硬件无关的设计解决这些问题,将图捕获、优化、中间表示降级和后端调度分离。第一阶段通过torch.export在ATen算子级捕获计算图,无需手动分解即可支持旋转位置编码、分组查询注意力及SwiGLU等现代Transformer组件。第二阶段应用六种优化通道:死代码消除、公共子表达式消除、常量折叠、注意力融合、算子融合及布局优化,使图节点数减少14.2%至21.9%。第三阶段将优化后的图降级为带有显式虚拟寄存器分配的强类型中间表示。第四阶段执行活跃性分析、线性扫描缓冲区分配(峰值缓冲区数量降低30%至48%)以及设备亲和性调度(NPU-CPU切换减少42%至65%)。在涵盖1.25亿至80亿参数的六个模型系列上,基于WikiText-103和GLUE的评估表明,Forge-UGC相比OpenVINO和ONNX Runtime可实现6.9至9.2倍的编译加速,推理延迟降低18.2%至35.7%,单次推理能耗下降30.2%至40.9%。模型保真度得到保持,最大绝对逻辑差低于2.1e-5,KL散度低于8.4e-9。我们还引入融合增益比、编译效率指数及逐通道执行分析等方法,为NPU编译流水线提供系统化评估框架。
基因型与环境互作(GxE)效应会影响基因型在不同环境中的表现,降低目标环境下表型预测的准确性。深入分析GxE互作有助于识别遗传优势或缺陷在特定环境条件下如何被表达或抑制,从而指导遗传选择并优化育种实践。本文重点介绍两种GxE互作研究模型:其一是基于混合效应模型的显著性分析,用于判定基因或GxE互作是否对表型性状产生显著影响;其二是稳定性分析,进一步探究基因与环境间的交互关系以及基因型在不同环境中的相对优劣。此外,本文推出由作者开发的轻量级交互工具RGxEStat,该工具整合了上述模型的构建、求解与可视化功能。针对育种家和农学家无需学习复杂SAS或R编程的需求,RGxEStat提供用户友好界面以实现高效育种数据分析,显著加速研究周期。代码与数据集详见https://github.com/mason-ching/RGxEStat。
我们提出JuRe(仅修复)——一种用于时间序列异常检测的极简去噪网络,其核心发现是:当训练目标正确实现流形投影原则时,网络架构的复杂性并非必要。JuRe仅包含单个隐藏维度为128的深度可分离卷积残差块,通过修复受损时间序列窗口进行训练,并在推理时通过固定的无参数结构差异函数进行评分。尽管未使用注意力机制、潜变量或对抗组件,JuRe在TSB-AD多元基准测试中(AUC-PR 0.404,180个序列,17个数据集)排名第二,在UCR单变量档案库的AUC-PR指标上(0.198,250个序列)位列第二,在AUC-PR和VUS-PR指标上领先所有神经网络基线。TSB-AD上的组件消融实验表明训练时添加噪声是主导因素(移除后ΔAUC-PR=0.047),证实驱动检测质量的是去噪目标而非网络容量。配对Wilcoxon符号秩检验显示,在TSB-AD上JuRe与25个基线中的21个存在统计显著性差异。代码详见https://github.com/iis-esslingen/JuRe。
我们正式发布Terminal Wrench数据集——包含331个终端智能体基准环境子集,这些环境复制自主流开放基准测试平台,且被证实存在奖励机制漏洞。该数据集涵盖三大前沿模型(Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4)的3,632条攻击轨迹与2,352条合法基线轨迹。每个条目均保留原始任务定义及完整的攻击轨迹,清晰展示验证器被绕过的过程,同时包含未按预期完成的任务案例。任务范围涉及系统管理、机器学习、软件工程和安全挑战;攻击手段从简单的输出欺骗到堆栈帧内省、标准库修补乃至根套件式二进制劫持。关键之处在于,这些攻击手段均针对具体任务而非评估框架本身,使得修补难度显著增加。我们还开展了一项可监测性研究:通过清理攻击轨迹或移除推理痕迹后交由LLM评判器打分,结果显示当移除思维链时检测效能明显下降(AUC从0.97降至0.92)。数据集已公开发布于https://github.com/few-sh/terminal-wrench。
人工智能领域最核心的架构问题并非模型规模,而是缺乏承载模型认知成果的延续层。会话会终止,上下文窗口会饱和,记忆接口返回的扁平化事实迫使模型每次读取都需重新解构。这导致智能体在单次会话中表现卓越,却无法实现跨时间维度的记忆延续。本立场文件指出:解决这一问题的连续性层级,正是该领域尚未构建但影响最深远的底层设施,而其工程实践已公开启动。相关特性的正式评估框架ATANT基准(arXiv:2604.06710)已独立发布,包含对250篇故事集的评测结果;姊妹篇论文(arXiv:2604.10981)则将该框架与现有记忆、长上下文及智能体记忆基准进行对比。本文首次将连续性定义为具备七大特征的系统属性,区别于记忆与检索功能;提出通过写时分解与读时重构建的存储原语(解构轨迹收敛记忆)来实现该属性;将工程架构映射至神学中的虚己模式与符号学中的阿尔法-欧米伽范式,并论证这种映射具有结构一致性而非隐喻性;规划从外部SDK到硬件节点再到长期人机基础设施的四层发展路径;阐释当前制约模型层的物理极限如何使连续性层变得至关重要;最后论证治理架构(以物理机制而非政策条款实现隐私保护,创始人通过不可协商的特别股权坚守架构承诺)与产品本体不可分割。
场景图表示通过建模物体及其关系实现结构化视觉理解,已广泛应用于多视角和三维场景推理。现有方法如MSG通过对比学习和基于注意力的关联在欧几里得空间中学习场景图嵌入。然而,欧几里得几何无法显式捕捉场景与物体间的层次蕴含关系,限制了所学表征的结构一致性。为此,我们提出双曲场景图(HSG),在双曲空间中学习场景图嵌入,该空间可通过几何距离自然编码层次关系。实验结果表明,HSG在保持强大检索性能的同时提升了层次结构质量,在图级指标上提升最为显著:HSG实现了33.17的PP IoU和最高的33.51 Graph IoU,较最佳AoMSG变体(25.37)提升8.14,彰显了双曲表示学习在场景图建模中的有效性。代码地址:https://github.com/AIGeeksGroup/HSG。
仅解码器架构的大语言模型正日益取代BERT式架构,成为稠密检索的骨干网络,在实现显著性能提升的同时获得了广泛应用。然而,这类基于大语言模型的检索器其鲁棒性仍待深入探索。本文首次从泛化性与稳定性两个互补视角,对最先进的开源大语言模型稠密检索器进行了系统性鲁棒性研究。在泛化性方面,我们通过涵盖30个数据集的四大基准测试评估检索效果,并采用线性混合效应模型估算边际平均性能,以区分模型内在能力与数据集异质性。分析表明:虽然指令微调模型整体表现优异,但针对复杂推理优化的模型往往需支付"专业化代价",在更广泛场景中呈现有限的泛化能力。在稳定性方面,我们评估了模型对非故意查询变异(如转述、拼写错误)和恶意对抗攻击(如语料库投毒)的抵御能力。研究发现:相较于仅编码器基线,基于大语言模型的检索器对拼写错误和语料库投毒表现出更强的鲁棒性,但仍易受同义词替换等语义扰动影响。进一步分析表明,嵌入几何特征(如角度均匀性)可为词汇稳定性提供预测信号,且扩大模型规模通常能提升鲁棒性。这些发现为未来鲁棒性感知的检索器设计和原则性基准测试提供了重要参考。我们的代码已开源:https://github.com/liyongkang123/Robust_LLM_Retriever_Eval。
我们正式推出首版KWBench(知识工作平台),这是针对大型语言模型无提示问题识别能力的基准测试:考察LLM在尝试解决问题前能否先识别出专业场景。现有前沿基准测试已趋饱和,且当前多数知识工作评估最终都简化为依据既定规范的提取或任务完成度测试。KWBench则瞄准了更前置的环节:仅从原始输入中识别情境的核心治理结构。 该基准包含223项任务,来源涵盖采购、合同谈判、临床药学、组织政治、欺诈分析和激励设计等领域的从业者。每项任务均编码了形式化的博弈论模式(委托代理冲突、信号传递、机制设计失效、策略性信息隐瞒、联盟动态、策略互依性),并携带结构化标注数据,记录专家对情境的解读及预期失效模式。模型接收原始数据和无问题类型提示的任务指令,评分采用三级量规并设定了强制性联合检验门槛——强制标准编码了预测的错误路径。 我们对16个模型进行评估,最佳模型仅通过27.9%的任务。排名前二的模型在通过任务中仅有31.7%的一致性。前八名模型中,有44项任务仅被单一模型解决;若采用前八名模型协同路由策略,可覆盖基准50.7%的任务,近乎最佳单模型的两倍。在通过测试的条件下,各模型质量得分趋同(约83%);但无条件得分则呈现分化。部分模型在被询问时可准确阐述相关博弈论概念,却在无提示条件下无法自主应用。我们发布KWBench旨在革新知识工作的前沿模型评估方式,重点考察模型能否仅从情境中识别正确问题,而不仅限于在问题被明确框定后的执行能力。
通过工具与环境交互的AI智能体能够实现强大的应用,但在高风险商业场景中,意外行为可能导致无法承受的损害,例如隐私泄露和财务损失。现有的改进方案(如基于训练的方法和神经护栏)提升了智能体可靠性,但无法提供确定性保障。我们研究将符号化护栏作为实现AI智能体强安全性与安全性保障的可行路径。这项三部分研究包括:对80个前沿智能体安全基准进行系统性回顾以识别其评估策略;分析哪些策略要求可通过符号化护栏实现保障;以及在τ²-Bench、CAR-bench和MedAgentBench上评估符号化护栏对安全性、安全保障及智能体成功率的影响。研究发现,85%的基准测试缺乏具体策略,转而依赖未明确说明的高层目标或常识。在已明确的策略中,74%的策略要求可通过符号化护栏实施,且通常只需简单低成本的机制。这些护栏在提升安全性的同时不会牺牲智能体效用。总体而言,我们的结果表明符号化护栏是保障特定安全要求的实用有效方法,尤其适用于领域专用AI智能体。所有代码与实验材料已发布于https://github.com/hyn0027/agent-symbolic-guardrails。
知识蒸馏是一种被广泛采用的技术,用于将大型语言模型的能力迁移至更小巧、更高效的学生模型。然而,未经授权的知识蒸馏行为不正当地利用了开发前沿模型所投入的大量精力与成本。我们研究通过修改教师模型生成的推理轨迹来实现两个阻止非法蒸馏的目标:(1)反蒸馏,即降低查询响应在训练中的可用性;(2)API水印技术,即在学生模型中嵌入可验证的签名。我们提出了多种动态重写教师模型推理输出的方法,在保持答案正确性与语义连贯性的同时,其中两种方法利用大型语言模型的重写能力,其他方法则采用基于梯度的技术。实验表明,基于简单指令的重写方法在维持甚至提升教师模型性能的同时,能实现显著的反蒸馏效果。此外,我们的重写方法还能嵌入可被可靠检测的水印,且基本不会产生误报。相关代码已发布于https://github.com/xhOwenMa/trace-rewriting。