每日精選AI研究論文及翻譯
監督式微調(SFT)雖是領域適應的標準範式,卻常伴隨災難性遺忘的代價。與此形成鮮明對比的是,策略性強化學習(RL)能有效保留模型的通用能力。我們深入探究此差異,發現關鍵在於分佈差距:RL與模型的內部信念保持一致,而SFT則強制模型擬合外部監督。這種錯配常體現為「置信衝突」標記——其特徵是低概率但同時具備低熵值。在此類情境中,模型對自身預測高度自信,卻被迫學習相悖的標註真值,從而引發破壞性的梯度更新。為解決此問題,我們提出熵自適應微調(EAFT)。有別於僅依賴預測概率的方法,EAFT利用標記層級的熵值作為門控機制,以區分認知不確定性與知識衝突。這使模型能從不確定樣本中學習,同時抑制衝突數據的梯度更新。在Qwen與GLM系列模型(參數量涵蓋40億至320億)上進行的數學、醫療及智能體領域廣泛實驗驗證了我們的假設:EAFT在保持與標準SFT相當的下游任務性能的同時,顯著減緩了通用能力的退化。
我們研究開放式具身環境中的持續技能習得問題,該場景要求智能體構建、優化並複用不斷擴展的可執行技能庫。我們提出程序化技能網絡(PSN),該框架將技能定義為可執行的符號化程序,形成一個可通過經驗演進的組合式網絡。PSN通過大型語言模型實例化三大核心機制:(1)用於技能組合結構化故障定位的REFLECT模塊;(2)具備成熟度感知更新門控的漸進式優化機制,在穩定可靠技能的同時保持對不確定技能的可塑性;(3)基於回滾驗證的規範化重構策略,維持網絡簡潔性。我們進一步揭示PSN的學習動力學與神經網絡訓練存在結構相似性。在MineDojo和Crafter環境中的實驗表明,該方法能實現魯棒的技能複用、快速適應能力,並在開放式任務分佈上展現出強泛化性能。\footnote{我們計劃開源代碼。}
大型語言模型(LLMs)與外部工具的整合已顯著擴展了AI代理的能力。然而,隨著LLMs與工具多樣性的同步增長,選擇最優的模型-工具組合已成為高維度優化難題。現有方法通常依賴單一模型或固定工具調用邏輯,未能充分發掘異構模型-工具配對間的效能差異。本文提出ATLAS(自適應工具-LLM對齊與協同調用框架),這是一種用於跨領域複雜推理的雙路徑動態工具調用框架。ATLAS通過雙路徑機制運作:(1)基於無訓練聚類的路由策略,利用經驗先驗實現領域自適應對齊;(2)基於強化學習的多步路由策略,探索自主軌跡以實現分佈外泛化。在15個基準測試上的大量實驗表明,本方法優於GPT-4o等閉源模型,在分佈內任務(+10.1%)和分佈外任務(+13.1%)上均超越現有路由方法。此外,本框架通過協調專業化多模態工具,在視覺推理任務中展現出顯著效能提升。
大型語言模型評估基準的快速擴散,亟需建立系統性方法來檢驗基準本身的品質。我們提出Benchmark^2框架,該框架包含三項互補指標:(1)跨基準排名一致性,衡量基準能否產生與同類基準相符的模型排名;(2)區分度評分,量化基準區分不同模型的能力;(3)能力對齊偏差,用於識別同一模型家族中強模型失敗而弱模型成功的異常情況。我們在涵蓋數學、推理與知識領域的15個基準上進行廣泛實驗,評估來自四個模型家族的11個LLM。分析顯示現有基準存在顯著品質差異,並證明基於我們指標的選擇性基準建構方法,能以大幅精簡的測試集達到可比擬的評估效能。
音視訊聯合生成技術雖進展迅速,仍面臨重大挑戰。非商業化方法普遍存在音視訊非同步、唇語語音對位偏差及單模態退化等問題,其根源在於音視訊對應建模薄弱、泛化能力有限及高質量密集標註數據稀缺。為解決這些難題,我們提出Klear系統並從三大維度展開探索:模型架構、訓練策略與數據建構。架構方面採用單塔式設計,整合統一DiT模塊與全向全注意力機制,實現緊密音視訊對齊與強大擴展性。訓練策略上實施漸進式多任務方案——通過隨機模態掩碼實現跨任務聯合優化,配合多階段課程學習,形成魯棒表徵、強化音視訊對齊的世界知識,避免單模態崩塌。數據層面我們首創大規模密集標註音視訊數據集,並提出新型自動化數據建構流程,可對數百萬條多樣化、高質量、嚴格對齊的音-視-文三元組進行標註篩選。基於此,Klear能擴展至大規模數據集,在聯合與單模態設定下均實現高保真、語義時序精準對齊的指令跟隨生成,並對分佈外場景展現強健泛化能力。在各項任務中,其性能大幅超越現有方法,達到與Veo 3相當的水準,為新一代音視訊合成提供統一可擴展的解決路徑。
我們物理四維(三維空間+時間)世界中的動態物體持續演化、變形並與其他物體交互作用,形成多樣化的四維場景動態。本文提出一種通用生成框架CHORD,能為動態物體與場景進行「編舞」,並合成此類動態現象。傳統基於規則的圖形學流程雖能創建這類動態,但依賴特定類別的啟發式方法,不僅耗費人力且缺乏擴展性。近期基於學習的方法通常需要大規模數據集,但可能無法涵蓋所有目標物體類別。我們的方法另闢蹊徑,通過提出基於蒸餾的流程,從二維視頻的歐拉表徵中提取隱藏的豐富拉格朗日運動信息,從而繼承了視頻生成模型的通用性。本方法具有通用性、多功能性且與物體類別無關。我們通過生成多樣化的多體四維動態實驗驗證其有效性,展現相較現有方法的優勢,並演示其在生成機器人操作策略中的應用性。項目頁面:https://yanzhelyu.github.io/chord
近期強化學習技術在人類偏好對齊方面提升了流體匹配模型的效能。隨機抽樣雖能探索去噪方向,但現有基於多步去噪優化的方法卻面臨獎勵信號稀疏與模糊的問題。我們觀察到高熵步驟能實現更高效且有效的探索,而低熵步驟則會產生無差異化的軌跡。為此,我們提出E-GRPO(熵感知群組相對策略優化)方法,旨在提升隨機微分方程抽樣步驟的熵值。由於隨機微分方程的積分過程會因多步隨機性導致獎勵信號模糊,我們特別合併連續的低熵步驟以構建單一高熵的SDE抽樣步驟,同時在其他步驟採用常微分方程抽樣。基於此架構,我們進一步提出多步群組歸一化優勢函數,可在共享同一合併SDE去噪步驟的樣本群組內計算相對優勢。在不同獎勵設定下的實驗結果驗證了本方法的有效性。
驗證對於改進智能體至關重要:它為強化學習提供獎勵信號,並能通過測試時擴展(TTS)實現推理階段的效能提升。儘管如此,在軟體工程(SWE)智能體場景中,驗證通常依賴代碼執行,但由於環境設置的開銷,這種方法難以擴展。雖然存在可擴展的替代方案(如補丁分類器和啟發式方法),但這些方法與代碼庫上下文的關聯性較弱且可解釋性較差。為此,我們探索「智能體化評量標準」:由專家智能體與代碼庫互動,創建基於上下文的評量檢查表,候選補丁隨後可根據該檢查表進行評分,而無需執行測試。在並行TTS評估下的SWE-Bench Verified數據集中,智能體化評量標準在Qwen3-Coder-30B-A3B模型上達到54.2%的得分,在Qwen3-32B模型上達到40.6%的得分,較對比集中最強基線至少提升3.5個百分點。我們進一步分析評量標準的行為,發現其評分與真實測試結果一致,同時還能標記出測試未能捕捉的問題。消融實驗表明,智能體化的上下文收集對於生成代碼庫專屬的明確標準至關重要。這些結果共同表明,智能體化評量標準能為SWE智能體提供高效、可擴展且細粒度的驗證信號。
分子動力學模擬在材料科學的原子尺度行為研究中具有關鍵作用,但撰寫LAMMPS腳本仍是高度專業化且耗時的任務。儘管大語言模型在代碼生成和領域問答方面展現潛力,其在分子動力學場景的應用仍受限於領域數據稀缺、尖端大語言模型部署成本高昂以及代碼可執行率低等問題。基於我們先前提出的MDAgent框架,我們推出首個能夠在分子動力學領域實現知識問答與代碼生成端到端執行的MDAgent2系統。通過構建領域專屬的數據生成流水線,我們製備了涵蓋分子動力學知識、問答與代碼生成的三類高質量數據集。基於這些數據集,我們採用三階段訓練策略——繼續預訓練、監督微調和強化學習——成功訓練出MD-Instruct與MD-Code兩個領域適配模型。此外,我們提出MD-GRPO強化學習方法,通過將模擬結果轉化為獎勵信號,並回收低獎勵軌跡實現持續優化。我們進一步構建了可部署的多智能體系統MDAgent2-RUNTIME,集成代碼生成、執行、評估與自我修正功能。結合本文首次提出的LAMMPS代碼生成與問答基準MD-EvalBench,我們的模型與系統在多項指標上超越若干強基線模型。本研究系統性驗證了大語言模型在工業模擬任務中的適應性與泛化能力,為AI for Science領域的自動代碼生成及工業級模擬應用奠定了方法學基礎。項目網址:https://github.com/FredericVAN/PKU_MDAgent2
可靠的流行病學推理需要綜合研究證據,以推斷群體層面的疾病負擔、傳播動態和干預效果。現有醫學問答基準主要側重臨床知識或患者層面推理,但鮮少系統性評估基於證據的流行病學推斷。我們提出首個跨疾病流行病學問答診斷基準EpiQAL,該基準基於開放獲取文獻構建三個子集:分別評估文本基礎事實回溯、結合文獻證據與流行病學原理的多步推理,以及隱去討論部分後的結論重構。基準構建融合專家設計的分類指南、多模型驗證和基於檢索的難度控制。對十個開放模型的實驗表明,當前大語言模型在流行病學推理上表現有限,其中多步推理挑戰最大。模型排名隨子集變化,且規模不能單獨預測成功。思維鏈提示有益於多步推理,但在其他任務中效果參差。EpiQAL為證據錨定、推理性思維和結論重構提供細粒度診斷信號。
随着大语言模型在安全关键型应用中的日益普及,确保其对抗恶意提示的鲁棒性变得至关重要。然而,现有的红队测试数据集存在风险分类不一致、领域覆盖有限和评估方法过时等问题,阻碍了系统性漏洞评估的开展。为解决这些挑战,我们推出RedBench——一个聚合了来自顶尖学术会议和代码库的37个基准测试数据集的全域评估框架,包含涵盖攻击性提示与拒绝性提示的29,362个样本。该框架采用包含22个风险类别和19个领域的标准化分类体系,能对大语言模型漏洞进行一致且全面的评估。我们不仅对现有数据集开展详细分析,为现代大语言模型建立性能基线,同时开源数据集与评估代码。本研究的贡献在于实现可靠的模型对比、推动未来研究发展,并促进适用于现实场景的安全可靠大语言模型开发。代码地址:https://github.com/knoveleng/redeval
我们报告了一项案例研究:通过将六个大语言智能体映射到科研工作流程各阶段,对自主生成机器学习研究论文进行了四次端到端尝试。其中三次尝试在实施或评估阶段失败,仅有一次成功完成全流程,该成果被要求以人工智能系统为第一作者的实验性首创会议Agents4Science 2025接收,并通过了人类与多智能体联合评审。基于这些尝试,我们总结出六类反复出现的故障模式:倾向于训练数据默认值的偏见、执行压力下的实施偏移、长周期任务中的记忆与语境衰减、无视明显失败而宣告成功的过度兴奋、领域智能不足,以及实验设计中薄弱的科学品味。最后我们讨论了构建更稳健AI科学家系统的四项设计原则,及其对自主科学发现的影响,并公开全部提示词、过程产物与输出结果于https://github.com/Lossfunk/ai-scientist-artefacts-v1。
語言模型通過在原始文本數據集上進行預訓練,實現逐詞元生成文本序列的能力。儘管這種方法有助於學習世界知識和推理能力,但並未顯式優化語言能力。為彌合這一差距,我們提出L2T預訓練框架,將語言學習任務與標準的下一個詞元預測相結合。受人類語言習得機制啟發,L2T將原始文本轉化為結構化的輸入-輸出對,以提供顯性語言刺激。在混合原始文本與L2T數據上預訓練的語言模型,不僅在語言能力基準測試中展現出整體性能提升和習得加速效應,同時在通用推理任務中保持競爭力。
基於指令驅動的圖像編輯技術雖藉由統一多模態生成模型快速發展,但其底層的視覺推理能力仍存在侷限,導致在推理密集型編輯任務中表現欠佳。強化學習(RL)曾被用於提升圖像編輯質量,卻面臨三大挑戰:(1)推理探索受限於去噪隨機性;(2)獎勵融合存在偏差;(3)基於視覺語言模型(VLM)的指令獎勵不穩定。為此,我們提出ThinkRL-Edit——一個將視覺推理與圖像合成解耦的推理中心化RL框架,其推理探索範圍突破去噪過程的束縛。我們在線上採樣中引入基於思維鏈(CoT)的推理採樣機制,通過生成前的規劃與反思階段,迫使模型在確定視覺輸出前探索多種語義假設並驗證其合理性。為避免加權聚合的失效,我們提出跨多獎勵維度的無偏差鏈式偏好分組策略。此外,以二元檢查清單替代間隔型VLM評分,為複雜推理提供更精確、低方差且可解釋的獎勵。實驗表明,本方法在推理密集型圖像編輯任務中顯著優於現有技術,生成結果兼具指令忠實性、視覺連貫性與語義合理性。
人工评估是多语言自然语言处理领域的黄金标准,但由于现有工具存在显著的工程和运维开销,其配置过程 notoriously 复杂缓慢,实践中常被自动指标替代。我们推出轻量级但功能丰富的 Pearmut 平台,使端到端人工评估能像自动评估一样简便运行。该平台消除了常见的使用门槛,特别针对机器翻译任务提供多语言评估支持,既实现了DA、ESA、MQM等标准评估协议,又具备可扩展性以支持新协议原型设计。其特色功能包括文档级上下文评估、绝对与对比评估、注意力校验、ESAAI预标注技术,以及基于静态分配和主动学习的任务分配策略。Pearmut 使可靠的人工评估不再是偶发性工作,而成为模型开发与诊断中实用、常规的组成部分。
記憶增強生成(MAG)技術通過為大型語言模型擴展外部記憶來支持長上下文推理,但現有方法主要依賴於對單體式記憶存儲進行語義相似度檢索,導致時序、因果和實體信息相互糾纏。這種設計限制了查詢意圖與檢索證據之間的可解釋性與對齊度,從而影響推理準確性。本文提出MAGMA——一種多圖譜智能記憶架構,將每個記憶項映射至正交的語義、時序、因果和實體圖譜中。MAGMA將檢索過程定義為基於策略指導的關係圖譜遍歷,實現查詢自適應的選擇與結構化上下文構建。通過解耦記憶表徵與檢索邏輯,該架構提供了透明的推理路徑和細粒度的檢索控制。在LoCoMo和LongMemEval數據集上的實驗表明,MAGMA在長程推理任務中持續優於當前最先進的智能記憶系統。
我们提出RGS-SLAM——一种基于高斯点云的鲁棒性SLAM框架,该框架采用免训练的对应关系高斯初始化方法,取代了GS-SLAM中基于残差驱动的稠密化阶段。与传统方法通过残差揭示缺失几何特征而逐步添加高斯点不同,RGS-SLAM通过对经置信度感知内点分类器优化的DINOv3描述符所生成的稠密多视角对应关系进行一次性三角测量,在优化前即可生成分布均匀且感知结构的高斯点云初始种子。这种初始化策略不仅稳定了早期建图过程,还将收敛速度提升约20%,在纹理丰富和杂乱场景中实现更高渲染保真度,同时保持与现有GS-SLAM流程的完全兼容。在TUM RGB-D和Replica数据集上的测试表明,相较于当前最先进的高斯点云与基于点云的SLAM系统,RGS-SLAM在定位与重建精度方面达到相当或更优水平,并维持最高达925帧/秒的实时建图性能。
现有的一维视觉分词器在自回归生成任务中主要遵循语言模型的设计原则,这些方法直接基于源自语言先验的Transformer架构,生成单层次潜在标记,并将视觉数据视为扁平化的序列标记流。然而,这种类语言的处理方式忽略了视觉数据的关键特性,尤其是长期以来对视觉模型收敛性和效率至关重要的层次化结构与残差网络设计。为了将"视觉本质"重新引入视觉任务,我们提出残差分词器(ResTok),这是一种通过构建图像标记和潜在标记的层次化残差的一维视觉分词器。通过逐级合并获得的层次化表征,可在每一层实现跨层级特征融合,显著提升表征能力。同时,层次间的语义残差可避免信息重叠,生成更集中的潜在分布,从而更易于自回归建模。这种设计自然催生了无需显式约束的跨层级绑定机制。为加速生成过程,我们进一步提出层次化自回归生成器,通过一次性预测整个层级的潜在标记而非严格逐标记生成,大幅减少采样步数。大量实验表明,在视觉分词中恢复层次化残差先验能显著提升自回归图像生成效果,在ImageNet-256数据集上仅需9个采样步数即可达到2.34的gFID指标。代码已开源:https://github.com/Kwai-Kolors/ResTok。
我们提出Gen3R方法,通过衔接基础重建模型与视频扩散模型的强先验,实现场景级三维生成。我们改造VGGT重建模型,通过在其标记上训练适配器来生成几何潜在表示,并对其进行正则化以对齐预训练视频扩散模型的外观潜在表示。通过联合生成这些解耦但对齐的潜在表示,Gen3R能同步生成RGB视频及对应的三维几何数据(包括相机位姿、深度图和全局点云)。实验表明,我们的方法在单图与多图条件的三维场景生成任务中达到了最先进水平。此外,本方法能通过利用生成先验提升重建鲁棒性,证明了重建模型与生成模型的紧密耦合具有相互增益的优势。