每日精選AI研究論文及翻譯
具可驗證獎勵的強化學習(RLVR)已成為解鎖大型語言模型複雜推理能力的關鍵技術。然而,現有可驗證數據的匱乏限制了強化學習的擴展,導致模型在長期訓練後改進效果逐漸飽和。為突破此瓶頸,我們提出「金鵝」方法——通過將填空任務轉化為選擇題形式,從不可驗證的網絡文本中自動合成無限量的RLVR任務。具體流程是:給定原始文本,先引導LLM識別並遮罩關鍵推理步驟,再生成一組多樣化且合理的干擾選項。此法使我們能利用通常被傳統RLVR數據構建排除在外的、富含推理內容的不可驗證語料(如科學教材),最終合成包含逾70萬個任務的大規模RLVR數據集GooseReason-0.7M,涵蓋數學、程式設計與通用科學領域。實證表明,GooseReason能有效重振已對現有RLVR數據飽和的模型,在持續強化學習中實現穩健的持續增益,並在15個多樣化基準測試中為15B和40B指令模型創下最新紀錄。最後,我們將金鵝方法應用於網絡安全領域的真實場景:從未經處理的FineWeb網頁碎片合成RLVR任務。使用所得數據集GooseReason-Cyber訓練Qwen3-4B-Instruct後,該模型在網絡安全任務中刷新紀錄,甚至超越經過大量領域專用預訓練與後訓練的70B專業模型。此成果凸顯了通過開發豐富但未被利用的、富含推理的不可驗證網絡文本,實現RLVR數據自動擴展的巨大潛力。
大型語言模型(LLMs)作為工具增強型智能體正日益廣泛應用於多步驟決策任務,然而訓練具備魯棒性的工具使用智能體仍面臨挑戰。現有方法仍需人工干預、依賴不可驗證的模擬環境、僅採用監督微調(SFT)或強化學習(RL)單一訓練範式,且難以實現穩定的長週期多輪次學習。為解決這些難題,我們提出ASTRA——一個通過可擴展數據合成與可驗證強化學習來訓練工具增強型語言模型智能體的全自動端到端框架。ASTRA整合了兩個互補組件:首先,基於工具調用圖靜態拓撲的流水線能合成多樣化且結構化軌跡,培養智能體具備廣泛可遷移的工具使用能力;其次,通過捕捉人類語義推理的豐富組合拓撲,環境合成框架將分解後的問答軌跡轉換為獨立、可代碼執行且規則可驗證的環境,從而實現確定性多輪次強化學習。基於此方法,我們開發了統一的訓練方案,通過軌跡級獎勵整合SFT與在線RL,平衡任務完成度與交互效率。在多個工具使用智能體基準測試上的實驗表明,ASTRA訓練的模型在同等規模下達到最先進性能,逼近閉源系統水平同時保持核心推理能力。我們已開源完整流水線、環境及訓練模型:https://github.com/LianjiaTech/astra。
NVIDIA Blackwell GPU硬體支援的NVFP4低精度格式,首次有望實現大規模模型(如LLM)端到端全量化預訓練。然而,現有量化訓練方法仍會犧牲此格式的部分表示能力,以換取隨機取整(SR)技術所實現的更精確無偏量化梯度估計,導致其精度相較標準FP16與FP8訓練仍有明顯差距。本文通過名為MS-EDEN的新型微尺度格式無偏差量化方法,將量化誤差降至SR的兩倍以下,從而提升NVFP4量化訓練的現有技術水準。我們將其整合至名為Quartet II的新型全NVFP4線性層量化方案中,透過理論分析證明Quartet II在正向與反向傳播的所有主要矩陣乘法運算中,均能實現更穩定的梯度估計優化。此外,本方案與近期針對NVFP4的訓練優化技術形成良好協同效應。我們進一步在1.9B參數規模、38B詞元的端到端LLM訓練中驗證Quartet II,並提供適用於NVIDIA Blackwell GPU的運算核心,相較BF16實現最高4.2倍加速。程式碼已開源於:https://github.com/IST-DASLab/Quartet-II。
儘管基於語言模型的自動化AI科研工具快速發展,生成符合出版標準的插圖仍是研究流程中勞動密集的瓶頸環節。為解決此問題,我們提出PaperBanana——一個用於自動生成出版級學術插圖的智能體框架。該框架融合前沿視覺語言模型與圖像生成技術,通過協調專業智能體實現文獻檢索、內容風格規劃、圖像渲染及基於自我批判的迭代優化。為系統評估框架性能,我們構建了PaperBananaBench基準數據集,包含從NeurIPS 2025論文中精選的292個方法論圖示測試案例,涵蓋多元研究領域與插圖風格。綜合實驗表明,PaperBanana在準確性、簡潔性、可讀性與美學品質上均顯著優於主流基準方法。我們進一步驗證了該方法在高質量統計圖表生成任務中的擴展能力。總體而言,PaperBanana為實現出版級插圖的自動化生成開闢了新途徑。
大型推理模型(LRMs)通過在推理任務上運用強化學習來生成長鏈式思維推理,從而實現卓越性能。然而,這種過度優化往往優先考慮指令遵循,使模型容易受到有害提示的影響。為緩解此安全退化問題,現有方法依賴外部教師蒸餾,但這會引入分佈差異從而損害原始推理能力。我們提出ThinkSafe——一種無需外部教師的自生成對齊框架,可恢復安全對齊。關鍵洞見在於:雖然指令遵循會抑制安全機制,但模型通常保留識別危害的潛在知識。ThinkSafe通過輕量級拒答引導解鎖此知識,指導模型生成分佈內的安全推理軌跡。基於這些自生成回應的微調能有效重新對齊模型,同時最小化分佈偏移。在DeepSeek-R1-Distill和Qwen3上的實驗表明,ThinkSafe在保持推理能力的同時顯著提升安全性。尤其值得注意的是,其安全性能優於GRPO且推理能力相當,但計算成本顯著降低。程式碼、模型與資料集已開源於:https://github.com/seanie12/ThinkSafe.git。
測試時訓練提供了一種極具前景的方法,僅通過測試問題即可適配模型,從而提升大型語言模型的推理能力。然而,現有方法在處理困難推理問題時面臨雙重挑戰:原始測試問題往往難度過高難以產生高質量的偽標籤,且測試集規模有限導致持續線上更新容易不穩定。為解決這些侷限性,我們提出TTCS——一個協同演化的測試時訓練框架。具體而言,TTCS從同一預訓練模型初始化兩種策略:問題生成器與推理求解器。這兩種策略通過迭代優化實現共同演化:生成器根據測試問題生成逐步增難的題目變體,為求解器當前能力量身定制結構化課程;而求解器則通過在原始測試題與合成題上採樣多個回答計算自洽獎勵來更新自身。關鍵在於,求解器的回饋會引導生成器產生與模型當前能力匹配的題目,而生成的題目變體反過來穩定求解器的測試時訓練。實驗表明,TTCS能持續增強模型在挑戰性數學基準上的推理能力,並可遷移至不同LLM骨幹的通用領域任務,為實現自演化的動態測試課程構建開闢了可擴展路徑。我們的程式碼與實作細節已公開於https://github.com/XMUDeepLIT/TTCS。
本研究指出,视频世界建模与视觉语言预训练相结合,为机器人学习建立了全新且独立的基础框架。直观来看,视频世界模型通过理解动作与视觉动态之间的因果关系,赋予了预测近期未来的能力。受此启发,我们提出LingBot-VA——一种同步学习帧预测与策略执行的自回归扩散框架。该模型具备三项精心设计:(1)基于混合变换器架构的共享潜空间,整合视觉与动作标记;(2)支持持续获取环境真实观测反馈的闭环推演机制;(3)并行化动作预测与运动执行的异步推理管道,以实现高效控制。我们在仿真基准测试和真实场景中评估模型,结果表明其在长周期操作、训练后数据效率以及对新配置的强泛化性方面展现出显著潜力。代码与模型已开源以促进学界研究。
當前最先進的嵌入模型,越來越多源自僅解碼器架構的大型語言模型(LLM)骨幹,並透過對比學習進行適應性調整。隨著基於可驗證獎勵強化學習(RLVR)訓練的推理模型出現,一個自然產生的問題是:當這些模型作為嵌入初始化時,增強的推理能力是否會轉化為更優異的語義表徵?與預期相反,我們在MTEB和BRIGHT基準上的評估顯示出「零效應」現象:採用相同訓練方法時,以RLVR調校後的骨幹作為初始化的嵌入模型,並未相較其基礎對照模型產生一致的性能優勢。為解析此矛盾,我們提出「層級表徵相似性分析(HRSA)」框架,該框架將相似性分解為表徵層、幾何層和功能層三個維度。HRSA分析表明,雖然RLVR會引發潛在流形局部幾何的不可重組化改變與可逆的座標基漂移,但同時保留了全局流形幾何結構與線性讀出能力。因此,後續的對比學習會驅動基礎模型與推理初始化模型之間產生強烈對齊,此現象我們稱之為「流形重對齊」。實證結果顯示,與監督式微調(SFT)不同,RLVR實質上是在既有語義空間內優化軌跡,而非從根本上重構該空間本身。
儘管思維鏈(CoT)能顯著提升大型語言模型的效能,但顯式推理鏈會引入大量計算冗餘。近期潛在推理方法試圖透過將推理過程壓縮至潛在空間來緩解此問題,卻因缺乏適當的壓縮指引而常出現嚴重效能衰退。本研究提出「具現化 CoT 引導的變分潛在推理」(ReGuLaR),以簡潔新穎的潛在學習範式解決此問題。其核心是將潛在推理建模於變分自編碼器框架內,從基於過往狀態的後驗分布中採樣當前潛在推理狀態。具體而言,在學習此變分潛在推理模型時,我們將顯式推理鏈轉譯為圖像,並從中提取稠密的視覺-語義表徵來正則化後驗分布,從而實現高效壓縮且最小化資訊損失。大量實驗表明,ReGuLaR 在計算效率與推理效能上均顯著優於現有潛在推理方法,更透過多模態推理超越 CoT 表現,為潛在推理提供了兼具創新性與洞察力的解決方案。程式碼:https://github.com/FanmengWang/ReGuLaR。
儘管擴散語言模型具備非自回歸的潛力,現有解碼策略仍存在位置偏差,未能充分釋放任意生成的潛能。本研究深入探討擴散語言模型的內在頻譜特性,首次提出頻域分析,揭示隱藏狀態中的低頻分量主要編碼全局結構信息與長程依賴關係,而高頻分量則負責刻畫局部細節。基於此發現,我們提出FourierSampler,通過頻域滑動窗口機制動態引導模型實現「由結構至細節」的生成模式。在LLaDA與SDAR基準測試中,FourierSampler以LLaDA1.5-8B模型相對提升20.4%、LLaDA-8B-Instruct模型相對提升16.0%的表現優於其他推理增強策略,更顯著超越同規模自回歸模型如Llama3.1-8B-Instruct。
大型語言模型(LLMs)的安全性評估通常基於單次或低預算的對抗性提示測試,這種方式會低估實際風險。實務上,攻擊者可利用大規模平行採樣技術反覆探測模型,直至生成有害回應。雖然近期研究表明攻擊成功率會隨重複採樣次數增加而上升,但預測大規模對抗性風險的系統化方法仍顯不足。我們提出一種具規模感知特性的N次最佳採樣風險評估框架SABER,用於建模N次最佳採樣情境下的越獄漏洞。透過採用伯努利分佈的共軛先驗——貝塔分佈對樣本級成功率進行建模,我們推導出可解析的規模化規律,能基於小規模預算測量值可靠外推大規模N值下的攻擊成功率。僅使用n=100個樣本時,我們的錨定估計器預測ASR@1000的平均絕對誤差為1.66,而基準方法誤差達12.04,估計誤差降低86.2%。研究結果揭示了異質化的風險規模化特徵,並表明在標準評估中表現穩健的模型,於平行對抗壓力下可能出現快速非線性風險放大。本研究為現實場景的LLM安全評估提供了低成本、可擴展的方法論。我們將在論文發表時公開相關程式碼與評估腳本,以助力後續研究。
近期基于GRPO(生成式强化策略优化)的流匹配模型方法,在文本到图像生成的人类偏好对齐方面展现出显著提升。然而,这些方法仍存在稀疏奖励问题:整个去噪轨迹的终末奖励被均摊至所有中间步骤,导致全局反馈信号与各去噪步骤的实际细粒度贡献不匹配。为解决此问题,我们提出DenseGRPO创新框架,通过密集奖励机制实现人类偏好的细粒度对齐,逐步骤评估去噪过程的微观贡献。具体而言,我们的方法包含两个核心组件:(1)提出通过基于常微分方程的方法对中间清晰图像施加奖励模型,预测逐步骤奖励增益作为密集奖励。这种方式确保反馈信号与单步贡献精确匹配,从而提升训练效率;(2)基于估计的密集奖励,我们发现现有GRPO方法中均匀探索设置与时变噪声强度存在不匹配缺陷,导致探索空间失当。因此,我们提出奖励感知的随机微分方程采样器校准方案,通过自适应调整时序特异性随机注入量,确保所有时间步均具有适宜的探索空间。在多个标准基准上的大量实验证明了DenseGRPO的有效性,并凸显了有效密集奖励在流匹配模型对齐中的关键作用。
角色图像动画旨在通过将驱动序列中的运动迁移至静态参考图像,合成高保真视频。尽管近期取得进展,现有方法仍面临两个核心挑战:(1)次优的运动注入策略导致身份保持与运动一致性之间出现"跷跷板"效应;(2)过度依赖显式姿态先验(如骨骼结构),难以捕捉复杂动态,且阻碍对任意非人形角色的泛化能力。为解决这些问题,我们提出DreamActor-M2——一个将运动条件重构为情境学习问题的通用动画框架。该方法采用两阶段范式:首先通过将外观特征与运动线索融合至统一潜空间,弥合输入模态差异,使模型能基于基础模型的生成先验协同推理空间身份与时间动态;其次引入自举数据合成流程,构建伪跨身份训练样本对,实现从依赖姿态控制到端到端RGB驱动动画的无缝过渡。该策略显著提升了跨角色类型与运动场景的泛化能力。为促进全面评估,我们进一步提出涵盖多维度角色类型与运动场景的通用基准AW Bench。大量实验表明,DreamActor-M2实现了业界领先的性能,在视觉保真度与跨域泛化性方面均表现优异。项目页面:https://grisoon.github.io/DreamActor-M2/
近期研究探索了将DINO等预训练视觉基础模型(VFM)用于生成式自编码器,展现出强大的生成性能。然而,现有方法常因高频细节丢失而导致重建保真度受限。本文提出DINO球面自编码器(DINO-SAE),该框架能够桥接语义表征与像素级重建。我们的核心发现在于:对比式表征中的语义信息主要编码于特征向量的方向维度,而强制进行严格的幅度匹配反而会阻碍编码器保留细粒度细节。为此,我们设计了分层卷积块嵌入模块以增强局部结构与纹理保持能力,并采用余弦相似度对齐目标函数,在保持语义一致性的同时允许特征幅度灵活变化以保留细节。此外,基于自监督学习基础模型表征本质存在于超球面的观察,我们引入黎曼流匹配技术,直接在该球面潜空间上训练扩散Transformer(DiT)。ImageNet-1K上的实验表明,本方法实现了最先进的重建质量(rFID达0.37,PSNR达26.2 dB),同时与预训练VFM保持强语义对齐。值得注意的是,基于黎曼流匹配的DiT展现出高效收敛特性,在80轮训练周期内gFID指标达到3.47。
可验证奖励的强化学习已成为训练智能代理的强大范式。然而,现有方法通常采用二元奖励机制,无法捕捉达成相同结果的不同轨迹之间的质量差异,从而忽视了解决方案空间内的潜在多样性。受网球"甜点"概念(球拍核心区域能产生最佳击球效果)的启发,我们提出甜点学习(SSL)这一新型框架,为智能体优化提供差异化指导。SSL遵循一个简单而有效的原则:通过渐进式放大的分层奖励机制,引导策略趋向解空间的甜点区域。该原则可自然适配多种任务类型:视觉感知任务利用距离分层建模奖励接近度,而复杂推理任务则对向可行解决方案的渐进进展给予奖励。我们从理论上证明SSL能保持最优解的顺序性并提升梯度信噪比,从而促进更有导向性的优化。在GUI感知、短/长期规划和复杂推理等任务上的大量实验表明,该方法在12个基准测试中均优于强基线模型,样本效率提升最高达2.5倍,并展现出有效的跨任务迁移能力。本研究将SSL确立为训练高效鲁棒智能代理的通用原则。
基于向量量化的图像生成通常采用两阶段流程:分词器将图像编码为离散标记,生成模型则学习标记间的依赖关系以实现重建。然而,第一阶段分词技术的改进未必能提升第二阶段的生成效果,因为现有方法无法有效约束标记间的依赖关系。这种不匹配迫使生成模型从无序分布中学习,导致生成结果存在偏差且连贯性较弱。为解决此问题,我们提出原生视觉分词技术,通过在分词过程中强制建立因果依赖关系。基于这一理念,我们开发了NativeTok框架,该框架在实现高效重建的同时,将关系约束嵌入标记序列。NativeTok包含两大核心组件:(1)用于潜在图像建模的元图像变换器;(2)因果专家混合变换器,其中每个轻量级专家模块基于先验标记和潜在特征生成单个标记。我们进一步设计了分层原生训练策略,仅需更新新增的专家模块即可确保训练效率。大量实验验证了NativeTok的有效性。
诸如Qwen-2.5-Omni的自回归式大型音频语言模型在音频理解与交互方面已展现强大性能,但其扩展仍需耗费大量数据与算力,且严格串行解码机制制约了推理效率。扩散大型语言模型近期被证明能有效利用有限训练数据,先前DIFFA的研究表明,在同等设置下用扩散架构替代自回归主干能显著提升音频理解能力,但该成果仅停留于概念验证规模,未进行大规模指令微调、偏好对齐或实用解码方案。我们推出DIFFA-2——一个面向通用音频理解的实用型扩散基大型音频语言模型。该模型升级了语音编码器,采用双语义与声学适配器,并通过四阶段课程学习(融合语义声学对齐、大规模监督微调及方差缩减偏好优化)进行训练,全程仅使用完全开源语料。在MMSU、MMAU与MMAR基准测试中,DIFFA-2相较DIFFA实现持续提升,并在实际训练成本下与主流自回归音频语言模型性能相当,印证扩散建模可作为大规模音频理解的可行架构支柱。代码已开源:https://github.com/NKU-HLT/DIFFA.git。
我们正式推出PaddleOCR-VL-1.5模型,该升级版本在OmniDocBench v1.5数据集上以94.5%的准确率刷新了最优性能纪录。为系统评估模型对扫描畸变、倾斜变形、曲面扭曲、屏幕翻拍及光照变化等现实物理干扰的鲁棒性,我们提出了Real5-OmniDocBench基准测试集。实验结果表明,增强后的模型在这一新构建的基准测试中实现了最先进的性能表现。此外,我们通过引入印章识别与文本定位任务扩展了模型功能,同时保持其作为0.9B超紧凑视觉语言模型的高效特性。代码地址:https://github.com/PaddlePaddle/PaddleOCR
我们提出RM-RF——一种轻量级奖励模型,用于对自动生成的单元测试进行免运行评估。该方法无需重复编译和执行候选测试,仅通过源代码和测试代码即可预测三个执行衍生指标:(1)增强后的测试套件能否成功编译运行;(2)生成的测试用例是否提升代码覆盖率;(3)生成的测试用例是否提高变异杀死率。为训练和评估RM-RF,我们构建了包含焦点文件、测试文件及经执行流水线标记的候选测试增量的多语言数据集(Java、Python、Go),并公开了用于对比评估的配套数据集与方法论。通过测试多种模型架构与调优机制(零样本、全参数微调、基于LoRA的参数高效微调),在三个预测目标上平均F1分数达到0.69。相较于传统的编译运行工具,RM-RF在保持竞争力预测准确度的同时,显著降低了延迟与基础设施成本,为大规模测试生成和基于强化学习的代码优化提供了快速可扩展的反馈机制。
长程自主推理需要将不断增长的交互历史有效压缩至有限的上下文窗口内。现有记忆系统大多将历史序列化为文本,其令牌级成本固定且随长度线性增长,常将宝贵预算消耗在低价值细节上。为此,我们提出MemOCR——一种多模态记忆智能体,通过视觉布局实现自适应信息密度的内存空间分配,从而提升严格上下文预算下的长程推理能力。具体而言,MemOCR维护结构化富文本记忆(如标题、高亮内容),并将其渲染为可供智能体查询记忆的图像,在视觉层面突出关键证据的同时对辅助细节进行激进压缩。为确保不同内存预算下的鲁棒性,我们采用预算感知的强化学习目标训练MemOCR,使智能体适应多级压缩场景。在长上下文多跳与单跳问答基准测试中,MemOCR显著优于强文本基线,并在极端预算下实现更高效的上下文利用。
基于大语言模型的深度搜索智能体已在多步检索、推理及长程任务执行方面展现出强大能力。然而在实际应用中,其失败往往源于缺乏随着任务在不确定性下演进时,对推理与检索状态进行监控与调节的机制。认知神经科学研究表明,人类元认知具有分层结构,能够将快速异常检测与选择性触发的经验驱动反思相结合。本研究提出具有元认知监控的深度搜索框架(DS-MCM),该框架通过显式分层元认知监控机制增强深度搜索能力。DS-MCM集成两大组件:快速一致性监控器负责轻量级校验外部证据与内部推理置信度的对齐情况;慢速经验驱动监控器则选择性激活,基于历史智能体轨迹的经验记忆指导纠偏干预。通过将监控机制直接嵌入推理-检索循环,DS-MCM既能判定干预时机,又能依据先验经验制定纠偏策略。在多个深度搜索基准测试及不同骨干模型上的实验表明,DS-MCM能持续提升性能表现与系统鲁棒性。
大型语言模型(LLMs)展现出卓越的能力,但其基于随机性下一词元预测的特性会导致逻辑不一致和奖励破解问题,而形式符号系统可规避此类缺陷。为弥合这一差距,我们提出一种形式逻辑验证引导的框架,将形式符号验证与自然语言生成过程动态交织,通过实时反馈在错误发生时进行检测与修正。与以往受限于被动事后验证的神经符号方法不同,我们的方法能主动惩罚推理链中的中间谬误。我们通过创新的两阶段训练流程实现该框架,协同整合形式逻辑验证引导的监督微调与策略优化。在涵盖数学、逻辑和通用推理的六个基准测试上的广泛评估表明,我们的7B和14B模型分别以10.4%和14.2%的平均优势超越现有最优基线。这些结果验证了形式验证可作为可扩展机制,显著推动先进LLM推理的性能边界。
探針研究旨在通過在凍結大型語言模型(LLM)的層表徵上訓練輕量級預測器,來探析這些表徵中編碼了何種信息。除了分析用途外,探針常被操作性地應用於「探針後控制」流程:從探針中提取學習到的概念向量,並通過加法激活控制在前向傳播過程中將其注入層表徵。該流程的效能取決於能否估算出精確、在截除操作下方向穩定且獲取成本低廉的概念向量。基於這些需求,我們提出RAPTOR(嶺自適應邏輯探針),這是一種簡單的L2正則化邏輯探針,其通過驗證調優的嶺強度從歸一化權重中生成概念向量。在對指令微調LLM和人工撰寫概念數據集的大量實驗中,RAPTOR在準確度上達到或超越強基線,同時實現了競爭性的方向穩定性與顯著降低的訓練成本;這些定量結果得到了定性下游控制演示的佐證。最後,我們利用凸高斯最小最大定理(CGMT),在高維少樣本場景下的理想化高斯師生模型中,對嶺邏輯回歸進行機制性表徵,闡釋了懲罰強度如何調控探針準確度與概念向量穩定性,並得出與真實LLM嵌入趨勢定性吻合的結構性預測。
儘管大型語言模型在軟件工程領域展現出應用潛力,但其在單元測試方面的應用目前仍主要侷限於孤立測試用例生成或預言預測,未能充分應對測試套件維護這一更廣泛的挑戰。我們提出TAM-Eval(測試自動化維護評估框架),該框架與基準測試體系旨在評估模型在三大核心測試維護場景中的表現:測試套件的創建、修復與更新。有別於以往僅限於函數級任務的研究,TAM-Eval在測試文件層級進行操作,同時在隔離評估期間保持對完整代碼庫上下文的訪問權限,從而更真實地反映實際維護工作流程。我們的基準測試包含從Python、Java和Go項目中自動提取並驗證的1,539個測試場景。TAM-Eval採用基於測試套件通過率、代碼覆蓋率和變異測試的無參考評估協議,支持對原始LLM與智能體工作流進行系統無關的評估。實證結果表明,現有頂尖LLM在真實測試維護流程中能力有限,僅能邊際提升測試有效性。我們將TAM-Eval作為開源框架發布,以支持自動化軟件測試的未來研究。相關數據與代碼已公開於https://github.com/trndcenter/TAM-Eval。
尽管多智能体系统已通过专业化分工展现出处理复杂任务的潜力,但同步微调多个智能体仍面临两大挑战:(1)跨智能体的功劳分配问题;(2)昂贵多智能体模拟的样本效率问题。本研究提出基于人工智能反馈的逐动作过程奖励微调方法(MAPPA)以同时解决这两个难题。通过将功劳分配细化到单个智能体的每个动作而非仅针对任务完成情况,MAPPA能够在无需真实标签的情况下实现细粒度监督,并从每次模拟中提取最大化的训练信号。我们在数学竞赛题和工具增强的数据分析任务上验证了该方法。在未见过的数学问题上,MAPPA在AIME和AMC测试中分别提升5.0-17.5个百分点和7.8-17.2个百分点;在数据分析任务中,成功率提高12.5个百分点,质量指标最高提升30%,证明逐动作监督能推动不同领域多智能体系统的全面改进。通过解决这些挑战,我们的工作为在最小人力监督下扩展多智能体系统处理复杂长周期任务迈出了第一步。
思維鏈(CoT)技術使大型語言模型(LLM)能夠處理複雜問題,但其基於離散詞元空間的推理過程仍受計算成本高和推理路徑坍塌的雙重制約。近期潛在推理方法嘗試通過在連續隱藏狀態中執行推理來優化效率,然而這些方法通常僅作為從顯式推理步驟到潛在狀態的不透明端到端映射,且推斷時往往需要預定義潛在步驟數量。本文提出潛在思維規劃框架PLaT,通過將推理與言語化過程根本性解耦,把潛在推理重新定義為規劃問題。我們將推理建模為潛在規劃狀態的確定性軌跡,而獨立的解碼器在必要時將這些思維具象化為文本。這種解耦機制使模型能動態決定何時終止推理,而非依賴固定超參數。數學基準測試的實證結果揭示出獨特的權衡:雖然PLaT的貪婪準確率低於基線模型,但其在推理多樣性維度展現出更優的可擴展性,表明PLaT學習到了一個更魯棒、更寬廣的解空間,為推斷時搜索提供了透明且可擴展的基礎框架。
扩散模型与流匹配模型的最新进展揭示了预测目标选择的转变趋势——在高维设定下,预测目标逐渐从噪声(ε)和速度(v)转向直接数据(x)预测。然而,关于最优目标为何取决于数据特定属性的理论解释仍然缺失。本研究提出了基于广义预测公式的理论框架,该框架可容纳任意输出目标(其中ε预测、v预测和x预测均为特例)。我们推导出数据几何特性与最优预测目标之间的解析关系,严格论证了当环境维度显著超过数据本征维度时,x预测为何更具优势。此外,虽然理论表明维度是决定最优预测目标的主导因素,但流形约束数据的本征维度在实际中往往难以估计。为弥补这一差距,我们提出k-Diff框架,该框架采用数据驱动方法直接从数据中学习最优预测参数k,无需显式维度估计。在潜空间和像素空间图像生成的大量实验表明,k-Diff在不同架构和数据规模下均能稳定超越固定目标基线,为提升生成性能提供了原则性自动化解决方案。
基於人類回饋的強化學習(RLHF)是使大型語言模型(LLM)與人類偏好對齊的關鍵技術,但該方法易出現獎勵過度優化問題——策略模型對獎勵模型產生過擬合,利用虛假獎勵模式而非真實捕捉人類意圖。現有緩解方案主要依賴表層語義信息,難以有效應對因策略分佈持續偏移導致的獎勵模型與策略模型失準。這種失準必然引發獎勵差異擴大,加劇獎勵過度優化現象。為突破這些局限,我們提出R2M(實時對齊獎勵模型),一種新型輕量級RLHF框架。R2M突破僅依賴預訓練LLM語義表徵的傳統獎勵模型架構,轉而利用策略模型在強化學習過程中動態演變的隱藏狀態(即策略回饋),實現與策略實時分佈偏移的對齊。本研究為通過實時利用策略模型回饋來提升獎勵模型性能開闢了新路徑。
随着数字环境(数据分布)处于动态变化中,新GUI数据随时间不断涌现——引入新的领域或分辨率——在静态环境中训练的智能体性能会出现退化。本研究提出"持续GUI智能体"新任务,要求GUI智能体在领域和分辨率变化的条件下实现持续学习。我们发现,由于动态场景中用户界面交互点和交互区域的多样性,现有方法在GUI分布随时间变化时难以保持稳定的定位基准。为此,我们提出动态锚定GUI框架(GUI-AiF),这是一种通过强化微调实现持续学习稳定的新框架,其核心是两种新型奖励机制:动态锚点奖励(APR-iF)与动态锚域奖励(ARR-iF)。这些奖励机制引导智能体与动态变化的交互点和区域保持对齐,有效缓解现有奖励策略对静态定位线索(如固定坐标或元素尺寸)的过度适应问题。大量实验表明GUI-AiF超越了现有最优基线方法。本研究首次建立了GUI智能体的持续学习框架,揭示了强化微调在持续GUI智能体领域尚未开发的潜力。
开放词汇定位任务需在弱监督条件下实现精准的视觉-语言对齐,然而现有方法要么依赖缺乏细粒度表达能力的全局句子嵌入,要么需通过显式监督或复杂跨注意力机制实现词元级对齐。我们提出理论奠基的视觉-语言对齐框架ExpAlign,其基于原则性的多示例学习建模方法。该框架通过期望对齐头对词元-区域相似度进行基于注意力的软MIL池化,无需额外标注即可实现隐式词元与实例选择。为进一步稳定对齐学习,我们提出基于能量的多尺度一致性正则化方案,包含Top-K多阳性对比目标及源自拉格朗日约束自由能最小化的几何感知一致性目标。大量实验表明,ExpAlign持续提升开放词汇检测和零样本实例分割性能,尤其在长尾类别上表现突出。最显著的是,在LVIS minival数据集上达到36.2 AP_r,在可比模型规模下超越其他前沿方法,同时保持轻量级和推理高效的特点。
表征学习是搜索、聚类、分类和重排等下游任务的核心。当前最先进的序列编码器通常通过池化操作(最常用的是特殊[CLS]标记或词嵌入均值池化)将可变长度的标记序列压缩为单一向量。本文指出这些池化策略存在系统性缺陷:[CLS]倾向于将信息集中于序列起始位置,可能无法充分表征分布式证据;而均值池化则会稀释显著的局部信号,有时导致短上下文场景表现下降。为解决这些问题,我们提出地标(LMK)池化方法:将序列分割为文本块,在块间插入地标标记,最后通过对地标标记嵌入进行均值池化形成最终表征。这种简易机制能在不牺牲局部显著特征的前提下提升长上下文外推能力,仅需引入少量特殊标记作为代价。实证研究表明,LMK池化在短上下文检索任务中与现有方法表现相当,在长上下文任务中则实现显著提升,为现有池化方法提供了实用且可扩展的替代方案。
端到端自动驾驶技术日益广泛地采用自监督视频预训练来学习可迁移的规划表征。然而,目前为场景理解预训练视频世界模型仅能带来有限的性能提升。这一局限因驾驶行为固有的模糊性而加剧:每个场景通常仅提供单一人为轨迹,导致难以学习多模态行为模式。本研究提出Drive-JEPA框架,通过整合视频联合嵌入预测架构与多模态轨迹蒸馏技术实现端到端驾驶。首先,我们将V-JEPA适配于端到端驾驶任务,基于大规模驾驶视频预训练ViT编码器,生成与轨迹规划对齐的预测性表征。其次,我们设计了以提案为中心的规划器,通过动量感知选择机制同时蒸馏模拟器生成的多模态轨迹与人类轨迹,以提升行为策略的稳定性和安全性。在NAVSIM基准测试中,结合简易Transformer解码器的V-JEPA表征在无感知设定下以3个PDMS优势超越现有方法。完整Drive-JEPA框架在v1版本达到93.3 PDMS,v2版本取得87.8 EPDMS,创造了新的性能纪录。
大型语言模型(LLMs)能够有效调用工具,但在多轮执行中仍显脆弱:遭遇工具调用错误后,较小模型常会退化为重复无效调用,无法解读错误反馈并进行自我修正。这种脆弱性阻碍了其在实际场景中的可靠部署——在工具交互过程中,执行错误本就难以避免。我们发现现有方法的核心局限:标准强化学习(RL)将错误视为稀疏负奖励,未能提供恢复指引;而预收集的合成纠错数据集则与模型在策略执行时的错误模式存在分布差异。为弥补这一缺口,我们提出Fission-GRPO框架,将执行错误转化为RL训练循环内的纠错监督信号。该机制的核心是通过微调的错误模拟器生成诊断反馈,将每个失败轨迹裂变为新训练实例,并基于当前策略重采样恢复路径。这使得模型能从探索过程中的具体错误中学习,而非依赖静态的预收集错误案例。在BFCL v4多轮测试集上,Fission-GRPO将Qwen3-8B的错误恢复率绝对提升5.7%,关键的是,其整体准确率较GRPO提升4%(从42.75%至46.75%),并优于专用工具调用智能体。
多模态大语言模型(MLLMs)是当前人工智能研究的重点领域。然而,现有研究多聚焦于静态图像理解,对其处理时序性音视频数据的能力探索仍显不足。这一空白凸显了建立高质量基准的必要性,以系统评估MLLMs在真实场景下的性能。我们推出SONIC-O1基准——一个全面且经人工完整校验的评估体系,涵盖13个真实对话领域,包含4,958条标注数据及人口统计元数据。该基准通过开放式摘要生成、多项选择题作答及含推理依据的时间定位等关键任务评估MLLMs性能。对闭源与开源模型的实验揭示了其局限性:虽然两类模型在选择题准确率上差距较小,但最佳闭源模型与开源模型在时间定位任务中表现出22.6%的显著性能差异。模型在不同人口群体中的性能进一步分化,表明其行为存在持续性偏差。总体而言,SONIC-O1为基于时序约束且具备社会鲁棒性的多模态理解提供了开放评估套件。我们公开SONIC-O1以促进可复现性研究:项目页面:https://vectorinstitute.github.io/sonic-o1/ 数据集:https://huggingface.co/datasets/vector-institute/sonic-o1 代码库:https://github.com/vectorinstitute/sonic-o1 排行榜:https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard
在神经网络剪枝领域,"彩票假说"指出大型网络中存在稀疏子网络(即中奖彩票),这些子网络可独立训练以达到原始稠密网络的性能。然而现有方法大多假设存在适用于所有输入的通用中奖彩票,忽略了现实数据固有的异质性。本研究提出"路由彩票"自适应剪枝框架,该框架能发现多个专用子网络(称为自适应彩票),每个子网络分别适配不同类别、语义簇或环境条件。在多样化数据集和任务上的实验表明,RTL在平衡准确率和召回率上持续优于单模型与多模型基线,所用参数比独立模型少10倍且呈现语义对齐特性。此外,我们发现激进剪枝会导致"子网络坍缩"现象,并提出了基于子网络相似度的无标签过稀疏化诊断方法。总体而言,本研究将剪枝重构为模型结构与数据异质性对齐的机制,为构建更具模块化和情境感知能力的深度学习模型开辟了新途径。
注意力模式在大型语言模型(LLMs)的训练与推理过程中具有关键作用。现有研究虽已识别出检索头、汇聚头和对角线轨迹等独立模式,但这些观察仍呈碎片化状态,缺乏统一的理论解释。为弥补这一空白,我们提出时序注意力模式可预测性分析框架(TAPPA),该统一框架通过从时序连续性的角度分析注意力机制的数学表述,从而解释多样化的注意力模式。TAPPA不仅深化了对注意力行为的理解,还为推理加速方法提供了指导。具体而言,TAPPA将注意力模式表征为具有明确规律的可预测模式与呈现有效随机性的不可预测模式。我们的分析进一步揭示,这种区分可通过查询向量沿时间维度的自相似度来解释。聚焦于可预测模式,我们通过查询向量、键向量与旋转位置编码(RoPE)的联合作用,对三种典型案例进行了详细的数学分析。通过将TAPPA的洞察应用于KV缓存压缩和LLM剪枝任务,我们验证了该框架的有效性。在这些任务中,基于TAPPA设计的简易评估指标均能持续提升基线方法的性能。代码已开源:https://github.com/MIRALab-USTC/LLM-TAPPA。
我们推出KAPSO——一个用于自主程序合成与优化的模块化框架。给定自然语言目标和评估方法后,KAPSO通过迭代执行构思、代码合成与编辑、运行、评估及学习等步骤,持续改进可运行成果以达成可量化目标。该框架将程序合成视为长期优化循环中的操作符而非终点,其进展由评估器结果动态定义。 KAPSO通过三个紧密耦合的组件,针对性解决编程智能体常见的长期性故障:实验状态丢失、脆弱调试机制及领域知识复用能力薄弱。首先,基于git的实验引擎将每次尝试隔离为独立分支,生成可复现成果并保留迭代溯源信息;其次,知识系统整合代码库、内部手册、文档、科研论文及网络搜索结果等异构资源,将其组织成支持工作流、实现方案和环境约束检索的结构化表征;第三,认知记忆层协调检索过程,并维护从实验轨迹(运行日志、差异比较、评估反馈)提炼的可复用经验库,有效减少重复错误模式并加速收敛。 我们在MLE-Bench(Kaggle式机器学习竞赛)和ALE-Bench(AtCoder启发式优化)上评估KAPSO,并报告端到端性能表现。 代码地址:https://github.com/Leeroo-AI/kapso
知識蒸餾技術正日益廣泛地應用於將大型語言模型的能力遷移至較小模型,其在效率與實用性方面的顯著提升往往超越標準微調方法。除性能優勢外,學界亦探索將知識蒸餾作為隱私保護機制,以降低訓練數據洩露風險。儘管訓練數據記憶化現象在標準預訓練與微調情境中已獲深入研究,但其在知識蒸餾框架下的動態特性仍鮮為人知。本研究通過三類大型語言模型家族與三組數據集,系統性探討知識蒸餾流程中的記憶化現象。主要發現包括:(1) 蒸餾模型的訓練數據記憶化程度顯著低於標準微調(記憶化減少逾50%);(2) 特定樣本具有先天易記憶特性,其佔蒸餾過程記憶化總量的絕大部分(約95%以上);(3) 基於zlib熵、KL散度及困惑度等特徵,可在蒸餾前預測學生模型的記憶化傾向;(4) 軟蒸餾與硬蒸餾雖總體記憶率相近,但硬蒸餾風險更高:其繼承教師模型特異性樣本的數量是軟蒸餾的2.7倍。本研究證實,相較標準微調,知識蒸餾既能提升模型泛化能力,又可有效降低記憶化風險。
我们提出视觉个性化图灵测试(VPTT),这是一种基于感知不可区分性(而非身份复现)来评估情境化视觉个性化的新范式。当模型生成的图像、视频、3D资产等内容,在人类或经过校准的视觉语言模型评判下,与特定人物可能创作或分享的内容无法区分时,即视为通过VPTT。为实现该测试,我们构建了VPTT框架,包含万人角色基准数据集(VPTT-Bench)、视觉检索增强生成器(VPRAG)以及基于纯文本指标且与人机评判结果校准的VPTT分数。实验表明人类评估、VLM评估与VPTT评估结果高度相关,验证了VPTT分数可作为可靠的感知代理指标。测试结果证明VPRAG在还原度与原创性之间达到最佳平衡,为个性化生成式AI提供了可扩展且保护隐私的技术基础。
少量经过验证的目标信息能否引导基础模型昂贵的自监督预训练?传统预训练方法优化的是固定代理目标(如下一词预测),这种机制可能导致计算资源分配与下游目标能力需求不匹配。我们提出基于价值的模态无关控制式持续预训练方法V-Pretraining:通过轻量级任务设计器动态调整预训练任务,使每个梯度步的价值最大化。以数据增强下的自监督学习为例,该任务设计器会选取那些预训练损失梯度与下游任务(如图像分割)梯度方向一致的预训练任务(如增强策略),从而将预训练导向相关下游能力。值得注意的是,预训练模型始终不接触下游任务标签,这些标签仅用于塑造预训练任务。在相同更新预算下,对0.5B-7B语言模型进行V-Pretraining,仅需使用12%的GSM8K训练样本作为反馈,即可在推理任务(GSM8K测试Pass@1)上相较标准下一词预测实现最高18%的相对提升。在视觉自监督学习中,我们将ADE20K数据集上的最优结果提升1.07 mIoU,在降低NYUv2 RMSE的同时保持ImageNet线性评估精度,并为持续预训练中的令牌效率提升提供了初步证据。
在后邓纳德时代,嵌入式系统优化需在能效与延迟间进行复杂权衡。传统启发式调参方法在这种高维非平滑的配置空间中往往效率低下。本研究提出一种基于高斯过程的贝叶斯优化框架,用于在异构多核架构上自动搜索最优调度配置。我们通过逼近能耗与时间的帕累托前沿,显式处理问题的多目标特性。进一步结合敏感性分析(fANOVA)并比较不同协方差核函数(如马特恩核与径向基函数),为黑盒模型提供物理解释性,揭示了驱动系统性能的主导硬件参数。