每日精選AI研究論文及翻譯
我們推出 Step 3.5 Flash——一個稀疏專家混合模型,在頂級智能體能力與計算效率之間架起橋樑。我們聚焦於構建智能體最關鍵的要素:敏銳的推理能力與快速可靠的執行效能。該模型以1960億參數為基礎,僅激活110億參數實現高效推理,並採用3:1交錯滑動窗口/全局注意力機制與多標記預測技術(MTP-3)優化,顯著降低多輪智能體交互的延遲與成本。為實現頂級智能,我們設計了可擴展的強化學習框架,將可驗證信號與偏好反饋相結合,在大規模離線策略訓練中保持穩定性,使模型能在數學、編程與工具運用領域持續自我進化。Step 3.5 Flash 在智能體、編程與數學任務中表現卓越:IMO-AnswerBench 達85.4%、LiveCodeBench-v6(2024.08-2025.05)獲86.4%、tau2-Bench 取得88.2%、BrowseComp(含上下文管理)達69.0%、Terminal-Bench 2.0 獲51.0%,性能可比肩 GPT-5.2 xHigh 與 Gemini 3.0 Pro 等前沿模型。通過重新定義效率邊界,Step 3.5 Flash 為在真實工業環境中部署複雜智能體提供了高密度基礎架構。
近期研究已开始将生成式多模态大语言模型(MLLMs)适配为视觉任务的嵌入提取器,通常通过微调来生成通用表征。然而其在视频任务上的表现仍逊色于视频基础模型(VFMs)。本文聚焦于利用MLLMs进行视频-文本嵌入与检索研究。我们首先开展系统的分层分析,发现中间层(预训练状态)的MLLMs已编码大量任务相关信息。基于此洞见,我们证明将中间层嵌入与校准后的MLLM头部相结合,无需任何训练即可实现强大的零样本检索性能。在此基础上,我们提出一种轻量级文本对齐策略:通过将稠密视频描述映射为简洁摘要,实现在无视觉监督的情况下进行任务相关的视频-文本嵌入学习。值得注意的是,该方法仅通过文本优化而无需微调,即在常见视频检索基准测试中显著超越现有方法,刷新了多项性能纪录。
統一多模態模型(UMMs)在視覺生成領域展現了顯著進展。然而,現有基準主要評估的是依賴於累積知識與習得模式的「晶化智力」,這種側重忽略了「生成流體智力」(GFI)——即歸納模式、透過約束推理並即時適應新情境的能力。為嚴謹評估此能力,我們提出GENIUS(生成流體智力評估套件)。我們將GFI形式化為三種基礎能力的綜合體,包括:歸納隱性模式(例如推斷個人化視覺偏好)、執行臨時約束(例如可視化抽象隱喻),以及適應情境知識(例如模擬反直覺物理現象)。這些基礎能力共同挑戰模型在即時情境中解決問題的能力。我們對12個代表性模型的系統性評估顯示,這些任務存在明顯的性能缺陷。關鍵在於,我們的診斷分析釐清了這些失敗模式,證明缺陷源於情境理解能力不足,而非內在生成能力欠缺。為彌合此差距,我們提出無需訓練的注意力干預策略。最終,GENIUS為GFI建立了嚴謹標準,引領領域從知識運用邁向動態通用推理。我們的資料集與程式碼將發佈於:https://github.com/arctanxarc/GENIUS。
隨著大型多模態模型的快速發展,可靠的評判與批判模型已成為開放式評估和偏好校準的關鍵工具,能為模型生成回應提供配對偏好、數值評分及解釋性理由。然而現有的批判模型主要基於通用視覺領域(如圖說生成或圖像問答)進行訓練,導致涉及感知、因果推理與規劃的物理AI任務長期缺乏深入探索。我們提出PhyCritic——一種通過兩階段RLVR流程優化的多模態物理AI批判模型:首先通過物理技能熱身階段強化物理導向的感知與推理能力,接著進行自參照批判微調,使模型在評判候選回應前先生成自身預測作為內部參考,從而提升判斷穩定性與物理正確性。在物理與通用多模態評判基準測試中,PhyCritic相較開源基準模型實現顯著性能提升,且作為策略模型應用時,能進一步增強物理情境任務中的感知與推理能力。
大型語言模型代理在適應領域特定工具調用時,面對持續演進的介面仍表現出明顯的脆弱性。提示與架構工程雖易於部署,但在分佈偏移和嚴格解析器下往往不夠穩健;而持續的參數高效微調雖能提升可靠性,卻需付出訓練成本、維護代價及潛在的遺忘風險。我們發現一種關鍵的「惰性代理」失效模式:儘管從中間層激活值能近乎完美解碼工具使用必要性,模型仍保守地避免進入工具調用模式,揭示出表徵與行為間的落差。為此,我們提出激活導向適配器(ASA),這款免訓練的推理時控制器透過單次中間層干預,以路由器調控的導向向量混合體鎖定工具領域,並結合探針引導的符號門控機制,在抑制虛假觸發的同時放大真實意圖。在Qwen2.5-1.5B模型上的MTU-Bench測試顯示,ASA僅需約20KB可移植資源且無需權重更新,即將嚴格工具使用的F1分數從0.18提升至0.50,同時將誤報率從0.15降至0.05。
近期基礎模型的突破性進展,已催生出能在國際數學奧林匹克競賽中達到金牌標準的推理系統。然而從競賽級解題邁向專業數學研究,需要具備文獻梳理能力與建構長視野證明的能力。本研究推出Aletheia數學研究智能體,能透過自然語言端到端地迭代生成、驗證與修正解題方案。該系統由三大核心技術驅動:針對複雜推理問題的Gemini Deep Think增強版、突破奧林匹克競賽題目範疇的新穎推論時標度律,以及應對數學研究複雜性的密集工具調用機制。我們從奧數題目到博士級習題多維度驗證Aletheia的能力,並透過三大AI輔助數學研究里程碑彰顯其突破:(a) 完全由AI自主生成的研究論文《Feng26》,成功計算算術幾何中特徵權值這類結構常數;(b) 展現人機協作的《LeeSeo26》論文,推導出獨立粒子系統(獨立集)的邊界條件;(c) 對Bloom的埃爾德什猜想數據庫中700個開放問題的大規模半自主評估(Feng等人,2026a),其中包含對四個開放問題的自主解答。為促進公眾理解AI與數學的融合發展,我們建議建立量化AI輔助成果自主性與新穎度的標準分級體系。文末將對數學領域的人機協作模式進行展望。
儘管長文本推理在各種現實應用中至關重要,但對大型語言模型而言仍具挑戰性,因為其性能會隨上下文長度增加而下降。近期研究MemAgent嘗試透過類RNN循環逐塊處理上下文,並更新文本記憶體以進行最終回答。然而,這種簡單的循環記憶更新存在兩個關鍵缺陷:(i)記憶體可能快速膨脹,因為其更新缺乏選擇性,甚至對無證據支持的文本塊也會更新;(ii)循環缺乏退出機制,導致在收集到足夠證據後仍進行不必要的計算。為解決這些問題,我們提出GRU-Mem,引入兩個文本控制門來實現更穩定高效的長文本推理。具體而言,GRU-Mem僅在更新門開啟時更新記憶體,且循環會在意圖退出門開啟時立即終止。為賦予模型此能力,我們在端到端強化學習中引入兩種獎勵信號r^{update}和r^{exit},分別獎勵正確的更新與退出行為。在多項長文本推理任務上的實驗表明,GRU-Mem能有效提升效能與效率,不僅普遍優化基礎MemAgent性能,更實現最高達400%的推理加速。
本文提出全視角密集描述生成任務,該創新任務旨在生成具明確時間戳的連續、細粒度、結構化音視覺敘事。為確保密集語義覆蓋,我們引入六維結構化框架來創建「劇本式」描述,使讀者能如電影劇本般逐場景生動想像影片內容。為推動研究,我們構建了高質量人工標註基準OmniDCBench,並提出SodaM統一評估指標,該指標在評估時間感知細節描述的同時能緩解場景邊界模糊問題。此外,我們創建了訓練數據集TimeChatCap-42K,並提出基於SFT與GRPO訓練的強基線模型TimeChat-Captioner-7B,該模型採用任務特定獎勵機制。大量實驗表明,TimeChat-Captioner-7B實現了最先進的性能,超越Gemini-2.5-Pro,其生成的密集描述顯著提升了音視覺推理(DailyOmni與WorldSense)與時間定位(Charades-STA)的下游任務能力。所有數據集、模型與代碼將公開於https://github.com/yaolinli/TimeChat-Captioner。
僅使用解碼器的大型語言模型正日益被用作行為編碼器以進行用戶表徵學習,然而注意力遮罩對用戶嵌入質量的影響仍未得到充分探討。本研究在整合長期異構用戶行為的大規模真實支付寶數據上,系統性地探討了因果式、混合式及雙向注意力遮罩在統一對比學習框架中的效果。為改善從因果式轉向雙向注意力時的訓練動態,我們提出梯度引導軟遮罩技術——一種在線性調度器實施前應用的基於梯度的預熱方法,可在優化過程中逐步開放未來注意力。通過在涵蓋預測、偏好及營銷敏感度任務的9個工業級用戶認知基準測試中評估,相較於因果式、混合式及僅使用調度器的基線方法,本方法始終能產生更穩定的訓練過程和更高質量的雙向表徵,同時保持與解碼器預訓練的兼容性。總體而言,我們的研究結果凸顯了遮罩設計和訓練過渡在適應僅解碼器大型語言模型以實現有效用戶表徵學習中的重要性。代碼已開源於:https://github.com/JhCircle/Deepfind-GGSM。
儘管大型語言模型(LLM)近期在自動啟發式設計(AHD)領域展現潛力,現有方法通常將AHD框架侷限於構造型優先規則或參數化局部搜索指導,從而將搜索空間限制在固定啟發式形式內。此類設計對結構性探索的能力有限,難以在複雜組合優化問題(COP)中逃離深度局部最優解。本研究提出G-LNS——一個生成式演化框架,將基於LLM的AHD擴展至大型鄰域搜索(LNS)算子的自動化設計。有別於以往孤立演化啟發式的方法,G-LNS利用LLM協同演化緊密耦合的破壞算子與修復算子對。通過合作式評估機制顯式捕捉算子間的互動,從而發現能共同實現有效結構破壞與重構的互補邏輯。在旅行商問題(TSP)和容量限制車輛路徑問題(CVRP)等具挑戰性的COP基準測試中,大量實驗表明G-LNS顯著優於基於LLM的AHD方法及強力經典求解器。所發現的啟發式不僅能以更少計算資源獲得接近最優的解,更在多元且未見過的實例分佈中展現出強健的泛化能力。
基于大语言模型(LLM)的智能体正日益广泛应用于软件行业,作为协作者甚至自主开发者参与代码贡献。随着其应用范围的扩大,评估当前智能体编码能力的边界显得尤为重要。然而现有智能体编码基准测试的任务覆盖范围有限(如仅针对单次拉取请求的缺陷修复),且常依赖非可执行评估方法,或缺乏持续更新评估覆盖度的自动化机制。为应对这些问题,我们提出FeatureBench——一个专注于评估端到端、面向功能特性的软件开发场景中智能体编码性能的基准测试框架。该框架融合了基于执行的评估协议与可扩展的测试驱动方法,能够以最小人力成本从代码仓库自动生成测试任务。通过沿依赖关系图追踪单元测试,我们的方法可识别跨越多提交记录、分散在开发时间线上的功能级编码任务,同时确保功能分离后其他特性的正常运行。基于该框架,我们在首版基准中从24个开源仓库筛选出200项挑战性评估任务和3825个可执行环境。实证评估表明,在SWE-bench上达到74.4%解决率的最先进智能体模型(如Claude 4.5 Opus)在本基准中仅能完成11.0%的任务,这为智能体编码技术的发展提供了新的突破方向。此外,得益于自动化任务收集工具链,FeatureBench可随时间推移轻松扩展和更新,有效缓解数据泄露问题。所构建环境固有的可验证性也使该方法具备用于智能体训练的潜在价值。
基于可验证奖励的强化学习(RLVR)已成为增强大语言模型推理能力的有效方法。尽管效果显著,RLVR仍面临元学习瓶颈:该方法缺乏人类学习循环中除练习与验证外固有的错误归因和经验内化机制,从而限制了细粒度功劳分配和可复用知识体系的形成。我们将这种从过往错误中提炼的可复用知识表征称为元经验。基于此洞见,我们提出元经验学习框架,将自蒸馏获得的元经验融入模型的参数化记忆。在标准RLVR基础上,我们引入创新设计:利用大语言模型的自我验证能力,对正确与错误推理轨迹进行对比分析,精确定位产生推理错误的分岔点,并将其总结为可泛化的元经验。通过最小化负对数似然,元经验被进一步内化至大语言模型的参数化记忆中,由此产生一种语言建模的奖励信号,该信号能桥接正确与错误推理轨迹,促进知识的有效复用。实验结果表明,元经验学习在多个基准测试中实现稳定提升,在不同规模模型上均获得3.92%至4.73%的Pass@1增益。
当前大语言模型(LLM)领域的发展中,大规模高质量训练数据的筛选是模型性能提升的主要驱动力。数据配方作为关键杠杆,包含将原始数据源转化为训练语料库的数据处理流程。尽管越来越多研究利用LLM自动化执行数据合成、过滤等单步数据处理操作,但数据配方的整体设计仍高度依赖人工,需要大量专业知识和反复调试。为突破这一瓶颈,我们提出了面向LLM适配的端到端数据配方自动生成框架:给定目标基准测试和可用数据源池,模型需输出完整数据配方,使基础LLM适配目标任务。我们推出的DataChef-32B采用在线强化学习策略,通过代理奖励函数预测候选配方在下游任务的表现。在六项保留测试任务中,DataChef-32B生成的实用配方达到与专家手工设计相当的下游性能。值得注意的是,该配方成功将Qwen3-1.7B-Base适配至数学领域,在AIME'25测试中取得66.7分,超越原版Qwen3-1.7B。这项研究为自动化LLM训练及开发自演进AI系统提供了新思路。
我们提出ROCKET——一种无需训练即可实现模型压缩的方法,与基于分解、结构化稀疏化和动态压缩的基线方法相比,该方法达到了当前最优性能。在全局压缩预算框架下,ROCKET包含两项关键创新:首先,它将层级压缩分配建模为多选择背包问题,通过为每个层级选择最优压缩级别,在满足目标模型大小的前提下最小化整体重构误差;其次,受字典学习启发,它引入了单步稀疏矩阵分解技术:仅需少量校准数据,即可基于激活-权重敏感度对权重系数进行稀疏化处理,随后通过最小二乘法以闭式解更新字典,完全绕过了迭代优化、稀疏编码或反向传播过程。在20%-50%的压缩率范围内,ROCKET在不同模型架构上均持续优于现有压缩方法。值得注意的是,在30%压缩率下无需任何微调即可保持原模型90%以上的性能。此外,当施加轻量级微调时,性能恢复效果显著增强:例如将Qwen3-14B模型压缩至80亿参数规模后,仅用3000万标记进行修复,其表现即可接近原始Qwen3-8B模型。ROCKET代码已发布于github.com/mts-ai/ROCKET/tree/main。
针对大型语言模型的强化学习存在高方差的分词级重要性采样比率问题,这会在大规模训练时破坏策略优化的稳定性。为提升稳定性,现有方法通常对序列中所有分词采用固定的序列级IS比率,或单独调整每个分词的IS比率,却忽略了序列中分词间的时序异策略推导。本文首先通过实证研究发现,局部异策略偏差在分词层面存在结构性不一致,可能扭曲相邻分词间的策略梯度更新并导致训练崩溃。为解决该问题,我们提出在线因果卡尔曼滤波策略优化算法(KPO)。具体而言,我们将目标IS比率建模为随分词演化的潜在状态,并应用卡尔曼滤波器基于历史分词状态进行在线自回归更新,且不依赖未来分词信息。经滤波处理的IS比率在保留分词级局部结构感知变化的同时,能显著平滑噪声峰值,从而产生更稳定有效的策略更新。实验表明,在具有挑战性的数学推理数据集上,KPO相较现有最优方法取得了更优异的结果。
迴圈式Transformer已成為語言領域中高效且強大的推理模型類別。近期研究表明,這類模型在算法與推理任務上表現卓越,顯示迴圈架構對潛在推理具有歸納偏置。然而,現有方法在訓練與推論階段固定了迴圈迭代次數,尚未解決這些模型能否在可變計算預算下靈活調整計算深度的問題。我們提出LoopFormer——一種基於可變長度軌跡訓練的迴圈式Transformer,可實現預算條件化推理。核心貢獻在於「捷徑一致性」訓練方案,該方案通過對齊不同長度的軌跡,確保短迴圈能產生具信息量的表徵,而長迴圈則持續優化之。LoopFormer使每個迴圈根據當前時間與步長進行條件化計算,讓表徵在不同長度軌跡間保持一致性演化,避免偏移或停滯。實證結果顯示,即便在嚴格計算限制下,LoopFormer於語言建模與推理基準測試中仍保持穩健性能,並能隨預算增加而優雅擴展。這些成果證實迴圈式Transformer本質上適合自適應語言建模,為可控且具預算感知能力的大型語言模型開闢了新路徑。
尽管编程智能体领域进展迅速,但其多模态对应领域的发展却相对滞后。关键挑战在于缺乏能够兼顾软件开发复杂性与深度多模态理解需求的评估测试平台。游戏开发恰好提供了这样的测试场景——智能体不仅需要驾驭庞大而密集的代码库,还需在可视化游戏场景中操作着色器、精灵图、动画等本质多模态的资产。我们推出GameDevBench,这是首个针对游戏开发任务评估智能体的基准测试平台。该基准包含132项源自网络及视频教程的任务,这些任务要求显著的多模态理解能力且复杂度极高——平均解决方案所需的代码行数和文件修改量达到先前软件开发基准的三倍以上。当前智能体在游戏开发方面仍表现不佳,最优智能体仅能完成54.5%的任务。我们发现任务感知难度与多模态复杂度呈强相关性,任务成功率从游戏玩法类任务的46.9%降至2D图形类任务的31.6%。为增强多模态能力,我们引入了两种基于图像和视频的简易反馈机制。尽管方法简单,但这些机制能持续提升性能,其中Claude Sonnet 4.5模型的表现提升最为显著,从33.3%提高至47.7%。我们公开发布GameDevBench以支持智能体游戏开发领域的进一步研究。
基於思維鏈數據的監督式微調是推理語言模型訓練後階段的重要步驟。標準機器學習直覺認為,使用更多獨特訓練樣本可提升泛化能力。但反直覺的是,我們發現重複訓練能提升SFT效果:在固定更新預算下,對較小數據集進行多輪訓練的效果優於對大數據集的單輪訓練。在AIME'24/25和GPQA基準測試中,Olmo3-7B模型使用400個樣本訓練128輪的表現,較使用51200個樣本訓練1輪的對照組提升12-26個百分點,且未出現災難性遺忘。我們發現訓練標記準確率能可靠指示重複訓練的飽和點;當達到完全記憶後,增加訓練輪次帶來的改善會趨於平緩,此模式在所有設定中均一致。這些發現為推理SFT提供了實用方法——通過監控標記準確率作為停止準則來擴展訓練輪次,可替代成本高昂的無定向數據擴充。我們將「完全記憶與泛化能力提升同步出現」的重複訓練優勢現象,提出為理解大型語言模型訓練動力學的新開放性問題。
群组相对策略优化(GRPO)为生成文本中的所有标记赋予单一标量优势值。对于具有明确段落结构和多目标的生成任务,这种方法会导致不同段落的奖励信号相互耦合,引发目标干扰与功劳误判问题。我们提出分块优势估计方法——系列兼容GRPO的改进方案,通过为每个目标分配独立优势值并仅将其应用于对应文本块内的标记,降低对手动设计标量奖励的依赖,并能自然扩展至多目标场景。核心挑战在于如何估计后续文本块的优势值,因其奖励取决于已生成的前缀内容;标准无偏估计方法需要从中间状态进行耗时的嵌套滚动计算。具体而言,我们引入结果条件基线法,通过根据前缀衍生的中间结果对样本进行分层,仅利用组内统计量来近似中间状态值。在含不确定性估计的数学任务上,本方法有效缓解奖励干扰,与最先进的手动奖励设计方法性能相当,并保持测试时置信加权集成带来的增益。更广泛而言,该方法为结构化生成中的序列目标优化提供了无需额外滚动计算的模块化解决方案。
在《哈利波特》的世界裡,當鄧不利多的思維負擔過重時,他會將記憶抽取至儲思盆中以待後續重溫。而在人工智慧領域,雖然我們擁有如同儲思盆般成熟的資料庫與檢索系統,我們的模型卻像缺少了運作它的「魔杖」。它們如同失去主動權的鄧不利多,被動接受人工設計的上下文作為其全部記憶。本研究終於將這根魔杖交到模型手中——我們推出StateLM,這類新型基礎模型具備內在推理循環機制,能自主管理其狀態。我們為模型配備了包含上下文修剪、文件索引、筆記記錄在內的記憶工具套件,並訓練其主動運用這些工具。通過學習動態構建自身上下文,我們的模型突破了固定視窗的架構桎梏。多種模型規模的實驗驗證了StateLM在多元場景下的有效性:在長文件問答任務中,StateLM在所有模型尺度上均穩定超越標準大型語言模型;在對話記憶任務中,其準確率較標準模型絕對提升10%至20%;而在深度研究任務BrowseComp-Plus上,性能差距更為顯著——StateLM達成最高52%的準確率,而標準模型僅維持在5%左右。最終,我們的方法使大型語言模型從被動預測器轉變為具狀態感知能力的智能體,讓推理成為可管理且具狀態持續性的過程。
在临床高风险场景中部署大语言模型(LLM)需要严格可靠的评估体系。然而现有医疗基准测试仍保持静态,存在两大关键局限:(1)数据污染,即测试集意外渗入训练语料库,导致性能评估虚高;(2)时间错位,无法捕捉医学知识的快速演进。此外,当前针对开放式临床推理的评估指标往往依赖浅层词汇重叠度(如ROUGE)或主观的"LLM即评判官"打分,二者均难以验证临床正确性。为弥补这些缺陷,我们推出LiveMedBench——一个基于标准化量规、持续更新且无数据污染的基准测试平台,每周从在线医疗社区采集真实临床病例,确保与模型训练数据严格时间隔离。我们提出多智能体临床筛选框架,可过滤原始数据噪声并依据循证医学原则验证临床完整性。在评估方面,我们开发了基于量规的自动化评估框架,将医师回答分解为细粒度的病例专属标准,其与专家医师的契合度显著优于"LLM即评判官"模式。截至目前,LiveMedBench已涵盖38个医学专科的2,756个真实病例(支持多语言),并配有16,702条独特评估标准。对38个LLM的大规模评估显示,即使最优模型准确率仅达39.2%,且84%的模型在截止日期后病例上表现退化,证实数据污染风险普遍存在。错误分析进一步指出语境应用能力(而非事实性知识)是主要瓶颈,35-48%的失败案例源于无法将医学知识适配到患者特定约束条件。
強化學習(RL)是大型語言模型(LLM)訓練後優化階段的關鍵環節,其核心在於滾動生成、獎勵評估與集中學習之間的反覆互動。分散式滾動執行雖能利用更具成本效益的推理資源,但同時引發了廣域協調與策略分發的挑戰。本文提出ECHO-2——一個支持遠程推理節點且能應對顯著分發延遲的分佈式RL訓練框架。該框架將集中學習與分散式滾動相結合,將有限策略滯後作為用戶可控參數,實現滾動生成、策略分發與模型訓練的並行化。我們建立了基於並行處理的容量模型,闡明訓練時長、分發延遲與滾動吞吐量之間的關係,並提出維持學習器利用率的最佳資源配置規則。為緩解分發瓶頸並降低成本,ECHO-2採用對等輔助流水線廣播機制及異構節點的成本感知激活策略。在真實廣域帶寬環境下對40億和80億參數模型進行的GRPO訓練後實驗表明,ECHO-2在保持與強基線相當的RL獎勵水平同時,顯著提升了成本效率。
能够突破训练预算限制持续改进的大语言模型(LLM),可通过测试时自适应解决日益复杂的问题,这一特性我们称之为外推能力。然而,标准强化学习(RL)在固定问题分布和训练预算下运行,限制了模型在测试时面对分布变化时的外推能力。为此,我们提出RC算法——一种在训练和推理阶段替代标准自回归解码的迭代解码方法。该算法利用LLM在应答生成与摘要归纳能力上的不对称性,构建跨迭代持续优化的推理链。经RC训练后的模型可实现外推,其推理视野的持续改进能力可超越训练所见范围一个数量级以上。实证表明:使用16k词元训练预算的40亿参数模型配合RC算法,在测试时消耗50万词元即可将HMMT 2025任务表现从40%提升至近70%,优于同规模模型及多数大型推理LLM。最后我们还发现,由于训练获得的摘要条件生成能力得到增强,经RC训练的模型能更有效地利用现有框架进一步扩展测试时性能。
全模态大语言模型(OLLMs)致力于统一多模态理解与生成能力,然而结合语音与3D面部动画的研究仍鲜有探索,尽管其对实现自然交互至关重要。核心挑战源于大语言模型的离散化、令牌级语义推理与3D面部运动所需的密集细粒度时序动态之间存在表征失配,这使得在有限数据下直接建模难以优化。我们提出Expressive Omni(Ex-Omni)这一开源全模态框架,通过语音驱动的3D面部动画增强OLLMs。Ex-Omni通过解耦语义推理与时序生成来降低学习难度,利用语音单元作为时序支架,并采用统一的令牌即查询门控融合(TQGF)机制实现可控的语义注入。我们进一步推出InstructEx数据集,旨在促进OLLMs的语音驱动3D面部动画增强研究。大量实验表明,Ex-Omni在保持与现有开源OLLMs竞争性能的同时,能够稳定生成对齐的语音与面部动画。
長時程規劃被廣泛認為是基於大型語言模型的自主智能體核心能力,然而現有評估框架普遍存在片段化、領域特定性或未能紮根於持續經濟動態的侷限。我們提出EcoGym——一個面向互動經濟環境中連續性規劃與決策的通用基準平台。該平台包含販售、自由職業與運營三大差異化場景,通過標準化接口實現統一的決策流程,並在有效無界時域(評估時採用365日循環對應1000+決策步)中實施預算化行動管理。EcoGym的評估體系以商業相關成果(如淨資產、收入、日活躍用戶)為核心指標,重點考察部分可觀測性與隨機性條件下智能體的長期戰略連貫性與魯棒性。在對11個前沿大語言模型的實驗中,我們發現系統性矛盾:沒有任何單一模型能在三類場景中均保持優勢。關鍵在於,模型要麼在高層戰略規劃要麼在具體行動執行層面呈現顯著次優性。EcoGym作為開放可擴展的測試平台發布,旨在為透明化長時程智能體評估及研究現實經濟環境中可控性與效用權衡提供基礎設施。
智能体编程要求智能体能够有效与运行时环境(如命令行界面CLI)交互,以完成依赖项解析、系统问题修复等任务。但如何大规模获取此类强环境依赖型任务以增强智能体能力,目前仍缺乏深入探索。为此,我们基于Dockerfile与智能体任务的类比性,提出利用执行反馈引导智能体模拟探索环境历史的方法。通过追踪健康环境的历史记录,可将其状态回滚至存在运行时故障的早期版本,进而通过封装故障状态及对应错误信息生成任务。基于此方法构建的CLI-Gym平台共衍生出1,655个强环境依赖型任务,成为该领域规模最大的数据集。此外,借助精选的成功执行轨迹,我们微调的LiberCoder模型在Terminal-Bench基准测试中实现21.1%的绝对提升(达到46.1%),显著超越多种强基线模型。据我们所知,这是首个实现强环境依赖型任务可扩展衍生的公开技术路径。
可绑定骨骼的3D资产是实现三维形变与动画的基础。然而,现有3D生成方法在创建可动画几何体方面面临挑战,而骨骼绑定技术又缺乏对骨架生成的细粒度结构控制。为突破这些局限,我们提出Stroke3D——一个能够根据用户输入(二维手绘草图和描述性文本提示)直接生成带绑定网格的创新框架。该框架首创两阶段生成流程:1)可控骨架生成阶段,我们采用骨骼图变分自编码器(Sk-VAE)将骨架图结构编码至潜空间,由骨骼图扩散变换器(Sk-DiT)生成骨骼嵌入。该生成过程同时受文本语义与二维草图的结构控制约束,再通过VAE解码器重建出高质量三维骨架;2)基于TextuRig与SKA-DPO的增强网格合成阶段,我们在生成骨架上合成带贴图的网格。此阶段首先通过TextuRig(从Objaverse-XL精选的带标注文本的贴图绑定网格数据集)增强现有骨架到网格模型的训练数据,进而采用基于骨架-网格对齐度评估的偏好优化策略SKA-DPO来提升几何保真度。本框架共同实现了更直观的"动画就绪"3D内容创作流程。据我们所知,这是首个基于用户二维草图生成可绑定3D网格的工作。大量实验表明,Stroke3D能生成结构合理的骨架与高质量的网格模型。
随着大型语言模型在波兰语应用中的部署日益增多,对高效精准的内容安全分类器的需求变得至关重要。我们推出Bielik Guard系列——一组紧凑型波兰语安全分类器,包含两种模型变体:基于MMLW-RoBERTa-base的0.1B参数模型和基于PKOBP/polish-roberta-8k的0.5B参数模型。这些模型在6,885条社区标注的波兰语文本数据集上微调而成,可将内容划分为五大安全类别:仇恨/攻击性言论、粗俗内容、色情内容、犯罪内容及自残内容。评估结果表明,两个模型在多项基准测试中均表现优异。0.5B变体在测试集上展现出最佳整体判别能力,其微观F1分数达0.791,宏观F1分数为0.785;而0.1B变体则展现出卓越的效率。值得注意的是,Bielik Guard 0.1B v1.1在真实用户提示词上实现了77.65%的精确度与0.63%的极低误报率,在模型规模相同的情况下显著优于HerBERT-PL-Guard(精确度31.55%,误报率4.70%)。该系列模型已开源发布,其设计理念是提供恰当响应而非简单的内容屏蔽,尤其针对自残等敏感类别。
查询处理(QP)技术在大规模社交网络服务(SNS)搜索引擎中承担着连接用户意图与内容供给的关键作用。传统QP系统依赖相互独立的判别式模型(如BERT)构建流水线,存在语义理解能力有限和维护成本高的问题。尽管大语言模型(LLMs)提供了潜在解决方案,但现有方法往往孤立优化子任务,忽视了内在的语义协同效应,且需要独立迭代。此外,标准生成方法通常缺乏对SNS场景的针对性,难以弥合开放域语料与非正式SNS语言特征之间的差异,同时难以满足严格的业务定义要求。我们提出QP-OneModel——面向SNS领域的多任务查询理解统一生成式大模型。通过将异构子任务重构为统一的序列生成范式,采用渐进式三阶段对齐策略并结合多奖励强化学习,该模型能生成意图描述作为新型高保真语义信号,有效增强查询改写和排序等下游任务。离线评估表明,QP-OneModel相比判别式基线实现整体性能提升7.35%,命名实体识别(NER)和术语加权(Term Weighting)的F1分数分别显著提高9.01%和9.31%。在未知任务测试中,其准确率较32B参数模型提升7.60%,展现出卓越的泛化能力。该模型已在小红书全面部署,在线A/B测试证实其工业价值:检索相关性(DCG)优化0.21%,用户留存率提升0.044%。
大型图像编辑模型的最新进展已将从文本驱动指令转向以视觉提示为主导的编辑范式,用户意图可直接通过标记、箭头及视觉文本提示等视觉输入进行推断。尽管该范式极大拓展了可用性,但也引入了关键且尚未被充分探索的安全风险:攻击面本身已转向视觉维度。本研究提出视觉中心越狱攻击(VJA),这是首个完全通过视觉输入传递恶意指令的视觉到视觉越狱攻击。为系统研究这一新兴威胁,我们构建了IESBench——一个面向安全性的图像编辑模型基准测试集。在IESBench上的大量实验表明,VJA能有效攻破最先进的商业模型,在Nano Banana Pro上攻击成功率高达80.9%,在GPT-Image-1.5上达70.1%。为缓解此漏洞,我们提出基于自省多模态推理的无训练防御方案,该方案可将未充分对齐模型的安全性提升至与商业系统相当的水平,且无需辅助防护模型,计算开销可忽略不计。我们的研究揭示了新的安全漏洞,同时提供基准测试与实用防御方案,以推动安全可信的现代图像编辑系统发展。警告:本文包含由大型图像编辑模型生成的违规图像。
知识图谱(KGs)通过实体关系链接存储结构化事实知识,对众多应用至关重要。这些应用依赖知识图谱的事实准确性,因此事实验证虽具挑战性却不可或缺。专家人工验证虽理想但难以大规模实施。自动化方法虽展现潜力,但尚未达到实际应用要求。大型语言模型(LLMs)凭借其语义理解与知识获取能力展现出潜力,但其在知识图谱事实验证中的适用性与有效性仍待深入探索。 本文提出FactCheck基准测试框架,旨在从三个关键维度评估LLMs的图谱事实验证能力:(1)LLMs内部知识;(2)基于检索增强生成(RAG)的外部证据;(3)采用多模型共识策略的聚合知识。我们在三个真实场景知识图谱上对开源与商业LLMs进行评估。FactCheck同时提供包含200万篇文档的定制化RAG数据集,并搭建了可交互的验证决策分析平台。 实验分析表明:尽管LLMs展现出潜力,但其稳定性与可靠性仍不足以支撑实际应用场景。通过RAG方法整合外部证据会导致性能波动,相比精简方法虽偶有提升但效果不稳定,且计算成本更高。多模型共识策略同样无法持续优于单模型,印证了通用解决方案的缺失。这些发现进一步凸显了构建FactCheck此类基准测试的必要性——通过系统化评估推动这一关键但棘手的任务取得进展。
虽然显性思维链(CoT)为大型语言模型赋予了强大的推理能力,但其要求模型将所有中间步骤通过文本符号进行外显化,将模型思维约束在离散的词表空间内。近年来,连续潜空间推理作为一种新兴替代方案崭露头角,它能够突破离散符号限制,实现更鲁棒的推理能力和灵活的计算模式。然而现有潜空间范式常因循环使用隐藏状态作为输入嵌入导致的分布失配,或依赖辅助模型产生的对齐问题,而出现特征坍缩与不稳定性。为此,我们提出潜思维微调框架(LT-Tuning),重新定义了潜思维的构建与部署机制。该方法通过上下文-预测-融合机制,联合利用上下文隐藏状态与词表嵌入空间的语义预测指导,而非单纯依赖原始隐藏状态。结合渐进式三阶段课程学习流程,LT-Tuning还能实现潜思维与显性思维模式的动态切换。实验表明,本方法在多个基准测试中超越现有潜推理基线,有效缓解特征坍缩问题并实现稳健的推理精度。
尽管可验证奖励的强化学习(RLVR)近期强化了大语言模型的推理能力,但其对最终答案正确性的单一关注存在明显缺陷:无法保证推理过程本身的鲁棒性。我们采用一个简单的哲学观点——鲁棒推理应能在产生它的思维主体之外保持效用,并将推理视为一种必须经受截断、重释和续写考验的意义传递形式。基于此原则,我们提出了可转移奖励的强化学习(RLTR),通过设计转移奖励来具象化鲁棒性要求:测试从一个模型提取的部分推理前缀是否能引导另一个模型得出正确答案。这种方法促使大语言模型生成稳定、可解释且真正具备泛化能力的推理过程。我们的方法在提升最终答案准确率的同时改善了采样一致性,并能以显著更少的训练步数达到相当的性能水平。例如在MATH500数据集上,RLTR的Maj@64指标较RLVR提升3.6个百分点,且仅需约2.5倍少的训练步数即可匹配RLVR的平均准确率,既提供了更可靠的推理过程,也实现了显著的样本效率提升。
推理模型通过扩展测试时计算量来增强问题解决能力,但面临一个关键悖论:过量的思考标记往往会导致性能下降而非提升。我们将此归因于一个根本性的架构缺陷:标准大语言模型如同"仅分配内存"的引擎,持续积累有效与冗余的推理步骤,却缺乏剪除过时信息的机制。为突破这一局限,我们提出Free()LM模型,通过即插即用的LoRA适配器——自由模块,赋予模型内在的自遗忘能力。该模型在推理模式与清理模式间迭代切换,动态识别并剪除无效语境片段,始终保持紧凑无噪的推理状态。 大量实验表明,Free()LM在所有模型规模(8B至685B)上均实现持续提升。相比顶级推理基线模型平均提升3.3%,更凭借DeepSeek V3.2-Speciale在IMOanswerBench上创下新纪录。尤其值得注意的是,在标准Qwen3-235B-A22B模型完全失效(准确率0%)的长程推理任务中,Free()LM将性能恢复至50%。我们的研究结果表明:可持续的智能既需要思考的力量,也离不开遗忘的自由。
基於大型語言模型(LLM)的智能體正被日益期待能自主進行協商、協作與交易,然而現有基準測試缺乏用於評估多智能體間語言媒介經濟互動的系統化設定。我們推出AgenticPay——一個專為自然語言驅動的多智能體買賣雙方協商而設計的基準測試與模擬框架。該框架模擬買賣雙方擁有私有約束條件和產品依賴性估值的市場環境,要求智能體必須通過多輪語言協商(而非僅靠數值出價)達成協議。該框架支持超過110種多樣化任務,從雙邊議價到多對多市場交易,並具備結構化行動提取功能及可行性、效率與福利等多維度指標。通過對標頂級專有模型與開源權重LLM的測試,我們發現現有模型在協商性能上存在明顯差距,並凸顯了長時程戰略推理的挑戰,從而確立AgenticPay作為研究智能商務與語言驅動市場互動的基礎平台。代碼與數據集可通過以下鏈接獲取:https://github.com/SafeRL-Lab/AgenticPay。
大型语言模型(LLM)代码代理正日益通过迭代式代码编辑、工具调用和候选补丁验证来解决代码库级别的问题。在这些工作流程中,代理常会动态编写测试用例,这一模式已被SWE-bench排行榜上多数高排名代理所采用。然而我们观察到,几乎不编写新测试的GPT-5.2甚至能达到与顶尖代理相仿的性能。这引出一个关键问题:此类测试是否能切实提升问题解决效果,抑或只是在消耗大量交互预算的同时模仿人类测试实践? 为揭示代理编写测试的影响,我们开展了一项实证研究,分析六种前沿LLM在SWE-bench Verified数据集上的代理执行轨迹。结果表明:尽管测试编写被广泛采用,但同一模型中已解决和未解决任务呈现相似的测试编写频率;此外这些测试主要作为观测反馈渠道,代理明显更倾向于使用数值输出语句而非基于断言的正式检查。基于这些发现,我们通过修改四个代理的提示词进行对照实验,分别增加或减少其测试编写量。实验结果显示代理编写测试量的变化并未显著影响最终结果。综合来看,我们的研究表明当前代理编写测试的实践在自动化软件工程任务中可能仅能提供有限效用。
在快速非正式的开发流程(常被称为氛围编程)中,大型语言模型正日益广泛地用于代码生成。这类场景优先考虑速度和便利性,安全需求往往未被明确要求。在此环境下,模型常生成功能正确但存在安全隐患的代码,导致安全风险持续加剧。现有提升代码安全性的方法依赖于全参数微调或参数高效适配,但这些方法要么成本高昂且易引发灾难性遗忘,要么操作粒度粗糙,可解释性和可控性有限。 我们提出GoodVibe——一种神经元级框架,旨在默认状态下提升代码语言模型的安全性。该框架基于关键发现:与安全相关的推理过程仅集中于少量神经元子集。我们通过监督式安全任务的梯度归因分析定位这些神经元,并执行神经元选择性微调,仅更新这一安全关键子空间。为进一步降低训练成本,我们引入激活驱动的神经元聚类技术,实现以最小开销完成结构化更新。我们在涵盖C++、Java、Swift和Go等安全关键编程语言的六个大型语言模型上评估GoodVibe。实验表明,该框架在保持模型通用能力的同时显著提升生成代码的安全性:相较基础模型最高提升2.5倍安全性能;以仅需训练4700分之1的参数匹配甚至超越全参数微调效果;与参数高效基线方法(LoRA)相比,训练计算量减少3.6倍以上。这些结果证明,神经元级优化为实现安全代码生成提供了兼顾效能与泛化能力的可扩展方案。
自进化记忆作为基于大语言模型的智能体的可训练参数,其提取(从经验中提炼洞见)与管理(更新记忆库)必须紧密协同。现有方法主要优化记忆管理,却将记忆提取视为静态过程,导致泛化能力不足——智能体积累的是实例特异性噪声而非稳健记忆。为此,我们提出统一记忆提取与管理框架(UMEM),这是一种通过联合优化大语言模型实现记忆同步提取与管理的自进化智能体框架。为缓解对特定实例的过拟合,我们引入语义邻域建模技术,并通过GRPO算法以邻域级边际效用奖励进行优化。该方法通过评估语义相关查询簇中的记忆效用,确保记忆的泛化能力。在五个基准测试上的大量实验表明,UMEM显著优于现有强基线模型,在多轮交互任务中最高提升10.67%的性能。此外,UMEM在持续进化过程中保持单调增长曲线。代码与模型将公开发布。
在动态且以人为中心的环境中工作的机器人,必须遵循语言指令同时保持实时反应控制。视觉-语言-动作模型为此提供了前景广阔的框架,但这些模型假设推理与控制具有时间对齐性,而实际上语义推理相对于实时动作存在固有延迟。我们提出延迟感知框架TIC-VLA,该框架在动作生成过程中显式建模延迟语义推理。TIC-VLA定义了延迟语义控制接口,除了当前观测值外,还将动作生成条件设定于延迟的视觉语言语义状态和显式延迟元数据,使策略能够补偿异步推理。我们进一步提出延迟一致性训练流程,在模仿学习和在线强化学习中注入推理延迟,实现训练与异步部署的对齐。为支持真实评估,我们开发了DynaNav——一个物理精确、照片级真实的仿真套件,用于动态环境中的语言引导导航。大量仿真和实体机器人实验表明,TIC-VLA在保持数秒推理延迟下鲁棒实时控制的同时,持续优于现有VLA模型。项目网站:https://ucla-mobility.github.io/TIC-VLA/
扩散模型虽已实现卓越的生成质量,但其依赖多步序列去噪的特性导致推理成本高昂,这推动了近期将推理过程蒸馏为少步范式的研究。然而,现有蒸馏方法通常采用线性捷径来近似教师轨迹,难以匹配速度场随时间步不断变化的切线方向,从而导致质量下降。为解决此局限,我们提出ArcFlow——一种通过显式使用非线性流轨迹来逼近预训练教师轨迹的少步蒸馏框架。具体而言,ArcFlow将推理轨迹背后的速度场参数化为连续动量过程的混合,从而能够捕捉速度演化规律并外推出连贯的速度场,在每一步去噪过程中形成连续非线性轨迹。关键的是,这种参数化允许对非线性轨迹进行解析积分,既规避了数值离散化误差,又能实现教师轨迹的高精度逼近。为将该参数化训练为少步生成器,我们通过轻量适配器在预训练教师模型上实施轨迹蒸馏。该策略在保持生成多样性与质量的同时,确保了快速稳定的收敛。基于大规模模型(Qwen-Image-20B和FLUX.1-dev)的实验表明,ArcFlow仅需微调不足5%的原始参数,在以2次NFEs实现40倍加速的同时,相较原始多步教师模型未出现显著质量下降。基准测试从定性与定量两方面验证了ArcFlow的有效性。
混合专家模型(MoE)架构的迅速普及标志着大语言模型(LLM)部署方式的重大转变。MoE大语言模型通过仅激活每个令牌对应的少量参数来提升扩展效率,但其路由结构也引入了新的安全攻击面。我们发现,MoE大语言模型中涉及安全的关键行为(如拒绝响应)集中分布于少量专家模型,而非均匀分散。基于此,我们提出大型语言模型脑叶切除术(L³)——一种无需重新训练、与架构无关的攻击方法,通过利用专家路由动态特性来破坏安全对齐机制。L³能够识别与拒绝行为相关的路由模式,将安全行为归因于特定专家模型,并自适应地静默最具安全相关性的专家,直至模型生成有害输出。我们在八个顶尖开源MoE大语言模型上评估L³,结果表明自适应专家静默策略将平均攻击成功率从7.3%提升至70.4%,最高达86.3%,优于现有无需训练的MoE越狱方法。此外,绕过防护机制通常只需静默每层少于20%的专家模型,且能基本保持通用语言能力。这些结果揭示了效率导向的MoE设计与鲁棒安全对齐之间的根本矛盾,为未来通过架构感知和路由感知方法在MoE大语言模型中更稳健地分布安全机制提供了理论依据。
当前大型语言模型(LLM)开发的主流范式是先对基础模型进行预训练,再通过后续训练优化性能与模型行为。然而,超参数优化与缩放定律的研究主要基于基础模型验证损失的角度,忽略了模型的下游适应能力。本研究从模型可塑性视角探讨预训练过程,即基础模型通过微调成功适应下游任务的能力。我们重点分析了权重衰减(预训练中关键的正则化参数)的作用。通过系统性实验发现,采用较大权重衰减值训练的模型具有更强的可塑性,这意味着它们在下游任务微调后能获得更大的性能提升。这一现象可能导致反直觉的权衡:预训练后表现较差的基础模型在微调后反而表现更优。对权重衰减影响模型行为的机制进一步研究表明,它能促进线性可分离表征的形成、规范注意力矩阵并减少对训练数据的过拟合。最后,本研究论证了在超参数优化中采用交叉熵损失之外评估指标的重要性,并揭示单一优化超参数在塑造模型行为时发挥的多重作用。
过去一年间,计算机使用代理(CUA)取得了巨大进展,但其生成的操作仍时常偏离用户原始意图。这类失准操作可能源于外部攻击(如间接提示注入)或内部局限(如错误推理),不仅使CUA面临安全风险,还会降低任务效率与可靠性。本研究首次对CUA中的失准操作检测进行系统性定义与探索,全面涵盖外部诱发与内部产生的失准操作。我们进一步识别了现实场景中CUA部署的三大常见类别,并构建MisActBench——一个包含人工标注、操作级对齐标签的真实轨迹基准。此外,我们提出DeAction这一实用型通用防护机制,可在操作执行前检测失准行为,并通过结构化反馈进行迭代修正。DeAction在离线与在线评估中均超越现有基线方法,且仅带来适度延迟开销:(1)在MisActBench上,其F1分数绝对值领先基线超过15%;(2)在线评估显示,在对抗环境下能将攻击成功率降低90%以上,同时在良性环境中保持甚至提升任务成功率。
過去十年間,可解釋人工智慧的研究主要聚焦於解讀單一模型預測,透過事後歸因方法在固定決策結構下闡釋輸入與輸出的關聯。隨著大型語言模型的突破,具備自主行為能力的AI代理系統得以實現,其行為表現透過多步驟軌跡逐步展開。在此類情境中,成敗取決於決策序列而非單一輸出結果。雖然現有解釋方法具有一定效用,但針對靜態預測設計的解釋框架如何適用於行為隨時間演進的代理系統,仍存在明確的知識缺口。本研究透過比較基於屬性歸因的解釋方法與基於軌跡追蹤的診斷機制,在靜態與動態兩種情境下進行對照分析,從而銜接靜態可解釋性與代理系統可解釋性之間的斷層。為明確區分兩者,我們實證比較了靜態分類任務中使用的屬性歸因解釋法,與代理基準測試(TAU-bench Airline與AssistantBench)中採用的軌跡追蹤診斷法。研究結果顯示:屬性歸因法在靜態情境下能獲得穩定的特徵排序(斯皮爾曼等級相關係數ρ=0.86),但無法可靠應用於診斷代理軌跡中的執行層級失誤;反之,基於軌跡的評量準則能持續定位行為斷裂點,並揭露狀態追蹤不一致性在失敗案例中的發生頻率高出2.7倍,且使成功機率降低49%。這些發現促使我們在評估自主AI行為時,應朝向軌跡層級可解釋性進行典範轉移。 資源: https://github.com/VectorInstitute/unified-xai-evaluation-framework https://vectorinstitute.github.io/unified-xai-evaluation-framework
联邦学习(FL)使得多方能够在不共享原始数据的情况下协同训练机器学习模型。然而在训练开始前,必须对数据进行预处理以解决缺失值、格式不一致和特征尺度异构等问题。这一预处理阶段对模型性能至关重要,但在联邦学习研究中长期被忽视。实际联邦系统中,隐私约束禁止原始数据集中化处理,而通信效率要求又为分布式预处理带来额外挑战。我们提出FedPS——基于聚合统计量的联邦数据预处理统一框架。该框架利用数据素描技术高效汇总本地数据集,同时保留关键统计信息。基于这些统计摘要,我们设计了面向特征缩放、编码、离散化和缺失值填补的联邦算法,并将k均值、k近邻和贝叶斯线性回归等预处理相关模型扩展至横向与纵向联邦学习场景。FedPS为实际联邦学习部署提供了灵活、通信高效且保持一致的预处理流程。
基于自回归模型的生成式推荐已将检索与排序统一至条件生成框架中。然而,使用强化学习(RL)对这些模型进行微调时,常面临概率与奖励错配的根本性问题。传统似然主导的解码策略(如集束搜索)会表现出对局部高概率前缀的短视偏好,导致两个关键缺陷:(1)探索不足:低概率分支中的高奖励项目因过早剪枝而极少被采样;(2)优势压缩:共享高概率前缀的轨迹会获得高度相关且组内方差极低的奖励,导致RL缺乏有效比较信号。为解决这些难题,我们提出V-STAR框架——一种基于价值引导采样与树状结构优势强化的解决方案。该框架通过两个协同组件形成自演进闭环:首先开发了价值引导高效解码(VED)方法,通过识别决策节点并选择性深化高潜力前缀路径,在无需穷举树搜索的前提下提升探索效率;其次提出Sibling-GRPO算法,利用生成的树状拓扑计算兄弟节点相对优势,将学习信号聚焦于关键分支决策。在离线和在线数据集上的大量实验表明,V-STAR在严格延迟约束下不仅能超越现有最优基线模型,更在准确率和候选集多样性方面实现显著提升。
针对具有释放时间、设置时间和资格约束的无关联并行机调度问题,本文提出了一种基于近端策略优化算法和图神经网络的多目标深度强化学习框架。该问题在同时最小化总加权延迟时间和总设置时间方面存在显著挑战,传统方法难以实现两者的有效平衡。通过图神经网络精准刻画工件、机器及设置状态的复杂关系,近端策略优化智能体能够学习直接调度策略。在多目标奖励函数的引导下,该智能体可同步优化双目标指标。基准测试实验表明,本文提出的PPO-GNN智能体在目标平衡性方面显著优于标准分派规则和元启发式算法,为复杂制造调度提供了强健且可扩展的解决方案。
AI文本检测器面临严峻的鲁棒性挑战:对抗性复述攻击能在保持语义的同时规避检测。我们提出StealthRL——一种在真实对抗环境下压力测试检测器鲁棒性的强化学习框架。该方法基于Qwen3-4B模型,采用LoRA适配器与群组相对策略优化(GRPO)技术,针对多检测器集成系统训练复述策略,通过平衡检测规避与语义保持的复合奖励函数进行优化。我们在安全关键型1%误报率工作点下,评估了针对三大检测器家族(RoBERTa、FastDetectGPT和Binoculars)的六种攻击场景(M0-M5)。StealthRL实现了接近零的检测率(TPR@1%FPR均值0.001),将平均AUROC从0.74降至0.27,攻击成功率高达99.9%。关键发现是,攻击可迁移至训练未接触的检测器家族,揭示出共有的架构脆弱性而非特定检测器的缺陷。我们还通过李克特量表进行基于LLM的质量评估,分析检测器分数分布以解释规避成功机制,并提供带Bootstrap置信区间的各检测器AUROC。研究结果揭示了当前AI文本检测存在的显著鲁棒性缺陷,并将StealthRL确立为规范的对抗性评估协议。代码与评估流程已开源:https://github.com/suraj-ranganath/StealthRL。