每日精选AI研究论文及翻译
我们推出Step 3.5 Flash模型——一种稀疏专家混合模型,在顶尖级智能体能力与计算效率之间架设桥梁。我们聚焦于构建智能体最核心的要素:精准的推理能力与快速可靠的执行效能。该模型以1960亿参数为基础架构,通过110亿活跃参数实现高效推理,并采用3:1交错滑动窗口/全局注意力机制与多令牌预测技术优化,显著降低多轮智能体交互的延迟与成本。为达到顶尖智能水平,我们设计了可扩展的强化学习框架,将可验证信号与偏好反馈相结合,在大规模离线训练中保持稳定性,实现数学、代码和工具使用领域的持续自我提升。Step 3.5 Flash在智能体、编程和数学任务中表现卓越:IMO-AnswerBench达85.4%、LiveCodeBench-v6(2024.08-2025.05)获86.4%、tau2-Bench取得88.2%、BrowseComp(含上下文管理)达69.0%、Terminal-Bench 2.0获51.0%,性能可比肩GPT-5.2 xHigh与Gemini 3.0 Pro等顶尖模型。通过重新定义效率边界,Step 3.5 Flash为现实工业环境中部署复杂智能体提供了高密度基础架构。
近期研究通过微调生成式多模态大语言模型(MLLMs)将其改造为视觉任务的嵌入提取器,以生成通用表征。然而其在视频任务上的表现仍逊色于视频基础模型(VFMs)。本文聚焦于利用MLLMs实现视频-文本嵌入与检索。我们首先进行系统性的分层分析,发现中间层(预训练状态)的MLLMs已编码大量任务相关信息。基于此洞见,我们证明将中间层嵌入与校准后的MLLM头部相结合,无需训练即可实现强大的零样本检索性能。在此基础上,我们提出一种轻量级文本对齐策略:通过将稠密视频描述映射为简短摘要,无需视觉监督即可实现任务相关的视频-文本嵌入学习。值得注意的是,仅通过文本微调,我们的方法就以显著优势超越现有方案,在主流视频检索基准测试中达到最先进水平。
统一多模态模型(UMMs)在视觉生成领域展现出显著进展。然而,现有基准主要评估依赖知识记忆与学习模式调用的晶体智力,这种侧重忽视了生成式流体智力(GFI)——即实时归纳规律、约束推理及适应新场景的能力。为系统评估该能力,我们提出GENIUS(生成式流体智力评估套件),将GFI形式化为三大核心能力的综合体现:隐式模式归纳(如推断个性化视觉偏好)、即时约束执行(如可视化抽象隐喻)以及情境知识适应(如模拟反直觉物理现象)。这些能力共同要求模型完全基于即时情境解决问题。通过对12个代表性模型的系统评估,我们发现其在上述任务中存在显著性能缺陷。关键的是,诊断分析揭示了这些失败模式源于有限的情境理解能力,而非内在生成能力不足。为弥合此差距,我们提出无需训练的注意力干预策略。最终,GENIUS为GFI建立了严谨的评估标准,推动研究领域从知识利用转向动态通用推理。我们的数据集与代码将发布于:https://github.com/arctanxarc/GENIUS。
随着大型多模态模型的快速发展,可靠的评判与批评模型已成为开放式评估和偏好对齐的关键工具,它们能够为模型生成响应的评估提供成对偏好、数值分数及解释性理由。然而,现有批评模型主要基于通用视觉领域(如图像描述或视觉问答)进行训练,导致涉及感知、因果推理和规划等物理AI任务的研究仍处于探索不足的状态。我们提出PhyCritic——一种通过两阶段RLVR流程优化的多模态物理AI批评模型:首先通过物理技能预热阶段增强面向物理的感知与推理能力,随后进行自参照批评微调,使批评模型在评判候选响应前先生成自身预测作为内部参考,从而提升判断稳定性与物理正确性。在物理任务和通用多模态评判基准测试中,PhyCritic相较开源基线模型均取得显著性能提升,且当作为策略模型应用时,能进一步强化物理场景下的感知与推理能力。
在大模型智能体适应领域特定工具调用方面,演化中的接口仍存在显著脆弱性。提示与模式工程虽易于部署,但在分布偏移和严格解析器下往往表现脆弱;而持续的参数高效微调虽能提升可靠性,却需承担训练维护成本及潜在遗忘风险。我们发现了一种关键的"惰性智能体"失效模式:尽管从中层激活状态能近乎完美解码工具使用必要性,模型仍保守地回避进入工具模式,这揭示了表征与行为之间的脱节。我们提出激活引导适配器(ASA),这是一种免训练、推理时控制器,通过单次中层干预,采用路由器调制的引导向量混合方案与探针指导的符号门控机制,在放大真实意图的同时抑制误触发。在Qwen2.5-1.5B模型上的MTU-Bench测试表明,ASA仅需约20KB可移植资源且无需权重更新,就将严格工具使用F1值从0.18提升至0.50,同时将误报率从0.15降至0.05。
基础模型的近期进展已催生出能在国际数学奥林匹克竞赛中达到金牌标准的推理系统。然而,从竞赛级问题求解转向专业研究,需要驾驭海量文献并构建长程证明。本文提出Aletheia——一种能迭代生成、验证并修正自然语言端到端解决方案的数学研究智能体。该系统由三大核心组件驱动:针对复杂推理问题优化的Gemini深度思考增强版、突破奥赛级问题边界的新型推理时缩放定律,以及应对数学研究复杂性的密集型工具调用。我们通过从奥赛题到博士级习题的实证研究,特别是人工智能辅助数学研究的三大里程碑案例,展示了Aletheia的能力:(a)完全由AI生成的论文(Feng26),在算术几何中名为特征权值的结构常数计算上实现零人工干预;(b)展现人机协作的论文(LeeSeo26),证明了名为独立集的相互作用粒子系统的边界;(c)对布卢姆埃尔德什猜想数据库中700个开放问题的半自主评估(Feng等人,2026a),其中包括对四个开放问题的自主解答。为帮助公众更好地理解AI与数学交叉领域的发展,我们建议建立量化AI辅助成果自主性与新颖性的标准等级体系。最后,我们对数学领域的人机协作进行了展望。
尽管长上下文推理在众多现实应用中至关重要,但对大语言模型而言仍具挑战性,因为随着上下文长度的增加,模型性能会出现下降。近期研究MemAgent尝试通过类似RNN的循环机制逐块处理上下文,并更新文本记忆库以进行最终回答。然而,这种简单的循环记忆更新存在两个关键缺陷:(i)记忆库可能迅速膨胀,因为即使面对缺乏证据的文本块也会无差别更新;(ii)循环机制缺乏退出机制,导致在收集到充分证据后仍进行不必要的计算。为解决这些问题,我们提出GRU-Mem模型,通过引入两个文本控制门来实现更稳定高效的长上下文推理。具体而言,GRU-Mem仅在更新门开启时更新记忆库,且一旦退出门开启,循环过程将立即终止。为赋予模型这种能力,我们在端到端强化学习中引入两种奖励信号r^{update}和r^{exit},分别对正确的更新和退出行为进行奖励。在多种长上下文推理任务上的实验表明,GRU-Mem不仅效果显著,其推理速度较原始MemAgent最高可提升400%,充分证明了该方法的有效性与高效性。
本文提出全感知密集描述(Omni Dense Captioning)这一创新任务,旨在生成具有明确时间戳的连续、细粒度、结构化音视频叙事。为实现密集语义覆盖,我们引入六维结构化框架来创建"剧本式"描述,使读者能逐场景生动想象视频内容,犹如观看电影剧本。为推进研究,我们构建了高质量人工标注基准OmniDCBench,并提出统一评估指标SodaM,该指标在评估时间感知细节描述的同时缓解场景边界模糊问题。此外,我们构建了包含42K样本的训练数据集TimeChatCap-42K,并推出通过SFT和GRPO配合任务特定奖励训练的强基线模型TimeChat-Captioner-7B。大量实验表明,TimeChat-Captioner-7B实现了最先进性能,超越Gemini-2.5-Pro,其生成的密集描述显著提升了音视频推理(DailyOmni和WorldSense)与时序定位(Charades-STA)等下游任务能力。所有数据集、模型及代码均公开于https://github.com/yaolinli/TimeChat-Captioner。
仅解码器架构的大语言模型正日益被用作行为编码器以进行用户表征学习,然而注意力掩码机制对用户嵌入质量的影响仍待深入探索。本研究在整合长周期异构用户行为的大规模真实支付宝数据上,通过统一对比学习框架系统探究了因果掩码、混合掩码及双向掩码的作用。针对从因果掩码向双向掩码过渡时的训练动态优化问题,我们提出梯度引导软掩码技术——一种基于梯度的预预热方法,配合线性调度器在优化过程中逐步开放未来注意力。在涵盖预测、偏好和营销敏感度任务的9个工业级用户认知基准测试中,相比因果掩码、混合掩码及仅使用调度器的基线方法,本方案始终能产生更稳定的训练过程和更优质的双向表征,同时保持与解码器预训练的兼容性。总体而言,我们的发现揭示了掩码设计和训练过渡策略在适配仅解码器大语言模型以实现高效用户表征学习中的重要性。代码已开源:https://github.com/JhCircle/Deepfind-GGSM。
尽管大语言模型(LLMs)在自动启发式设计(AHD)领域展现出潜力,现有方法通常将AHD构建为构造型优先级规则或参数化局部搜索指导,从而将搜索空间限制在固定的启发式形式内。此类设计对结构探索的能力有限,难以在复杂组合优化问题(COPs)中跳出深度局部最优解。本文提出G-LNS——一种生成式进化框架,将基于LLM的AHD扩展至大邻域搜索(LNS)算子的自动化设计。与先前孤立演化启发式的方法不同,G-LNS利用LLM协同演化紧密耦合的破坏算子与修复算子对。通过合作式评估机制显式捕捉算子间的交互作用,从而发现能够协同实现有效结构破坏与重构的互补逻辑。在旅行商问题(TSP)和带容量车辆路径问题(CVRP)等复杂COP基准上的大量实验表明,G-LNS显著优于基于LLM的AHD方法及传统强求解器。所发现的启发式不仅能在有限计算资源下获得接近最优的解,还在多样化的未知实例分布上展现出强鲁棒性。
基于大语言模型(LLM)的智能体正日益广泛应用于软件行业,作为协作者甚至自主开发者参与代码贡献。随着其应用范围的扩大,评估当前智能体编码能力的边界变得尤为重要。然而,现有的智能体编码基准测试存在任务覆盖面有限(如仅针对单个拉取请求的缺陷修复)、依赖非可执行评估方法或缺乏持续更新评估范围的自动化机制等问题。为解决这些局限性,我们提出FeatureBench——一个专为评估端到端、面向特性的软件开发场景中智能体编码性能而设计的基准测试框架。FeatureBench采用基于执行的评估协议,并通过可扩展的测试驱动方法,能够以最小人力成本从代码仓库中自动提取测试任务。通过沿依赖关系图追踪单元测试,我们的方法可识别跨开发时间线分布、涉及多次提交和拉取请求的特性级编码任务,同时确保其他功能在任务分离后仍正常运行。基于该框架,我们在首版基准测试中从24个开源仓库筛选出200项挑战性评估任务和3825个可执行环境。实证评估表明,在SWE-bench上达到74.4%解决率的最先进智能体模型(如Claude 4.5 Opus)在本基准中仅能完成11.0%的任务,这为推进智能体编码能力提供了新的研究方向。此外,得益于自动化的任务收集工具链,FeatureBench可随时间推移轻松扩展和更新,有效缓解数据泄露问题。所构建环境固有的可验证性也使该方法具备应用于智能体训练的潜在价值。
基于可验证奖励的强化学习(RLVR)已成为增强大语言模型推理能力的有效方法。尽管效果显著,但RLVR面临元学习瓶颈:该方法缺乏人类学习循环中除练习与验证外固有的错误归因和经验内化机制,从而限制了细粒度功劳分配与可复用知识体系的形成。我们将这种从历史错误中提炼的可复用知识表征定义为元经验。基于此洞见,我们提出元经验学习框架,将自蒸馏得到的元经验融入模型的参数化记忆。在标准RLVR基础上,我们引入创新设计:利用大语言模型的自我验证能力,对正确与错误推理轨迹进行对比分析,精准定位推理错误产生的分叉点,并将其总结为可泛化的元经验。通过最小化负对数似然,元经验被进一步内化至大语言模型的参数化记忆中,由此产生语言建模化的奖励信号,在正误推理轨迹间建立桥梁,促进知识的有效复用。实验结果表明,MEL在多个基准测试中实现稳定提升,在不同规模模型上获得3.92%–4.73%的Pass@1增益。
在当前大语言模型(LLM)发展格局中,大规模高质量训练数据的构建是提升模型性能的核心驱动力。数据配方作为关键杠杆,包含将原始数据源转化为训练语料库的完整处理流程。尽管LLM已逐渐应用于自动化执行数据处理环节(如数据合成与过滤),但数据配方的整体设计仍高度依赖人工,需要大量专业知识和反复迭代。为突破这一瓶颈,我们提出了面向LLM领域适应的端到端数据配方生成框架:给定目标基准测试和可用数据源池,模型需输出能够使基础LLM适配目标任务的完整数据配方。我们推出的DataChef-32B模型采用在线强化学习策略,通过代理奖励函数预测候选配方的下游性能。在六项保留任务上的实验表明,DataChef-32B生成的实用配方可实现与专家手工设计配方相当的下游性能。尤为突出的是,该模型生成的数学领域适配配方使Qwen3-1.7B-Base在AIME'25测试中达到66.7分,超越原版Qwen3-1.7B。这项研究为自动化LLM训练及开发自进化AI系统提供了新思路。
我们提出ROCKET,一种无需训练即可实现模型压缩的方法。与基于分解、结构化稀疏化和动态压缩的基线方法相比,该方法达到了当前最优性能。ROCKET在全局压缩预算下运行,包含两大核心创新:首先,它将层级压缩分配建模为多选择背包问题,通过为每层选择最优压缩级别,在满足目标模型尺寸的前提下最小化总体重构误差;其次,受字典学习启发,该方法引入单步稀疏矩阵分解技术——仅需少量校准数据,即可基于激活-权重敏感度稀疏化权重系数,随后通过最小二乘法以闭式解更新字典,完全绕过了迭代优化、稀疏编码或反向传播过程。在20%-50%的压缩率范围内,ROCKET在不同模型架构上均持续优于现有压缩方法。值得注意的是,在30%压缩率下无需微调即可保持原模型90%以上的性能。更突出的是,当施加轻量级微调时,性能恢复显著增强:例如将Qwen3-14B压缩至80亿参数模型后,仅用3000万token进行修复,其表现即可接近原版Qwen3-8B。ROCKET代码已发布于github.com/mts-ai/ROCKET/tree/main。
针对大型语言模型的强化学习存在高方差的分词级别重要性采样比率问题,这会在大规模训练时破坏策略优化的稳定性。为提升稳定性,现有方法通常对序列中所有分词采用固定的序列级IS比率,或单独调整每个分词的IS比率,却忽略了序列内分词间的时序异策略推导。本文首先通过实证研究发现,局部异策略偏差在分词层面存在结构性不一致,可能扭曲相邻分词间的策略梯度更新并导致训练崩溃。为解决该问题,我们提出在线因果卡尔曼滤波策略优化算法。具体而言,我们将目标IS比率建模为随分词演化的潜在状态,并应用卡尔曼滤波器基于历史分词状态进行在线自回归更新,且不依赖未来分词信息。经滤波处理的IS比率在保留分词间局部结构感知变化的同时,能显著平滑噪声峰值,从而产生更稳定有效的策略更新。实验表明,在具有挑战性的数学推理数据集上,KPO算法相较现有最优方法取得了更优异的结果。
循环Transformer已成为语言推理领域一类高效且强大的模型。近期研究表明,这类模型在算法和推理任务上表现优异,暗示循环架构对潜在推理具有归纳偏置。然而,现有方法在训练和推理时固定循环迭代次数,尚未解决这些模型能否在可变计算预算下灵活调整计算深度的问题。我们提出LoopFormer——一种在可变长度轨迹上训练的循环Transformer,可实现预算条件化推理。我们的核心贡献是捷径一致性训练方案,该方案通过对齐不同长度的轨迹,确保短循环产生信息丰富的表征,而长循环持续优化这些表征。LoopFormer使每个循环基于当前时间和步长进行条件化,让表征能在不同长度轨迹间保持一致性演化,而非漂移或停滞。实验表明,即使在严格的计算限制下,LoopFormer在语言建模和推理基准测试中仍保持稳健性能,并能随预算增加优雅扩展。这些结果证明循环Transformer天生适合自适应语言建模,为开发可控且具备预算意识的大型语言模型开辟了新路径。
尽管编程智能体发展迅速,但其多模态版本的研究进展相对滞后。关键挑战在于缺乏能够兼顾软件开发复杂性与深度多模态理解需求的评估平台。游戏开发恰好提供了这样的测试场景——智能体不仅需要驾驭庞大而密集的代码库,还要在可视化游戏场景中操作着色器、精灵图、动画等本质多模态的资产。我们推出首个面向游戏开发任务的智能体评估基准GameDevBench,该基准包含132项源自网络及视频教程的任务。这些任务要求显著的多模态理解能力且复杂度极高:与现有软件开发基准相比,平均解决方案所需的代码行数和文件修改量超出三倍以上。当前智能体在游戏开发领域仍表现不佳,最优模型仅能完成54.5%的任务。我们发现任务感知难度与多模态复杂度呈强相关性,成功率从游戏玩法类任务的46.9%降至2D图形类任务的31.6%。为提升多模态能力,我们引入两种基于图像和视频的简易反馈机制。尽管方法简单,但这些机制能持续提升性能,其中Claude Sonnet 4.5模型的表现提升最为显著,从33.3%提高到47.7%。我们公开释放GameDevBench以支持智能体游戏开发领域的进一步研究。
思维链数据上的监督微调是推理语言模型训练后阶段的关键步骤。传统机器学习直觉认为,使用更多独特训练样本能获得更好泛化能力。然而我们发现反直觉现象:在固定更新预算下,对较小数据集进行多轮训练的效果优于对大规模数据的单轮训练。在AIME'24/25和GPQA基准测试中,Olmo3-7B模型在400个样本上训练128轮的表现比同等条件下51200个样本单轮训练高出12-26个百分点,且未出现额外灾难性遗忘。研究发现,训练标记准确率可可靠指示重复训练的饱和点;当达到完全记忆后,增加训练轮次的收益会趋于平稳,该模式在所有设置中保持一致。这些发现为推理任务的监督微调提供了实用方案——通过扩展训练轮次并以标记准确率作为停止标准,可替代昂贵的无定向数据扩增。我们提出"重复优势"这一新开放性问题:完全记忆与泛化能力提升同步发生的现象,亟待学界深入探索大语言模型的训练动力学机制。
群体相对策略优化(GRPO)为生成文本中的所有令牌分配单一标量优势值。对于具有明确段落结构和多目标的生成任务,这种方法会导致不同段落间的奖励信号相互干扰,引发目标冲突和功劳分配失准。我们提出分块优势估计方法——一系列与GRPO兼容的技术方案,通过为每个目标分配独立优势值并仅应用于对应文本块内的令牌,降低对手工设计标量奖励的依赖,并能自然扩展至更多目标。核心挑战在于如何估计后续文本块的优势值,因其奖励取决于已生成的前缀内容;标准的无偏估计方法需要从中间状态进行耗时的嵌套推演。具体而言,我们引入结果条件基线法,通过根据前缀衍生的中间结果对样本分层,仅利用组内统计量近似估计中间状态值。在含不确定性估计的数学任务上,本方法有效缓解了奖励干扰,与最先进的手工奖励方案性能相当,并保持了测试时置信加权集成的增益效果。更广泛而言,该方法为结构化生成中的序列目标优化提供了无需额外推演的模块化解决方案。
在《哈利·波特》的世界里,当邓布利多的思绪不堪重负时,他会将记忆抽取至冥想盆中供日后重温。而在人工智能领域,虽然我们已拥有堪比冥想盆的成熟数据库与检索系统,但我们的模型却如同缺少操纵它的“魔杖”——它们如同失去主动权的邓布利多,只能被动接受人工设计的上下文作为全部记忆。这项研究终于将魔杖交到了模型手中。我们推出StateLM,一种新型基础模型,其内置推理循环可自主管理状态。我们为模型配备了一套记忆工具(如上下文剪枝、文档索引和笔记功能),并训练其主动管理这些工具。通过学习动态构建自身上下文,模型突破了固定窗口架构的桎梏。不同规模模型的实验表明,StateLM在多样化场景中均表现卓越:在长文档问答任务中,StateLM在所有模型尺度上均稳定超越标准大语言模型;在对话记忆任务中,其准确率较标准大语言模型绝对提升10%至20%;在深度研究任务BrowseComp-Plus上,性能差距更为显著——StateLM准确率最高达52%,而标准大语言模型仅徘徊在5%左右。最终,我们的方法使大语言模型从被动预测器转变为状态感知智能体,让推理成为可管理的有状态过程。
在临床高风险场景中部署大语言模型(LLMs)需要进行严格可靠的评估。然而,现有医学基准测试仍保持静态模式,存在两个关键缺陷:(1)数据污染,即测试集意外渗入训练语料库,导致性能评估虚高;(2)时间错位,无法捕捉医学知识的快速演进。此外,当前针对开放式临床推理的评估指标往往依赖于浅层词汇重叠度(如ROUGE)或主观的"LLM即评判者"打分,二者均无法有效验证临床正确性。为弥补这些不足,我们推出LiveMedBench——一个基于标准化量规、持续更新且无数据污染的基准测试平台,该平台每周从在线医疗社区采集真实临床案例,确保与模型训练数据严格时间隔离。我们提出多智能体临床筛选框架,可过滤原始数据噪声,并依据循证医学原则验证临床完整性。在评估方面,我们开发了基于量规的自动化评估框架,将医生回答分解为细粒度的病例特异性标准,其与专家医生的契合度显著优于"LLM即评判者"方法。截至目前,LiveMedBench已涵盖38个医学专科的2,756个真实病例(支持多语言),并配有16,702条独特评估标准。对38个LLMs的大规模评估显示,即使最优模型仅达到39.2%的准确率,且84%的模型在时间截点后的病例上出现性能下降,证实了数据污染的普遍风险。错误分析进一步表明,语境应用能力(而非事实知识)是主要瓶颈,35%-48%的失败案例源于无法将医学知识适配到患者特定约束条件。
强化学习(RL)是大语言模型(LLM)后训练过程中的关键阶段,涉及策略生成、奖励评估与集中式学习的循环交互。分布式策略执行虽能利用更具成本效益的推理资源,但会引入广域协调与策略分发的挑战。我们提出ECHO-2这一面向远程推理工作节点且具有不可忽略分发延迟的分布式RL后训练框架。该框架将集中式学习与分布式策略生成相结合,将有界策略滞后作为用户可控参数,实现策略生成、分发与训练的流水线并行。我们建立了基于重叠度的容量模型,关联训练时间、分发延迟与策略吞吐量,形成维持学习器利用率的高效资源配置规则。为缓解分发瓶颈并降低成本,ECHO-2采用对等辅助流水线广播及异构工作节点的成本感知激活机制。在真实广域带宽环境下对40亿和80亿参数模型进行GRPO后训练的实验表明,ECHO-2在保持与强基线相当RL奖励的同时,显著提升了成本效率。
能够突破训练预算限制持续进化的大型语言模型,可通过测试时自适应解决日益复杂的问题,这一特性我们称之为外推能力。然而,标准强化学习在固定问题分布和训练预算下运行,限制了模型在测试时应对分布偏移的外推能力。为此,我们提出RC算法——一种在训练和推理阶段替代标准自回归解码的迭代解码方法。RC利用LLMs在应答生成与摘要归纳能力上的不对称性,构建跨迭代持续优化的推理链。经RC训练的模型可实现外推,其推理视野的持续改进能力可超越训练时所见范围一个数量级以上。实证表明,使用16k词元训练预算的40亿参数模型配合RC算法,在测试时消耗50万词元即可将HMMT 2025任务表现从40%提升至近70%,优于同规模模型及多数大型推理LLMs。最后我们还发现,由于训练获得的摘要条件生成能力得到增强,经RC训练的模型能更有效地利用现有框架进一步扩展测试时性能。
全模态大语言模型(OLLMs)致力于统一多模态理解与生成能力,然而尽管语音与3D面部动画的结合对自然交互至关重要,该领域仍鲜有研究。核心挑战源于大语言模型的离散化、令牌级语义推理与3D面部运动所需的密集细粒度时序动态之间存在表征失配,导致在有限数据下直接建模难以优化。我们提出Expressive Omni(Ex-Omni)这一开源全模态框架,通过语音伴随的3D面部动画增强OLLMs。Ex-Omni通过解耦语义推理与时序生成降低学习难度,利用语音单元作为时序支架,并采用统一的令牌即查询门控融合(TQGF)机制实现可控语义注入。我们进一步构建了InstructEx数据集,旨在促进语音伴随3D面部动画的OLLMs增强研究。大量实验表明,Ex-Omni在保持与现有开源OLLMs竞争性能的同时,能够稳定生成对齐的语音与面部动画。
长周期规划被广泛认为是基于大型语言模型的自主智能体核心能力,然而现有评估框架普遍存在片段化、领域特定性或缺乏持续性经济动态基础的问题。我们推出EcoGym——一个面向交互式经济环境中连续规划与决策的通用基准测试平台。该平台包含自动售货、自由职业和运营管理三类异构环境,通过标准化接口实现统一决策流程,并在有效无界时间跨度(评估时按365日循环可达1000+步骤)内实施预算化行动。EcoGym的评估以商业相关成果(如净资产、收入、日活跃用户)为核心指标,重点关注部分可观测性和随机性条件下的长期战略连贯性与鲁棒性。对11个主流大模型的实验揭示出系统性矛盾:没有任何单一模型能在三种场景中全面领先。关键发现表明,模型在高层战略规划或具体行动执行层面均存在显著次优性。EcoGym作为开放可扩展的测试平台,旨在为透明化长周期智能体评估及现实经济环境中可控性与效用权衡研究提供支撑。
智能体编程要求智能体能够有效与运行时环境(如命令行界面CLI)交互,以完成依赖项解析、系统问题修复等任务。然而,如何大规模获取此类强环境依赖型任务以增强智能体能力,仍缺乏深入探索。为此,基于Dockerfile与智能体任务间的类比性,我们提出通过执行反馈引导智能体模拟探索环境历史。通过追踪健康环境的历史记录,可将其状态回滚至存在运行时故障的早期版本,进而将故障状态与对应错误信息封装生成任务。基于名为CLI-Gym的方法,我们共衍生出1,655个强环境依赖型任务,构成当前最大规模的数据集。此外,借助精选的成功执行轨迹,我们微调的LiberCoder模型在Terminal-Bench基准上实现+21.1%(达到46.1%)的绝对性能提升,显著优于多种强基线模型。据我们所知,这是首个公开的强环境依赖型任务规模化衍生管道。
可绑定三维资源是三维形变与动画制作的基础。然而,现有三维生成方法在创建可动画化几何体方面存在挑战,而绑定技术又缺乏对骨骼创建的细粒度结构控制。为突破这些局限,我们提出Stroke3D——一个能够根据用户输入(二维手绘草图和描述性文本提示)直接生成可绑定网格的创新框架。该框架首创性地采用两阶段流程:1)可控骨骼生成阶段,我们利用骨骼图变分自编码器(Sk-VAE)将骨骼图结构编码至潜空间,通过骨骼图扩散变换器(Sk-DiT)生成骨骼嵌入。该生成过程同时接受文本语义条件与二维草图的结构控制,经由VAE解码器重建出高质量三维骨骼;2)基于TextuRig与SKA-DPO的增强网格合成阶段,我们基于生成骨骼合成带纹理的网格。在此阶段,我们首先通过TextuRig(一个从Objaverse-XL精选的带标注纹理绑定网格数据集)增强现有骨骼-网格模型的训练数据,并采用以骨骼-网格对齐评分为指导的偏好优化策略SKA-DPO来提升几何保真度。本框架共同实现了更直观的"即产即动"三维内容创作流程。据我们所知,这是首个基于用户二维草图生成可绑定三维网格的工作。大量实验表明,Stroke3D能生成结构合理的骨骼与高质量网格。
随着大语言模型在波兰语应用中的部署日益广泛,高效精准的内容安全分类器需求日益凸显。我们推出Bielik Guard系列紧凑型波兰语安全分类器,包含两种模型变体:基于MMLW-RoBERTa-base的0.1B参数模型和基于PKOBP/polish-roberta-8k的0.5B参数模型。这些模型在6,885条社区标注的波兰语文本数据集上微调而成,可将内容划分为五类安全范畴:仇恨/攻击性言论、污秽用语、色情内容、犯罪行为及自残倾向。评估显示,两个模型在多项基准测试中均表现优异:0.5B变体在测试集上取得0.791(微平均)和0.785(宏平均)的F1分数,具有最佳综合判别能力;而0.1B变体则展现出卓越的效率。值得注意的是,Bielik Guard 0.1B v1.1在真实用户提问中实现了77.65%的精确度与0.63%的极低误报率,在模型规模相同的情况下显著优于HerBERT-PL-Guard(精确度31.55%,误报率4.70%)。本系列模型已开源发布,其设计理念侧重于提供恰当回应而非简单内容拦截,尤其针对自残等敏感类别。
查询处理(QP)在大规模社交网络服务(SNS)搜索引擎中连接用户意图与内容供给。传统QP系统依赖孤立判别式模型(如BERT)的流水线架构,存在语义理解局限和维护成本高的问题。尽管大语言模型(LLMs)提供了潜在解决方案,现有方法往往孤立优化子任务,忽视了内在语义协同性且需独立迭代。此外,标准生成方法常缺乏SNS场景根基,难以弥合开放域语料与非正式SNS语言特征之间的差异,同时难以遵循严谨的业务定义。我们提出QP-OneModel——面向SNS领域多任务查询理解的统一生成式大语言模型。通过将异构子任务重构为统一的序列生成范式,采用渐进式三阶段对齐策略,最终结合多奖励强化学习。该模型创新性地生成意图描述作为高保真语义信号,有效增强查询改写、排序等下游任务。离线评估表明,QP-OneModel相比判别式基线实现7.35%的综合性能提升,命名实体识别(+9.01%)和术语权重计算(+9.31%)的F1值显著提高。在未见任务上其准确率超越320亿参数模型7.60%,展现出卓越泛化能力。该模型已在小红书全面部署,在线A/B测试验证其工业价值:检索相关性(DCG)提升0.21%,用户留存率增加0.044%。
近期大型图像编辑模型的进展已从文本驱动指令转向视觉提示编辑范式,用户意图可直接通过标记、箭头及视觉文本提示等视觉输入进行推断。尽管这一范式极大拓展了可用性,但也引入了关键且尚未被充分探索的安全风险:攻击载体本身呈现视觉化特征。本研究提出首个纯视觉输入传递恶意指令的视觉中心越狱攻击方法VJA,并构建面向安全性的图像编辑模型基准测试平台IESBench以系统评估这一新兴威胁。在IESBench上的大量实验表明,VJA能有效攻破顶尖商业模型,在Nano Banana Pro和GPT-Image-1.5上的攻击成功率分别达80.9%和70.1%。为缓解该漏洞,我们提出基于内省多模态推理的无训练防御方案,无需辅助防护模型且计算开销可忽略,即可将低对齐模型的安全性提升至商业系统水平。本研究揭示了新型安全漏洞,同时提供基准测试与实用防御方案,以推动构建安全可信的现代图像编辑系统。注:本文包含由大型图像编辑模型生成的违规图像。
知识图谱(KGs)通过关系连接实体来存储结构化事实知识,对众多应用至关重要。这些应用依赖知识图谱的事实准确性,因此事实验证虽具挑战性却必不可少。专家人工验证虽理想但难以大规模实施。自动化方法展现出潜力,但尚未达到实际应用要求。大语言模型(LLMs)凭借其语义理解与知识获取能力具有潜力,但其在知识图谱事实验证中的适用性与有效性仍待探索。 本文提出FactCheck基准测试,旨在从三个关键维度评估LLMs的图谱事实验证能力:(1)LLMs内部知识;(2)基于检索增强生成(RAG)的外部证据;(3)采用多模型共识策略的聚合知识。我们在三个真实世界知识图谱上评估了开源与商业LLMs。FactCheck还包含专为图谱事实验证定制的RAG数据集,涵盖逾200万份文档,同时提供可交互的分析平台用于验证决策研究。 实验分析表明:尽管LLMs展现出可喜成果,但其稳定性与可靠性仍不足以支撑实际应用场景。通过RAG方法整合外部证据会导致性能波动,相比精简方法虽偶有提升但效果不稳定且计算成本更高。多模型共识策略同样无法持续优于单一模型,凸显出通用解决方案的缺失。这些发现进一步印证了像FactCheck这样的基准测试对于系统评估并推动这一关键难题取得进展的必要性。
尽管显式思维链(CoT)赋予大语言模型强大的推理能力,但其要求模型将所有中间步骤以文本符号形式外显化,将模型思维约束在离散的词表空间。近年来,连续潜空间推理作为一种新兴替代方案崭露头角,它能够突破离散符号限制,实现更鲁棒的推理能力和灵活的计算方式。然而,现有潜空间范式常因循环使用隐藏状态作为输入嵌入导致的分布失配,或依赖辅助模型产生的对齐问题,而面临特征坍塌与不稳定性挑战。为此,我们提出潜思维微调框架(LT-Tuning),重新定义了潜思维的构建与部署机制。该方法通过上下文-预测-融合机制,联合利用上下文隐藏状态与词表嵌入空间的语义预测指导,而非仅依赖原始隐藏状态。结合渐进式三阶段课程学习流程,LT-Tuning还能实现潜思维与显式思维模式的动态切换。实验表明,本方法在有效缓解特征坍塌、实现稳健推理精度的同时,显著超越了现有潜空间推理基线模型。
尽管可验证奖励的强化学习(RLVR)近期强化了大语言模型的推理能力,但其仅关注最终答案正确性存在明显局限:无法保证推理过程本身的鲁棒性。我们秉持一个朴素的哲学观点——鲁棒的推理应当超越产生它的思维主体而保持效用,并将推理视为一种必须经受截断、重释与续写考验的意义传递形式。基于此原则,我们提出可迁移奖励的强化学习(RLTR),通过设计迁移奖励来具象化鲁棒性要求:检验从一个模型提取的部分推理前缀是否能引导另一个模型得出正确答案。这种方法促使大语言模型生成稳定、可解释且真正具备泛化能力的推理过程。我们的方法在提升最终答案准确率的同时增强了采样一致性,并以显著更少的训练步数达到相当的性能水平。例如在MATH500数据集上,RLTR相较于RLVR在Maj@64指标上提升3.6个百分点,并以约2.5倍少的训练步数达到RLVR的平均准确率,既提供了更可靠的推理过程,也实现了显著更高的样本效率。
推理模型通过扩展测试时计算来增强问题解决能力,却面临一个关键悖论:过量的思考标记往往导致性能下降而非提升。我们将其归因于基础架构缺陷:标准大语言模型如同"只分配不释放"的引擎,持续累积有效与冗余的推理步骤,却缺乏淘汰过时信息的机制。为打破这一循环,我们提出Free()LM模型,通过即插即用的LoRA适配器——Free模块,赋予模型内在的自遗忘能力。该模型在推理模式与清理模式间循环切换,动态识别并剪除无效上下文片段,始终保持紧凑无噪的思维状态。 大量实验表明,Free()LM在所有模型规模(8B至685B)上均实现持续提升。相比顶级推理基线模型平均提升3.3%,更凭借DeepSeek V3.2-Speciale在IMOanswerBench上创下新SOTA记录。尤为突出的是,当标准Qwen3-235B-A22B模型在长程推理任务中完全失效(准确率0%)时,Free()LM能将其性能恢复至50%。我们的研究揭示:可持续的智能既需要思考的力量,也离不开遗忘的自由。
基于大语言模型(LLM)的智能体正被日益期望能自主进行协商、协调与交易,然而现有基准测试缺乏评估多智能体间语言驱动经济互动的系统性场景。我们推出AgenticPay——一个面向自然语言驱动的多智能体买卖谈判的基准测试与仿真框架。该框架模拟了买卖双方拥有私有约束和产品相关估值的市场环境,要求通过多轮语言协商(而非单纯数字竞价)达成协议。该框架支持涵盖双边议价到多对多市场的110余种任务类型,配备结构化行动提取机制及可行性、效率与福利等量化指标。对前沿专有及开源权重LLM的测试表明,现有模型在谈判性能上存在显著差距,并凸显出长程战略推理的挑战,由此确立AgenticPay作为研究智能体商业与语言化市场交互的基础平台。代码与数据集详见:https://github.com/SafeRL-Lab/AgenticPay。
大型语言模型(LLM)代码代理正日益通过迭代式代码编辑、工具调用和候选补丁验证来解决仓库级问题。在这些工作流程中,代理常会动态编写测试,这一模式已被SWE-bench排行榜上多数高排名代理所采纳。然而我们观察到,几乎不编写新测试的GPT-5.2甚至能达到与顶尖代理相媲美的性能。这引出一个关键问题:此类测试是否能实质性提升问题解决效果,抑或仅仅是在消耗大量交互预算的同时模仿人类测试实践? 为揭示代理编写测试的实际影响,我们开展了一项实证研究,分析了六种前沿LLM在SWE-bench Verified数据集上的代理执行轨迹。结果表明:虽然测试编写被广泛采用,但同一模型中已解决和未解决任务呈现相似的测试编写频率;此外,这些测试主要作为观测反馈渠道,代理明显更倾向于使用揭示变量值的打印语句,而非基于断言的正式检查。基于这些发现,我们通过修改四种代理的提示词进行对照实验,人为增加或减少测试编写量。实验结果表明,代理编写测试量的变化并未显著改变最终结果。综合来看,我们的研究揭示当前测试编写实践在自动化软件工程任务中可能仅能提供有限效用。
在快速非正式的开发流程中,大语言模型正被越来越多地用于代码生成。这类被称为氛围编程的场景优先考虑速度和便利性,安全需求往往未被明确定义。在此环境下,模型常生成功能正确但存在安全隐患的代码,形成日益增长的安全风险。现有提升代码安全性的方法依赖全参数微调或参数高效适配,前者成本高昂且易引发灾难性遗忘,后者操作粒度粗糙且可解释性与可控性有限。 我们提出GoodVibe——一种神经元级框架,旨在默认状态下提升代码语言模型的安全性。该框架基于关键发现:与安全相关的推理过程仅集中于少量神经元子集。我们通过监督式安全任务的梯度归因分析定位这些神经元,并实施选择性神经元微调,仅更新安全关键子空间。为降低训练成本,我们引入激活驱动的神经元聚类技术,以最小开销实现结构化更新。 我们在涵盖C++、Java、Swift和Go等安全关键编程语言的六个大语言模型上评估GoodVibe。该框架在保持模型通用能力的同时显著提升生成代码的安全性:相较基线模型实现最高2.5倍的安全改进;以仅4700分之1的可训练参数量达到或超越全参数微调效果;与参数高效基准方法相比,训练计算量降低3.6倍以上。实验结果表明,神经元级优化为实现安全代码生成提供了兼顾效能与扩展性的解决方案,且无需牺牲效率或通用性。
自进化记忆作为基于大语言模型的智能体的可训练参数,其提取(从经验中提炼洞察)与管理(更新记忆库)必须紧密协同。现有方法主要优化记忆管理,却将记忆提取视为静态过程,导致智能体泛化能力不足,积累的是实例特异性噪声而非稳健记忆。为此,我们提出统一记忆提取与管理框架(UMEM),该自进化智能体框架通过联合优化大语言模型实现记忆的同步提取与管理。为缓解对特定实例的过拟合,我们引入语义邻域建模技术,并基于GRPO通过邻域级边际效用奖励优化模型。该方法通过评估语义相关查询簇中的记忆效用,确保记忆的泛化能力。在五个基准测试上的大量实验表明,UMEM显著优于现有强基线模型,在多轮交互任务中最高提升10.67%的性能。此外,UMEM在持续进化过程中保持单调增长曲线。代码与模型将公开发布。
在动态且以人为中心的环境中运行的机器人,必须遵循语言指令同时保持实时反应控制。视觉-语言-动作模型为此提供了可行框架,但其假设推理与控制存在时间对齐,而语义推理本质上会相对实时动作产生延迟。我们提出延迟感知框架TIC-VLA,通过在动作生成过程中显式建模延迟语义推理。该框架定义了延迟语义控制接口,除当前观测外,还将延迟的视觉语言语义状态与显式延迟元数据作为动作生成条件,使策略能够补偿异步推理。我们进一步提出延迟一致性训练流程,在模仿学习与在线强化学习中注入推理延迟,实现训练与异步部署的对齐。为支持真实评估,我们开发了DynaNav——一个物理精确、照片级真实的仿真套件,用于动态环境中的语言引导导航。大量仿真与实体机器人实验表明,TIC-VLA在保持多秒级推理延迟下鲁棒实时控制的同时,持续优于现有VLA模型。项目网站:https://ucla-mobility.github.io/TIC-VLA/
扩散模型虽已实现卓越的生成质量,但其依赖多步顺序去噪的特性导致推理成本高昂,这推动了近期将推理过程蒸馏为少步范式的研究。然而,现有蒸馏方法通常采用线性捷径来近似教师轨迹,难以匹配速度场随时间步不断变化的切线方向,从而导致生成质量下降。为解决这一局限,我们提出ArcFlow——一种显式采用非线性流轨迹来逼近预训练教师轨迹的少步蒸馏框架。具体而言,ArcFlow将推理轨迹背后的速度场参数化为连续动量过程的混合,从而能够捕捉速度演化规律,并通过外推连贯的速度场在每个去噪步内形成连续非线性轨迹。关键的是,这种参数化允许对非线性轨迹进行解析积分,既规避了数值离散化误差,又实现了对教师轨迹的高精度逼近。为将这一参数化训练为少步生成器,我们通过轻量适配器在预训练教师模型上实施轨迹蒸馏。该策略在保持生成多样性与质量的同时,确保了快速稳定的收敛。基于大规模模型(Qwen-Image-20B和FLUX.1-dev)的实验表明,ArcFlow仅需微调不足5%的原始参数,即可在2步推理内实现40倍加速,且未出现明显的质量衰减。基准测试从定性与定量角度验证了ArcFlow的有效性。
混合专家(MoE)架构的快速普及标志着大语言模型(LLM)部署方式的重大转变。MoE LLM通过每个令牌仅激活少量参数来提升扩展效率,但其路由结构引入了新的安全攻击面。我们发现MoE LLM中的安全关键行为(如拒绝响应)集中分布于少量专家模型,而非均匀分散。基于此,我们提出大型语言模型脑叶切除术(L³)——一种无需训练、与架构无关的攻击方法,通过操控专家路由动态破坏安全对齐机制。L³通过识别与拒绝行为相关的路由模式,将安全行为归因于特定专家,并自适应地静默最具安全相关性的专家直至生成有害输出。我们在八个前沿开源MoE LLM上评估L³,结果显示自适应专家静默使平均攻击成功率从7.3%提升至70.4%,最高达86.3%,优于现有无需训练的MoE越狱方法。此外,绕过防护机制通常只需静默每层不足20%的专家,同时能基本保持通用语言能力。这些发现揭示了效率导向的MoE设计与鲁棒安全对齐之间的根本矛盾,为未来通过架构感知与路由感知方法在MoE LLM中更稳健地部署安全机制提供了理论依据。
当前大语言模型(LLM)开发的主流范式是先对基础模型进行预训练,再通过后续训练优化性能与模型行为。然而,超参数优化与缩放定律的研究主要基于基础模型验证损失的角度,忽视了模型的下游适应能力。本研究从模型可塑性视角探讨预训练过程,即基础模型通过微调适应下游任务的能力。我们重点分析了权重衰减这一预训练中关键正则化参数的作用。通过系统实验发现,采用较大权重衰减值训练的模型具有更强的可塑性,表现为在下游任务微调时能获得更大的性能提升。这一现象可能导致反直觉的权衡:预训练后表现较差的基础模型,经微调后反而可能表现更优。进一步探究权重衰减对模型行为的作用机制发现,它能促进线性可分的表征学习、规范注意力矩阵并减轻训练数据的过拟合。本研究证实了超越交叉熵损失的超参数评估指标的重要性,并揭示了单一优化超参数在塑造模型行为中的多维作用。
过去一年中,计算机使用代理(CUA)取得了巨大进展,但其生成的操作仍时常偏离用户原始意图。这类失准操作既可能源于外部攻击(如间接提示注入),也可能来自内部局限(如错误推理)。它们不仅使CUA面临安全风险,还会降低任务效率与可靠性。本研究首次对CUA中的失准操作检测进行系统性定义与探索,全面覆盖外部诱发与内部产生的失准操作。我们进一步识别出现实场景中三类常见失准类型,并构建MisActBench——一个包含人工标注、操作级对齐标签的真实轨迹基准。此外,我们提出DeAction这一实用通用防护框架,可在操作执行前检测失准行为,并通过结构化反馈进行迭代修正。DeAction在离线与在线评估中均以适度延迟开销超越所有基线方法:(1)在MisActBench上,其F1分数绝对值领先基线超过15%;(2)在线评估中,在对抗环境下将攻击成功率降低90%以上,同时在良性环境中保持甚至提升任务成功率。
过去十年间,可解释性人工智能主要聚焦于对单一模型预测的解读,通过事后归因方法在固定决策结构下建立输入与输出的关联。随着大语言模型(LLMs)的突破性进展,具备多步骤行为轨迹的智能体AI系统得以实现。在此类场景中,成败取决于决策序列而非单一输出。尽管现有解释方法具有一定实用性,但针对静态预测设计的解释方案如何适用于行为随时间演进的智能体场景仍不明确。本研究通过对比归因式解释与轨迹式诊断在两种场景下的表现,弥合了静态可解释性与智能体可解释性之间的鸿沟。为明确区分二者,我们实证比较了静态分类任务中的归因解释方法与智能体基准测试(TAU-bench Airline与AssistantBench)中的轨迹诊断方法。实验结果表明:归因方法在静态场景中能获得稳定的特征排序(斯皮尔曼ρ=0.86),但无法可靠诊断智能体轨迹中的执行层故障;而基于轨迹的评分框架则能持续定位行为故障点,并揭示状态追踪不一致现象在失败案例中的出现频率是成功案例的2.7倍,且使成功概率降低49%。这些发现表明,在评估和诊断自主AI行为时,亟需向面向智能体系统的轨迹级可解释性范式转变。 资源链接: https://github.com/VectorInstitute/unified-xai-evaluation-framework https://vectorinstitute.github.io/unified-xai-evaluation-framework
联邦学习(FL)使得多方能够在不共享原始数据的情况下协同训练机器学习模型。然而在训练开始前,必须通过数据预处理解决缺失值、格式不一致和特征尺度异构等问题。这一预处理阶段对模型性能至关重要,但在联邦学习研究中长期被忽视。实际联邦系统中,隐私约束禁止原始数据集中化处理,而通信效率要求又为分布式预处理带来额外挑战。我们提出FedPS——基于聚合统计量的联邦数据预处理统一框架。该框架利用数据素描技术高效汇总本地数据集,同时保留关键统计信息。基于这些统计摘要,我们设计了面向特征缩放、编码、离散化和缺失值填补的联邦算法,并将k均值、k近邻、贝叶斯线性回归等与预处理相关的模型扩展至横向与纵向联邦学习场景。FedPS为实际联邦学习部署提供了灵活、通信高效且保持一致的预处理流程。
基于自回归模型的生成式推荐将检索与排序统一至条件生成框架。然而使用强化学习对这些模型进行微调时,常面临概率与奖励错配的根本问题。传统似然主导的解码策略(如束搜索)会表现出对局部高概率前缀的短视偏好,引发两个关键缺陷:(1)探索不足:低概率分支中的高奖励项因过早剪枝而极少被采样;(2)优势压缩:共享高概率前缀的轨迹获得高度相关的奖励,组内方差过低导致强化学习缺乏有效比较信号。针对这些问题,我们提出V-STAR框架——一种值函数引导的采样与树状优势强化学习方案。该框架通过两个协同组件形成自演进闭环:首先设计值函数引导高效解码机制,通过识别决策节点并选择性深化高潜力前缀,在不进行穷举树搜索的前提下提升探索效率;其次提出Sibling-GRPO算法,利用生成的树状拓扑计算兄弟节点相对优势,将学习信号聚焦于关键分支决策。在离线和在线数据集上的大量实验表明,V-STAR在严格延迟约束下不仅能超越现有最优基线模型的准确率,还能生成更具多样性的候选集。
针对具有释放时间、设置时间和资格约束的无关联并行机调度问题,本文提出一种基于近端策略优化算法和图神经网络的多目标深度强化学习框架。该问题在最小化总加权延迟与总设置时间方面存在显著的多目标优化挑战。通过图神经网络精准刻画作业、机器及设置状态的复杂关系,近端策略优化智能体能够学习直接调度策略。在多目标奖励函数的引导下,智能体可同步优化两个目标函数。基准测试表明,该PPO-GNN智能体在标准分派规则和元启发式算法基础上实现显著提升,获得了更优的多目标平衡效果,为复杂制造调度提供了强健且可扩展的解决方案。
AI文本检测器面临严峻的鲁棒性挑战:对抗性复述攻击能在保持语义的同时规避检测。我们提出StealthRL强化学习框架,通过在真实对抗环境下对检测器进行压力测试来评估其鲁棒性。该框架基于Qwen3-4B模型,采用LoRA适配器与群体相对策略优化(GRPO)方法,针对多检测器集成系统训练复述策略,优化兼顾检测规避与语义保持的复合奖励函数。我们在安全关键型1%误报率工作点上,评估了六种攻击配置(M0-M5)对三类检测器(RoBERTa、FastDetectGPT和Binoculars)的效能。StealthRL实现了接近零的检测率(TPR@1%FPR均值0.001),将平均AUROC从0.74降至0.27,攻击成功率高达99.9%。关键发现是,攻击可迁移至训练未接触的检测器族,揭示出共有的架构脆弱性而非特定检测器的缺陷。我们还通过李克特量表进行基于LLM的质量评估,分析检测器分数分布以解释规避成功机制,并提供带Bootstrap置信区间的各检测器AUROC。研究结果揭示了当前AI文本检测存在的显著鲁棒性缺陷,并将StealthRL确立为规范的对抗评估范式。代码与评估流程已开源:https://github.com/suraj-ranganath/StealthRL。