每日精选AI研究论文及翻译
尽管自动语音识别(ASR)与大型音频语言模型取得了快速进展,但在真实环境下的鲁棒识别仍受限于“声学鲁棒性瓶颈”:模型在严重且复合的失真条件下常常丢失声学基础,产生遗漏或幻觉。我们提出Mega-ASR,一种统一的野外ASR框架,该框架结合了可扩展的复合数据构建与渐进式声学到语义优化。我们引入了Voices-in-the-Wild-2M数据集,涵盖7种经典声学现象与54种物理上合理的复合场景,并通过声学到语义渐进式监督微调与双粒度词错误率门控策略优化来训练Mega-ASR。大量实验表明,在恶劣条件ASR基准上,Mega-ASR相比先前最优系统取得显著优势(VOiCES R4-B-F上45.69%对54.01%,NOIZEUS Sta-0上21.49%对29.34%)。在复杂复合声学场景中,Mega-ASR相比强大的开源与闭源基线进一步实现了超过30%的相对词错误率降低,为野外鲁棒ASR建立了一个可扩展的范式。
近年来,多模态大语言模型的进展推动了对图形用户界面(GUI)代理的研究兴趣,但这类代理的泛化能力仍受限于缺乏覆盖多样化真实应用的大规模训练数据。现有数据集高度依赖昂贵的人工标注,且通常局限于狭窄领域。为解决这一挑战,我们提出Video2GUI——一种全自动框架,可直接从未标记的网络视频中提取基础化的图形用户界面交互轨迹。Video2GUI采用从粗到细的筛选策略,识别高质量的GUI教程视频,并将其转化为结构化的代理轨迹。通过将该流程应用于5亿条视频元数据,我们构建了WildGUI数据集,其中包含1200万条交互轨迹,覆盖1500多个应用和网站。在WildGUI上预训练Qwen2.5-VL和Mimo-VL模型,在多个GUI基础定位与动作基准测试中带来5%~20%的一致性能提升,达到或超越当前最优水平。我们将公开WildGUI数据集及Video2GUI流程,以支持GUI代理领域的未来研究。
在不引入显著计算开销的前提下,免训练长视频生成旨在使基础视频生成模型能够生成长度更长的视频。帧级自回归框架(如FIFO-diffusion)具有在恒定内存消耗下生成无限长视频的优势。然而,训练与推理之间的不匹配,以及维持长期一致性的挑战,限制了基础模型的有效利用。为解决这些问题,我们提出了MIGA,一种新颖的无限帧长视频生成方法。首先,我们提出了一种有效的两阶段对齐机制,通过减少输入模型的过量噪声跨度来缓解训练-推理差异。接着,我们引入了一种创新的双一致性增强机制,其中自我修正方法纠正早期高噪声帧,而长程帧引导方法则利用后期覆盖范围广的低噪声帧来引导生成,共同提升时间一致性。在VBench和NarrLV上的大量实验表明,MIGA达到了最先进的性能。我们的项目页面可在https://xiaokunfeng.github.io/miga_homepage/访问。
多模态大语言模型(MLLMs)在连接视觉感知与文本推理方面展现出卓越能力,能够对多种工业场景实现零样本理解。然而,它们在开放词汇工业异常检测(IAD)中的性能常受限于领域错配的推理和幻觉式的结构推断。为解决这些问题,我们提出IndusAgent——一种面向开放词汇工业异常检测的工具增强型智能体框架。具体而言,我们首先构建了结构化数据集Indus-CoT,该数据集整合了全局视觉观测、高分辨率局部图像块及专家正常性先验,为模型在严谨工业检测轨迹上的微调提供监督。在此基础上,IndusAgent动态协调一组外部工具,包括动态区域裁剪、高频特征增强和先验检索,从而使智能体能够主动消解视觉歧义并分离细微异常。此外,我们引入了一种门控强化学习目标,该目标联合优化异常分类、定位精度、异常类型推理及工具高效使用,确保仅在有益时调用工具。在MVTec-AD、VisA、MPDD、DTD和SDD五个工业异常基准上的广泛评估表明,IndusAgent在所有现有方法中取得了最先进的零样本性能,验证了其鲁棒性和泛化能力。
基于可验证奖励的强化学习(RLVR)已成为提升大型语言模型(LLM)推理能力的主导范式,然而,模型参数轨迹背后的几何特性仍未被充分探索。在本工作中,我们证明RLVR的权重轨迹具有极低的秩且高度可预测。具体而言,我们发现下游性能的大部分提升可由参数增量(parameter deltas)的秩为1的近似捕捉,且该投影的幅值随训练步数近乎线性地演化。受此启发,我们提出一种简单且计算高效的方法RELEX(REinforcement Learning EXtrapolation),该方法通过短观测窗口估计秩为1的子空间,并利用线性回归外推未来检查点,无需任何学习模型。在三个模型(Qwen2.5-Math-1.5B、Qwen3-4B-Base和Qwen3-8B-Base)上,RELEX生成的检查点在域内和域外基准测试中均达到或超越了RLVR的性能,且仅需完整RLVR训练步数的15%。值得注意的是,RELEX能够在无训练代价的情况下将观测窗口外推至远超其范围,预测超出观测前缀10至20倍的检查点并持续改进(例如,仅观测前50步即可外推至1000步)。我们的消融分析证实了RELEX的最小充分性:既不需要增加子空间秩,也无需采用非线性建模来进一步提升外推性能。最后,我们证明RELEX的成功源于一种“去噪”效应:通过将更新投影到秩为1的子空间,模型丢弃了随机优化噪声,否则该噪声会在外推过程中降低性能。我们的代码已开源:https://github.com/weizhepei/RELEX。
向长上下文推理和多模态智能的快速发展,使得键值缓存的存储占用成为高效部署的主要瓶颈。尽管成熟的每通道量化方法能有效适应键张量中固有的通道级离群值,但在极端压缩下其有效性显著降低。本研究从实证和理论双重角度重新审视了每通道量化范式的固有局限性。我们的分析发现,Token范数不平衡是制约量化精度的首要瓶颈。研究表明,当共享量化参数需要覆盖具有显著范数差异的Token组时,TNI会系统性地放大误差。与依赖复杂量化流程的方案不同,我们提出了OScaR——一种适用于多模态大语言模型的精准轻量级KV缓存压缩框架。该框架改进了每通道量化范式,通过通道化旋转与全Token缩放来高效抑制TNI引发的序列维度方差,并辅以优化的系统设计和CUDA内核。跨X-LLMs的广泛评估表明,OScaR持续优于现有方法,在INT2量化下实现近无损性能,成为定义新帕累托前沿的鲁棒、低复杂度通用框架。与BF16 FlashDecoding-v2基线相比,OScaR在解码阶段实现最高3.0倍加速,内存占用减少5.3倍,吞吐量提升4.1倍。OScaR代码已开源:https://github.com/ZunhaiSu/OScaR-KV-Quant
大语言模型(LLMs)奠定的基础能力为多模态大语言模型(MLLMs)的发展铺平了道路,其中大型音频语言模型(LALMs)对于实现通用听觉智能至关重要。尽管LALMs表现出色,但其能力提升速度远超确保可信度的系统性框架的发展。本综述全面探讨了LALMs的内生机制,详细介绍了促进涌现推理的架构创新和对齐算法。具体而言,我们分析了向统一端到端框架的转变以及连续声学信号的集成如何固有地扩大了攻击面。为了严格评估这些范式中的风险,我们建立了一个全面的可信度分类体系,将关键漏洞分类,如跨模态越狱、潜在声学后门和生物特征隐私泄露。我们通过六大分析支柱审视了当前最先进的技术:幻觉、鲁棒性、安全性、隐私、公平性和认证。成熟的攻击场景与薄弱的防御之间的深刻不平衡进一步验证了以音频为中心的智能所面临的严重可信度差距和多维风险。最后,我们提出了一项战略路线图,倡导采用“纵深防御”架构、因果听觉世界建模和内在表征工程,以弥合实证性能与内可信音频智能之间的差距。我们的项目已上传至GitHub https://github.com/Kwwwww74/Awesome-Trustworthy-AudioLLMs。
情境完整性(Contextual Integrity, CI)将隐私的定义不局限于信息隐藏,而是主张信息流动需遵循特定情境下的规范。随着大语言模型越来越多地被部署为处理敏感工作流的个人代理,遵循CI变得至关重要。然而,即便是最先进的模型在披露决策方面仍不可靠,现有缓解策略往往以牺牲底层任务性能为代价。为克服这种隐私与效用的权衡,我们提出SELFCI,一种互补性自蒸馏框架,将信息抑制与任务求解解耦。SELFCI基于来自反馈的不同教师分布,联合优化两个独立的逆向KL散度:一个鼓励保留任务相关信息以保持效用,另一个则强制实现最小且适当的披露。这种互补性公式推导出一个专家乘积模型(Product-of-Experts, PoE)目标,使策略与能力与隐私要求的交集对齐。实验评估表明,SELFCI不依赖昂贵的外部监督,始终优于在线强化学习算法(如GRPO)等竞争基线。这些趋势进一步扩展到涉及代理工作流和累积私密上下文的域外场景,表明SELFCI为CI对齐提供了一条实用路径。
我们证明时间序列基础模型具有可扩展性:单个训练方案可产生从400万到25亿参数可靠的预测质量提升。我们发布了Toto 2.0,这是一个在此训练方案下训练的五款开源权重预测模型系列。Toto 2.0系列在三个预测基准上创造了新的最优水平:BOOM(我们的可观测性基准)、GIFT-Eval(标准通用基准)以及近期提出的抗污染TIME基准。本报告描述了我们的实验结果,并详细说明Toto 2.0背后的设计决策:其架构与训练方案、训练数据以及u-muP超参数迁移管线。所有五个基础检查点均根据Apache 2.0许可证发布。
近期,基于大语言模型(LLM)的智能代理通过规划、工具使用、记忆检索及多步交互,成为解决复杂任务的有效范式。然而,此类代理工作流通常带来显著的输入侧开销,使得计算密集型的预填充阶段成为长上下文、多轮推理中的关键瓶颈。本文提出Mix-Quant,一种简单高效的相位感知量化框架,用于加速代理推理过程。我们首先在代理LLM工作流中研究FP4量化,发现对整个推理过程进行量化会导致显著的性能下降。相比之下,预填充阶段存在大量量化冗余,因此可在精度损失极小的情况下进行量化,尽管该阶段是计算的主要来源。基于这一洞察,我们对预填充阶段应用高吞吐量的NVFP4量化,同时保留解码阶段的BF16精度。通过将预填充加速与解码质量解耦,Mix-Quant将相位感知算法量化与硬件高效的NVFP4执行相结合,缓解LLM代理的推理瓶颈。在长上下文和代理基准上的广泛实验表明,Mix-Quant在基本保持任务性能的同时,实现了显著的效率提升,预填充阶段加速可达3倍。
未来的神经推理系统应如何实现扩展计算?递归推理模型(RRMs)通过使用共享转移函数进行迭代潜在状态细化,为自回归序列扩展提供了一种有前景的替代方案。然而,现有的RRMs在很大程度上是确定性的,遵循单一潜在轨迹并收敛到单一预测。我们提出生成式递归推理模型(GRAM),该框架将递归潜在推理转化为概率性多轨迹计算。GRAM将推理建模为随机潜在轨迹,支持多个假设、备选解决策略,并通过递归深度和并行轨迹采样实现推理时扩展。由此得到一个潜变量生成模型,可通过p_θ(y | x)进行条件推理,并在输入固定或缺失的情况下通过p_θ(x)进行无条件生成。通过摊销变分推断进行训练后,GRAM在结构化推理和多解约束满足任务上优于确定性递归和循环基线方法,并展现出无条件生成能力。https://ahn-ml.github.io/gram-website
虽然GUI代理在网页导航和基础操作系统任务方面取得了显著进展,但其在专业创意工作流中的能力仍基本未被探索。为弥补这一空白,我们提出了Cutverse——一个旨在真实媒体后期制作环境中系统性评估自主GUI代理的基准测试。我们整理了横跨7个专业应用(如Premiere Pro、Photoshop)的专家演示,涵盖186项基于真实编辑流程的复杂长时任务,涉及密集的多模态接口与紧密耦合的交互序列。为支持可扩展评估,我们开发了一个轻量级解析器,将原始屏幕录制和低层级交互日志转化为结构化的、组合式GUI动作轨迹,并实现精确的接地。广泛评估显示,现有代理在真实媒体编辑任务中仅达到36.0%的任务成功率,这凸显了我们基准测试中复杂长时媒体后期制作工作流所带来的挑战。尽管当前模型在空间接地、多模态对齐和协调动作执行方面展现出潜力,但它们在长期可靠性和领域特定规划方面仍存在局限。
目前,增强统一多模态模型(UMMs)在图像理解、生成和编辑方面的能力主要依赖于混合多任务训练。由于任务间固有的冲突,这种策略需要复杂的多阶段流程、大量数据混合和平衡技巧,最终仅实现性能权衡而非真正的相互增强。为突破这一范式,我们提出了Uni-Edit——一种智能图像编辑任务,作为首个可用于UMM调优的通用任务。与复杂的混合流程不同,Uni-Edit仅通过单一任务、单一训练阶段和单一数据集,即可同时提升所有三种能力。具体而言,我们首先发现图像编辑本质上是理想的通用任务,因为它天然需要视觉理解和生成能力。然而,现有编辑数据依赖于简单指令,严重低估了模型的理解能力。为此,我们引入了首套自动化、可扩展的智能编辑数据合成流程,将多样化的VQA数据转化为包含嵌入问题和嵌套逻辑的复杂、有效编辑指令。由此构建的Uni-Edit-148k数据集,将多样化的高推理需求指令与高质量编辑图像配对。在BAGEL和Janus-Pro上的大量实验表明,仅对Uni-Edit进行调优,无需任何辅助操作即可全面增强所有三种能力。
对自然语言逻辑推理能力进行评估对大型语言模型来说是至关重要的,因为规则性任务要求结论必须严格遵循给出的前提。许多现有的逻辑推理基准测试通过从采样公式中模板化生成自然语言题目,仅提供粗糙或未经审核的形式化标注,且如今已被前沿推理模型快速饱和。我们推出了LLMEval-Logic,这是一个基于真实场景情境构建的中文逻辑推理基准测试。其流程包括:前置作者与专家审核自然语言题目及其参考形式化表示,使用Z3验证标注答案,构建用于自然语言到形式化评分的专家评分标准,并通过闭环对抗式工作流程对选定题目进行加固。该基准测试以两个配对子集的形式发布:包含246道题目的基础子集,附带1,400个专家开发的评分标准原子;以及190道题目的困难子集,包含938道针对封闭模型空间的多步子问题。在LLMEval-Logic上对14个前沿大语言模型进行评估,揭示了当前模型间的显著差距:最佳模型在困难题目上的准确率仅为37.5%,即便在提供参考符号的情况下,已评估模型中最高联合Z3+评分标准形式化得分也仅达到60.16%。我们的基准测试已在 https://github.com/llmeval/LLMEval-Logic 公开发布。
当前大型语言模型(LLM)的预训练范式依赖于海量计算资源和互联网规模的原始文本数据,这为基础研究设置了显著的门槛。相比之下,生物系统通过多时间尺度处理(如额顶环路的功能组织)展现出极高的样本效率。受此启发,我们提出了HRM-Text,用分层循环模型(HRM)替代标准Transformer,将计算解耦为慢速演化的策略层和快速演化的执行层。为了稳定这种用于语言建模的深度循环,我们引入了MagicNorm和预热式深度信用分配。此外,我们不再采用标准的原始文本预训练,而是仅使用指令-响应对,并基于任务完成目标和PrefixLM掩码进行训练。作为高效预训练的一个经验性存在证明,一个1B参数的HRM-Text模型从零开始,仅用400亿个独特token和1500美元预算训练,便在MMLU上达到60.7%,在ARC-C上达到81.9%,在DROP上达到82.2%,在GSM8K上达到84.5%,在MATH上达到56.2%。尽管训练token数量仅为标准基线的约1/100至1/900,估计计算量仅为1/96至1/432,HRM-Text仍能与参数规模为2-7B的开源模型竞争。这些结果表明,协同设计架构与训练目标能够显著降低计算与性能之比,使从零开始的预训练对更广泛的研究社区成为可能。
工业资产运营工作流对延迟高度敏感,因为单个用户查询可能需要协调传感器数据、工单、故障模式、预测工具以及领域特定智能体。我们在AssetOpsBench(AOB)上评估了这一问题,这是一个工业智能体基准测试,其计划-执行流水线反复暴露于工具发现、LLM规划、MCP工具执行和最终总结的开销中。现有的LLM缓存技术,如KV缓存复用和基于嵌入的语义缓存,是为聊天机器人服务设计的,当输出有效性依赖于时间、资产或传感器参数时,这些技术会失效。我们针对AOB计划-执行流水线提出了两个互补的优化层:一个时间语义缓存,以及一组MCP工作流优化,结合了基于磁盘的工具发现缓存和依赖感知的并行步骤执行。MCP工作流优化实现了1.67倍的加速,并将中位数端到端延迟降低约40.0%,而时间语义缓存在缓存命中时实现了30.6倍的中位数加速。除了加速效果外,我们的结果还揭示了纯语义缓存在参数丰富的工业查询中的一种具体失败模式,提供了关于缓存选择如何与基于MCP的智能体基准测试中的评估正确性相互作用的批判性分析。
随着人工智能能力的提升,AI审稿人开始被部署在科研同行评审中,但其能力和可信度仍存疑:许多科学家仅将其视为缺乏评估研究专业知识的概率系统,而另一些研究人员则对其准备充分性持乐观态度却无实证支撑。理解AI审稿人擅长什么、存在哪些不足、以及需要应对哪些挑战至关重要。然而,现有对AI审稿人的评估主要集中于其判断是否与人类判断一致(如评分对齐、录用预测),这难以全面表征其能力与局限。本文通过一项大规模专家标注研究填补这一空白:来自物理、生物与健康科学领域的45位领域科学家耗时469小时,对82篇Nature系列论文的人类撰写评审与AI生成评审中的2960条独立批评(每条针对论文某一特定方面)进行了"正确性""重要性"及"证据充分性"三维度评级。在三个维度的综合得分上,基于GPT-5.2的审稿智能体超过了每篇论文中评分最高的人类审稿人(60.0% vs. 48.2%, p = 0.009),而所有三个AI审稿人(包括Gemini 3.0 Pro和Claude Opus 4.5)在每个维度上都超过了评分最低的人类审稿人。同时,AI审稿人提出的准确批评往往更常被评价为"重要"且"证据充分",并能挖掘出人类未提出的26%的独特问题。然而,AI审稿人之间的重叠程度远高于人类(跨审稿人对重叠率:21% vs. 3%),并表现出16个人类不具备的重复性弱点,如对子领域知识有限、缺乏跨多个文件的长上下文管理能力,以及对小问题的过度批评倾向。总体而言,我们的结果表明当前AI审稿人是人类审稿人的补充,而非替代。
近年来,布局到图像模型在空间可控性方面取得了显著进展,但在物体间遮挡问题上仍存在不足。当边界框重叠时,现有方法大多缺乏显式遮挡信息,导致重叠区域的生成存在本质歧义,难以确定复杂的遮挡关系。因此,这些方法常常在重叠区域产生纹理混杂或物理层次不一致的结果。为解决此问题,我们首先构建了SA-Z——一个包含显式遮挡顺序与像素级标注的大规模数据集。基于所提出的数据集,我们引入OcclusionFormer——一种遮挡感知的扩散Transformer框架,通过解耦实例并利用体渲染进行合成,显式建模Z序优先级。此外,为确保精细的空间精度,我们提出查询对齐损失函数,对单个实例进行显式监督并增强语义一致性。该方法有效减少了重叠区域的歧义性,强制正确的遮挡依赖关系,并保持结构完整性,从而在不同场景下实现了显著的精度提升。
Stable Audio 3 是一系列高效潜在扩散模型(包含小、中、大三种规模),专为可变时长音频生成与编辑设计。由于模型可生成数分钟音频,变长生成机制能够有效避免为短音频生成全长内容带来的计算开销。我们还支持音频修复功能,可实现对目标区域的精准编辑及短录音的延展。这些潜在扩散模型基于新型语义-声学自编码器架构运行,该编码器将音频映射至紧凑的潜在空间,既能保持音频保真度,又能促进潜在空间中语义结构的形成,从而支持高效的扩散生成。最终通过对抗性后训练,在提升推理速度与生成质量的同时,大幅减少推理步数——不仅优化了保真度,还增强了提示文本的遵循程度。Stable Audio 3 模型基于授权与知识共享许可数据进行训练,在 H200 GPU 上生成音乐及音效耗时不足 2 秒,在 MacBook Pro M4 上仅需数秒。我们已开源可在消费级硬件上运行的小型与中型模型权重,并同步提供配套的训练与推理流程。
在实际应用中,基于扩散或流的生成模型必须与任务特定奖励对齐,例如提示忠实度或美学偏好。这种对齐具有挑战性,因为奖励是针对干净输出图像定义的,但对齐过程需要在带噪的中间隐变量处估计价值函数。现有方法采用Tweedie式或蒙特卡洛近似,在估计偏差与计算成本之间权衡:Tweedie估计高效但有偏,而蒙特卡洛估计更准确但需要昂贵的 rollout。一个自然的替代方案是学习一个价值函数,但如何有效训练一个针对带噪隐变量的强健且通用的价值模型仍是一个开放问题。本文提出StitchVM,一种模型拼接框架,能够高效地将预训练用于干净图像的奖励模型迁移到带噪隐变量领域。StitchVM从现有的、截断的像素空间奖励模型出发,将一个冻结的扩散主干作为其头部附加其上。从像素空间模型中,生成的混合模型保留了经过精心预训练的、鲁棒的奖励能力;从扩散主干中,它继承了处理带噪隐变量的原生能力。拼接过程异常轻量,例如拼接并微调CLIP ViT-L和SD 3.5 Medium仅需10 GPU小时。通过将强大的像素空间奖励模型提升到隐空间,StitchVM开启了一种新的扩散对齐风格:不再采用粗糙但成本高昂的逐样本价值函数近似,而是针对实际的带噪隐变量一次性构建正确的函数,并在多个样本和迭代中分摊成本。我们表明,该方法在一系列下游引导和后训练方法中带来改进:DPS速度提升3.2倍,同时峰值GPU内存减半;DiffusionNFT速度提升2.3倍。
键值(KV)缓存主导了长上下文自回归推理中的内存带宽和占用。最近的旋转预条件编解码器(TurboQuant、PolarQuant)表明,结构化随机旋转后接与解析可处理的边缘分布匹配的逐坐标标量量化器,是KV压缩的近最优方案。OCTOPUS通过联合量化旋转后的坐标三元组推进了这一范式。每个三元组的方向通过八面体参数化映射至正方形,由此产生的两个坐标及三元组范数均依据实现匹配的边缘分布进行Lloyd-Max量化。优化每个三元组的均方误差可得到严格非均匀的比特分配,该分配仅依赖于键的总维度。通过扫描我们发现,在测试的每个真实解码器上,有限维质量最优值保持恒定。该编解码器无数据依赖性、在线运行且给定种子后具有确定性。在文本、视频和音频任务中,OCTOPUS在每个报告位宽和指标上均达到或超越所有先前旋转编解码器,且随着比特率降低以实现极端压缩,其领先优势进一步扩大。此外,融合的Triton实现可即时重构键,无需物化未压缩的键,因此编解码器不会在解码时引入额外的带宽或延迟。项目页面:https://octopus-quant.github.io/
基于可验证奖励的强化学习(RLVR)受限于稀疏的结果信号,在复杂推理任务中造成严重的探索瓶颈。近期在线自蒸馏方法尝试通过利用语言反馈生成密集的令牌级监督来解决这一问题。然而,这些方法依赖固定的被动教师来解读反馈。随着学生策略的改进,教师的零样本评估能力趋于停滞,最终阻碍进一步学习。为克服此局限,我们提出变分策略蒸馏(VPD),该框架将基于语言反馈的学习形式化为变分期望最大化(EM)问题。VPD联合进化两种策略:在E步中,通过自适应信任域更新机制,教师根据轨迹结果主动优化,将文本反馈转化为动态改进的目标令牌分布;在M步中,学生在其自身在线策略展开中内化这种密集的分布指导。通过持续提升教师从文本批评中提取可行动信号的能力,VPD突破了被动蒸馏的局限。在科学推理与代码生成任务中,针对多种诊断性反馈来源的评估表明,VPD在标准RLVR及现有自蒸馏基线方法上均取得一致优势。最后,通过针对严格数学推理与冷启动模式的压力测试,我们揭示了相较于纯环境驱动强化学习,反馈驱动自蒸馏的根本性边界。
LLM代理通过技能组织行为——这些技能是结构化的自然语言规范,定义了代理如何推理、检索和响应。与单一提示不同,技能是多字段产物,受到严格的平台约束:描述字段被截断用于路由,指令主体通过渐进式展开进行压缩,共存技能在有限的上下文窗口中相互竞争。这些约束使得技能优化本质上是多目标的:一个技能必须同时最大化任务性能并满足平台限制。然而,现有的提示优化器要么忽视这些权衡,要么将其简化为加权求和,从而在非凸目标区域中遗漏帕累托最优变体。我们提出了MOCHA(多目标切比雪夫退火),该方法用切比雪夫标量化替代单目标选择——覆盖完整的帕累托前沿,包括非凸区域——并结合指数退火,从探索过渡到利用。在我们的实验中,涉及六个不同的代理技能——所有方法共享相同的多目标变异算子,基线获得相同的每目标文本反馈——现有优化器在6个任务中有4个未能改进种子技能:1000次回滚未取得任何进展。MOCHA在每个任务上都取得了突破,在平均正确率上比最强基线提高了7.5%(在FEVER上高达14.9%,在TheoremQA上高达10.4%),同时发现的帕累托最优技能变体数量是基线的两倍。
从平面图和风格参考生成一致的全屋VR漫游,既需要逼真的全景图,也需要跨视角的空间一致性。纯2D生成器能生成吸引人的单张全景图,但当视角变化时会重新想象几何形状和材质,而单一的整体3D生成则成本高昂,并且在多房间尺度上会丢失精细纹理。我们提出了PanoWorld,一种生成式空间世界模型,它将全屋合成视为基于节点的360度全景图自回归生成,与真实VR漫游产品使用的离散导航相匹配。PanoWorld使用从平面图导出的3D外壳作为全局几何代理,以及一个动态的3D高斯泼溅缓存作为可渲染的空间记忆。为度量尺度的多房间360度输入设计的前馈全景LRM,将生成的全景图提升为局部3DGS更新,而房间感知组注意力抑制跨房间特征干扰。一种拓扑感知的渐进缓存策略融合这些局部更新,而无需重复重建完整历史。通过将基于外壳的几何引导与缓存渲染的视觉记忆解耦,PanoWorld在保持高频2D合成质量的同时,提高了跨节点的布局和材质一致性。项目链接为https://jjrcn.github.io/PanoWorld-project-home/
基于可验证奖励的强化学习(RLVR)已被证明能有效提升大型语言模型(LLM)的推理能力。然而,RLVR的学习动态仍未得到充分探索。本文揭示了一个反直觉的现象:在模型初始阶段难以处理的硬示例中,有相当一部分子集即便存在正确的轨迹样本,仍然无法被学习。为了理解这一现象,我们首先证明现有优化和采样技术无法解决不可学习性问题。通过跨示例梯度分析,我们发现不可学习示例存在根本性的表示问题,其特征是与其余示例的梯度相似性较低,且推理模式缺乏泛化能力。我们进一步表明,表示缺陷在RL中难以缓解,因为数据增强并不能改善梯度相似性。本研究首次系统刻画了RLVR训练中的不可学习数据,并揭示了当前基于RL的推理方法存在的根本局限性。代码和数据见https://github.com/yulinchen99/unlearnability-rlvr。
随着长周期编码智能体生成的代码量远超任何开发者所能审查的范围,监督便集中到单一表面:自动化测试套件。在这种设置下,奖励黑客现象自然出现——智能体为了通过测试而优化,却偏离了用户的真实目标。我们通过将软件工程任务分解为三个部分来研究这种奖励黑客现象:(i)用自然语言描述的规范说明;(ii)独立验证指定功能的可见性测试;(iii)组合相同功能以模拟真实使用场景的保留测试。基于规范说明和可见性测试套件,一个真正的智能体应当能够生成也能通过所有保留测试的解决方案。因此,我们使用这两个套件之间通过率的差距来量化奖励黑客行为。基于这一方法论,我们引入了SpecBench基准,包含30个系统级编程任务,范围从构建JSON解析器等短周期任务到从头构建整个操作系统内核等超长周期任务。大规模实验揭示了一致模式:虽然每个前沿智能体都饱和了可见性测试套件,但奖励黑客现象依然存在,较小的模型在保留测试套件上表现出更大的差距。这种差距也随任务长度急剧扩大:代码规模每增加十倍,差距就增长28个百分点。失败模式从微妙的特征隔离到蓄意的利用,包括一个2900行的哈希表“编译器”通过记忆测试输入来作弊。SpecBench为衡量编码智能体是真正构建可工作的系统,还是仅仅玩弄开发者交给它们的测试套件,提供了一个原则性的测试平台。
现实中的智能体需要在长期且不断演变的时间跨度中运行,信息会反复更新并可能在记忆之间产生干扰,这就要求智能体具备准确回忆、以及对多条信息进行聚合推理的能力。然而,现有基准测试聚焦于静态、独立的回忆任务,未能捕捉到这些动态演变记忆之间的交互。本文研究了当前记忆增强智能体在现实场景(干扰密集、时间跨度长)下,跨多个领域和问题类型时的表现。我们提出了MINTEval(长视野记忆干扰评估基准),其核心特征包括:(1) 长期且高度关联的上下文,包含频繁更新的信息,会引发显著干扰;(2) 多个领域(状态跟踪、多轮对话、维基百科修订、GitHub提交),可用于评估领域泛化能力;(3) 多种问题类型,用于检验抗干扰鲁棒性,包括(i) 单目标回忆任务(要求从长上下文中检索特定目标),以及(ii) 多目标聚合任务(要求对多条相关信息进行推理)。总体而言,MINTEval包含15.6万个问答对,其长视野上下文平均长度为13.88万个token,单实例最长达180万个token。我们评估了7个代表性系统,包括普通长上下文LLM、RAG以及记忆增强智能体框架。在所有系统中,我们观察到一致的低性能表现(平均准确率27.9%),尤其是在需要对多条证据进行聚合推理的问题上。分析表明,性能主要受限于检索和记忆构建环节。此外,当前的记忆系统难以回忆和推理那些被后续上下文修改或干扰的早期事实,并且随着中间更新次数的增加,准确率持续下降。
直接偏好优化(DPO)已成为从人类反馈中强化学习(RLHF)的流行替代方案,其理论等价性更简单实现。我们证明这种等价性是有条件的而非普遍的,它依赖于一个在实践中经常被违反的隐含假设:RLHF最优策略必须偏好人类更偏好的响应。当该假设不成立时,DPO优化的是相对于参考策略的相对优势而非与人类偏好的绝对对齐,导致病态收敛——策略在降低DPO损失的同时反而偏好不被人类偏好的响应。我们刻画了该假设被违反的条件,展示了不良解空间的存在,并证明DPO和RLHF在此类情况下优化的目标根本不同。为解决此问题,我们提出约束偏好优化(CPO),通过引入约束增强RLHF以实现可证明的对齐。我们进一步通过软间隔排序给出几何解释,揭示DPO实现了可能具有负目标的间隔排序。我们的理论分析确定了DPO保证何时成立,并提供了保留简单性且实现可证明对齐的解决方案。在标准基准上的全面实验表明,CPO达到了最先进的性能。代码可在 https://github.com/visitworld123/CPO 获取。
我们提出Mem-π,一种用于大语言模型(LLM)代理的自适应记忆框架,其核心思想是在需要时按需生成有用指导,而非从外部记忆库中检索。现有记忆增强型代理通常依赖从情景记忆库或技能库中进行的相似性检索,返回的静态条目往往与当前上下文不匹配。相比之下,Mem-π使用一个专用的语言或视觉语言模型(拥有独立参数,与下游代理分离)来为复杂任务生成上下文特定的指导。基于当前代理上下文,该模型联合决策何时生成指导以及生成何种指导。我们采用一种决策与内容解耦的强化学习(RL)目标对其进行训练,使其能够在生成无益时主动放弃,否则生成简洁且有用的指导。在涵盖网页导航、终端工具使用和基于文本的具身交互等多种代理基准测试中,Mem-π一致优于基于检索的基线方法和先前经RL优化的记忆基线,在网页导航任务上实现了超过30%的相对性能提升。
近期前馈模型在从传感器观测中推断密集三维结构的几何感知方面取得了显著进展。然而,其核心能力仍分散在多个互不兼容的范式中,包括在线感知、离线重建、多模态融合、长时程可扩展性以及度量尺度估计。本文提出UniT——一种基于新型组自回归Transformer的统一模型,将看似互不相关的各项能力整合到单一框架中。其核心思想是将传感器观测的组作为基本自回归单元,以无锚点且尺度自适应的方式预测对应的点图。具体而言,在线与离线设置中的多样化视图配置通过单一组自回归过程自然统一。通过调整组大小,在线模式以单帧组执行多步自回归,而离线模式则在单次前向传播中聚合多帧组。同时,队列式KV缓存机制确保长时程下的自回归内存有界性。该机制通过无锚点关系建模降低对早期帧的长程依赖,从而允许实时丢弃过时内存。为提升跨场景的度量尺度泛化能力,本文进一步引入尺度自适应几何损失函数。该函数将相对几何约束与部分绝对尺度项耦合,隐式正则化全局尺度,并引导从尺度不变几何向度量尺度解的渐进过渡。结合专用于融合辅助模态的模态注意力模块,UniT在统一几何感知中达到了当前最优性能,在涵盖七项代表性任务的十个基准上得到验证。
随着自主编码代理能够处理越来越长期的任务,它们已逐步展现出完成端到端软件开发的能力。尽管现有基准测试近期已从局部代码编辑演进到从零开始的项目生成,但它们仍局限于结构简化、单一技术栈的应用。因此,这些测试无法捕捉真实企业级软件即服务(SaaS)系统中的异构环境、全栈编排与系统级复杂性,在评估代理面临实际工程约束时留下了关键空白。为填补这一空白,我们提出SaaSBench——首个旨在探索AI代理在企业SaaS工程中能力边界的基准测试。它涵盖6个SaaS领域的30个复杂任务,包含5370个验证节点,整合了8种编程语言、6种数据库和13种框架,细致还原真实软件的异构性。此外,我们针对长期期、多组件耦合的复杂系统设计了一种依赖感知的混合评估范式,实现细粒度、可复现的评估。至关重要的一点是,我们的大量实验揭示了一个惊人发现:最先进代理的主要瓶颈并非生成孤立的代码逻辑,而是成功配置与集成多组件系统。超过95%的任务失败发生在代理触及深层业务逻辑之前,模型常因过度自信而在基础系统搭建阶段过早终止,或陷入无效的调试循环。我们期望SaaSBench能作为一个实用且富有挑战性的测试平台,推动可靠、系统级编码代理的演进。代码已开源在https://github.com/ShadeCloak/SaaSbench。
规划能力是大语言模型(LLM)的一项基础技能,因为复杂任务要求模型将目标、约束、资源和长期后果协调为可执行且可验证的解决方案。然而,现有的规划基准通常将规划数据视为固定的实例集合,而非可控的生成目标。这限制了场景覆盖范围,将难度与表面层面的代理指标而非结构性根源挂钩,并且对可扩展生成、自动验证或面向规划的训练支持有限。我们提出PlanningBench,这是一个用于生成可扩展、多样化且可验证的规划数据的框架,既可用于评估也可用于训练。PlanningBench从真实规划场景出发,将实际工作流程抽象为包含30多种任务类型、子任务、约束族和难度因素的结构化分类体系。在该分类体系的指导下,一种约束驱动的合成流程能实例化包含自适应难度控制、质量过滤和实例级验证清单的自包含规划问题。这使规划数据构建从固定的基准集合转变为可控生成,同时保留了现实的任务基础。我们利用PlanningBench评估了开源和闭源前沿LLM,发现当前模型在耦合约束下仍难以生成完整解决方案。除评估外,基于已验证的PlanningBech数据的强化学习可提升模型在未见过的规划基准及更广泛的指令遵循任务上的表现。进一步分析表明,确定性或明确指定的最优解能提供更清晰的奖励信号和更稳定的训练动态。总体而言,PlanningBench为诊断和提升LLM的通用规划能力提供了可控的规划数据来源。
安全后训练能够提升大语言模型的无害性和策略依从性,但可能同时降低通用能力,这一现象常被称为对齐代价。我们通过持续学习的视角研究这一权衡:连续的对齐阶段使模型面临偏移的数据分布和目标,其梯度可能干扰支持先前获取的通用能力的方向。这种观点并未声称所有对齐退化都有单一成因,而是为缓解其中一种重要的能力回退机制提供了有用的一阶方法。我们提出正交梯度投影安全对齐方法(OGPSA),这是一种轻量级更新规则,通过从小量通用能力数据上的梯度估计低秩参考子空间,从每个安全梯度中移除位于该子空间的分量。所得更新是在参考目标的一阶保持约束下最陡的局部安全下降方向。OGPSA兼容标准后训练流程,无需大规模回放,但会引入周期性的参考梯度计算。在监督微调(SFT)、直接偏好优化(DPO)及顺序SFT→DPO设定下,OGPSA相比标准基线改善了观测到的安全-效用权衡。在顺序SFT→DPO流程下,Qwen2.5-7B-Instruct的平均性能增益从33.98%提升至42.74%,Llama3.1-8B-Instruct从19.74%提升至32.98%。我们已在 https://github.com/SunGL001/OGPSA 开源了代码。
现代语言模型训练越来越频繁地面临不稳定性、性能降级和计算浪费的问题,尤其是在激进的学习率、规模以及运行时压力条件下。本文提出了线控学习防护(LBW-Guard),一种在AdamW之上运行的自治训练控制治理层。LBW-Guard不替换优化器的更新规则,而是观测训练遥测数据,识别不稳定敏感状态,并在保持固定训练目标的同时,对优化器的执行施加有界控制。 我们在以Qwen2.5为核心的应力与鲁棒性测试套件上(基于WikiText-103数据集)评估了LBW-Guard。其中以Qwen2.5-7B作为经验锚点,通过与Qwen2.5-3B和Qwen2.5-14B进行模型规模对比,并结合学习率应力测试、梯度裁剪基线以及一个无LoRA的TinyLlama-1B全参数完整性检查。在7B参考设置下,LBW-Guard将最终困惑度从13.21降至10.74,提升了18.7%,同时端到端时间从392.54秒缩短至357.02秒,实现了1.10倍的加速。在更强的学习率应力条件下,AdamW在LR=3e-3时困惑度退化至1885.24,在LR=1e-3时退化至659.76,而LBW-Guard分别保持在11.57和10.33的可训练水平。梯度裁剪基线无法复现这一效果。 这些结果支持一个特定系统层面的结论:对稳定性敏感的LLM训练可以从优化器之上的治理层中获益。LBW-Guard提供了证据,表明有界运行时控制能够在应力条件下保持有效计算,同时区别于替换优化器或局部梯度抑制的方法。
扩散大语言模型(dLLMs)已成为自回归(AR)模型的有力替代方案,通过并行块级解码提供更优的硬件利用率和双向上下文。然而,随着dLLMs采用混合专家(MoE)架构进行规模化扩展,其在资源受限设备上的部署仍是一个开放挑战。现有的基于AR的方法往往面临高昂的I/O开销或显著的计算瓶颈。本文提出TIDE,一种新型资源高效推理系统,其利用块内扩散过程中专家激活的时间稳定性。具体而言,我们利用该特性,引入基于间隔的专家刷新策略,以I/O感知的方式更新专家布局。为确保最优性能,我们将推理调度建模为数学规划问题,求解最小化I/O流量与CPU计算量的最优间隔。最重要的是,TIDE是一种无损优化方法,无需模型训练,为dLLM推理提供了“免费午餐”式加速。在单GPU-CPU系统中,我们证明TIDE在LLaDA2.0-mini和LLaDA2.0-flash模型上分别实现了相较于先前基线的1.4倍和1.5倍吞吐量提升。
视频虚拟试穿(VVT)旨在将视频中人物身上的服装无缝替换为新款式。现有方法虽在保持时间一致性方面取得了显著进展,但主要局限于非交互场景——模特仅展示服装,这忽略了现实服饰呈现的一个关键方面:主动的人-服装交互。为填补这一空白,我们提出并形式化了一项新的挑战性任务:交互式视频虚拟试穿(Interactive VVT),其中视频中的主体会主动与衣物互动。该任务在简单的纹理保留之外带来了独特挑战,包括:(1)从标准姿态信息中解决交互的语义歧义性,以及(2)从交互时刻稀疏且短暂的视频中学习复杂的服装形变。为应对这些挑战,我们提出iTryOn——一个基于大规模视频扩散Transformer的新型框架。iTryOn首创了多级交互注入机制来指导复杂动态的生成。在空间层面,我们引入与服装无关的3D手部先验,为精确的手-服装接触提供细粒度指导,有效解决空间歧义。在语义层面,iTryOn利用全局标题提供整体上下文,并利用带时间戳的动作标题提供局部交互信息,通过我们提出的动作感知旋转位置编码(A-RoPE)实现同步。大量实验表明,iTryOn不仅在传统VVT基准上达到最先进性能,还在新的交互设置中建立了显著领先优势,标志着向更动态、更可控的虚拟试穿体验迈出了重要一步。
大型视觉-语言模型(LVLMs)在医学应用中展现出潜力,但其无法将回答忠实锚定于视觉证据的缺陷引发了对其临床可信度的严重担忧。尽管视觉归因方法被广泛用于解释LVLM的预测,但这些解释是否真正反映了模型决策背后的视觉证据在很大程度上未经验证——因为模型内部推理的真实标注通常难以获取。我们针对胸部X光(CXR)推理问题,通过开发一种因果评估框架来探究该问题:该框架仅保留经反事实编辑验证、确证专家标注区域对模型预测具有因果作用的CXR-VQA样本。利用该框架对11种归因方法、6个开源LVLM及两种输出模式(直接回答与逐步推理)进行测试,我们发现现有归因方法往往无法识别LVLM实际采用的证据。为解决此问题,我们提出MedFocus——一种基于概念的归因方法,该方法通过非平衡最优传输定位具有临床意义的解剖区域,并通过靶向干预度量这些区域对模型输出的因果效应。MedFocus生成空间级、概念级和词元级归因,其性能显著优于先前方法,为医学LVLM迈向更可信的归因迈出一步。我们的数据和代码可在 https://github.com/gzxiong/medfocus/ 获取。
文本到动作生成(Text-to-Motion Generation)旨在将文本描述转化为人体动作,其面临的一个核心挑战是用户难以仅通过文字精确表达其预期的动作。为解决这一问题,本文提出DrawMotion——一种面向多条件场景的高效扩散框架。该框架基于传统的文本条件与新颖的手绘条件共同生成动作,分别提供语义控制与空间控制。具体而言,我们从三个角度攻克细粒度动作生成任务:1)手绘条件:为无需繁琐文本输入即可精准捕捉用户意图,我们开发了一种算法,能够自动生成适应不同数据集格式的手绘火柴人草图;2)多条件融合:提出一个集成到扩散过程中的多条件模块(MCM),使模型能够利用所有可能的条件组合,同时相比传统方法降低计算复杂度;3)无训练引导:值得注意的是,DrawMotion中的MCM确保其中间特征位于连续空间内,使得分类器引导梯度能够更新这些特征,从而在保持保真度的同时使生成的动作与用户意图对齐。定量实验与用户研究均表明,在生成符合用户想象的动作时,手绘方法可节省用户约46.7%的时间。代码、演示及相关数据已在 https://github.com/InvertedForest/DrawMotion 公开。
查询聚类将查询组织成反映共享潜在能力需求的组,从而支持能力感知的大语言模型评估。现有的聚类方法主要依赖语义分类法或嵌入,往往因表层语义与模型实际性能之间的错位而无法捕捉此类潜在能力需求。我们提出ECC算法,该算法利用有限的后验模型比较来校准先验语义嵌入,从而弥合表层语义与潜在能力需求之间的鸿沟。ECC通过参数化Bradley-Terry模型的能力特征描述每个聚类,并利用可训练的混合权重来适应具有混合能力需求的查询,联合学习灵活且具有能力感知的聚类结构,支持对LLM能力的查询特定推断。广泛的定量和定性评估表明,ECC显著提升了LLM能力排序质量,平均分别比人工标注和基于嵌入的基线高出17.64和18.02个百分点,并在查询路由等下游任务中证明了其有效性。
集成不一致性被广泛用作医学图像分割中认知不确定性的代理指标。实践中,许多研究通过K折交叉验证(CV)形成集成,却将其称为“深度集成”(DE)。由于CV成员在不同数据子集上训练,其不一致性混合了种子驱动变异性与数据暴露效应,这会改变不确定性应被解读的方式。我们审计了近期分割不确定性研究,发现术语与实现不匹配的情况普遍存在。随后,在三个多评分者分割数据集(涵盖三种模态)上,我们比较了标准5折CV集成与5成员DE(固定训练集、不同随机种子)在完全相同配置下的表现,评估了校准、失败检测、模糊性建模及分布偏移下的鲁棒性。DE在保持分割精度的同时改进了校准与失败检测,而CV集成在研究数据集上有时与评分者间变异性相关性更强。因此,应依据研究问题选择集成构建方式:面向可靠性场景(如选择性转诊/失败检测)选用DE,而CV集成可作为模糊性的代理指标。我们提供了轻量级nnU-Net修改,使得在默认流程中即可进行DE训练。
近年来,Muon已成为训练大语言模型及更广泛Transformer架构的主流方法。与标准梯度下降法相比,其本质区别在于将常规更新矩阵M=UΣV^T替换为其极化因子UV^T。本研究探讨一类类Muon优化方法,通过参数p将更新矩阵M替换为UΣ^p V^T形式。我们将此操作称为"频谱整形",并建立了一套理论框架来指导p值选择,该选择取决于:(a)损失函数的局部曲率,(b)随机梯度与标签噪声带来的噪声影响,以及(c)训练阶段。理论与实验揭示了此前被忽视的行为特征:正值p通过强化高曲率方向加速信号收缩,在训练初期发挥优势;而轻微负值p则能将更新强度重新分配到仍含有效训练信号的低曲率方向,在训练后期发挥作用。基于这一发现,我们提出DynMuon——一种高效的动态频谱整形方法,可在训练过程中将p值从正值逐渐过渡至轻微负值。跨模型规模、架构及训练设置的大量实验表明,DynMuon在达到相同目标损失时所需步数比Muon减少10.6%-26.5%,且稳定实现更低的验证损失。
子词分词是现代大型语言模型(LLMs)的核心组成部分,但其对训练效率和模型性能的具体贡献仍未被充分理解。本研究通过将子词分词的效果解耦并置于可控的字节级预训练流程中,从样本吞吐量、词汇表缩放以及子词边界的语言先验等多个维度提出了假设并进行了验证。通过在字节级环境中模拟这些效应,我们深化了对子词模型为何优于原始字节模型的认识,并为改进未来字节级与子词模型的预训练提供了见解。具体而言,我们的实验凸显了提升训练吞吐量的关键作用,以及将子词边界作为显式先验或归纳偏差加以整合的重要性。