每日精选AI研究论文及翻译
将扩散变换器(DiTs)扩展到数百层时,会引入一种结构上的脆弱性:网络可能进入一种无声的、均值主导的崩溃状态,这种状态会使得令牌表示同质化并抑制中心化变异。通过机制审计,我们隔离了这种崩溃的触发事件,即均值模式尖叫(MMS)。即使训练过程看似稳定,MMS仍可能发生,表现为对残差写入器产生均值一致的逆向冲击,从而开启深层残差分支,并将网络推向均值主导的状态。我们揭示这种行为是由这些梯度精确分解为均值一致和中心化分量所驱动,加之一旦数值同质化,注意力对数梯度通过Softmax雅可比矩阵的零空间被结构性地抑制,进一步加剧了这一问题。 为解决此问题,我们提出了均值-方差分离(MV-Split)残差,它将独立获得的中心化残差更新与泄漏主干均值替换相结合。在一个400层的单流DiT上,MV-Split防止了未稳定基线崩溃的发散性崩溃;它在崩溃前轨迹上紧密跟踪基线,同时在整个训练计划中显著优于如LayerScale等令牌各向同性门控方法。最后,我们展示了一个1000层的DiT作为边界尺度下的规模验证运行,证明该架构在极端深度下仍能稳定训练。
随着在线舞蹈视频平台的兴起及人工智能生成内容(AIGC)技术的飞速发展,音乐驱动的舞蹈生成已成为一个引人注目的研究领域。尽管在音乐驱动的三维舞蹈生成、姿态驱动的图像动画以及音频驱动的说话头合成等相关领域已取得显著进展,现有方法仍无法直接应用于此任务。此外,该领域有限的研究仍难以同时实现高质量的视觉呈现与逼真的人体动作。为此,我们提出了MACE-Dance,一个基于级联专家混合模型(MoE)的音乐驱动舞蹈视频生成框架。其中,运动专家负责音乐到三维动作的生成,确保运动学上的合理性与艺术表现力;而外观专家则执行基于动作与参考条件的视频合成,保持视觉身份的同时实现时空一致性。具体而言,运动专家采用了一种结合BiMamba-Transformer混合架构及无引导训练(GFT)策略的扩散模型,在三维舞蹈生成上达到了业界领先水平。外观专家则采用了解耦的运动美学微调策略,在姿态驱动的图像动画方面同样取得了顶尖表现。为了更好地评估这一任务,我们构建了一个大规模且多样化的数据集,并设计了一套动作与外观的评价标准。基于此标准,MACE-Dance同样展现了卓越的性能。相关代码已公开于https://github.com/AMAP-ML/MACE-Dance。
现有流匹配(FM)文生图模型在多任务对齐中存在两大瓶颈:标量奖励导致的奖励稀疏性,以及联合优化异质目标引发的梯度干扰,二者共同造成指标间的"跷跷板效应"和普遍存在的奖励破解现象。受大语言模型领域在线策略蒸馏(OPD)成功的启发,我们提出Flow-OPD——首个将在线策略蒸馏融入流匹配模型的统一后训练框架。该框架采用两阶段对齐策略:首先通过单奖励GRPO微调培育领域专精教师模型,使每个专家模型独立达到性能上限;随后基于流式冷启动方案建立稳健初始策略,并通过在线策略采样、任务路由标注和密集轨迹级监督的三步协同,将异质专业知识无缝整合至单一学生模型。我们进一步提出流形锚定正则化(MAR),利用任务无关教师模型提供全数据监督,将生成结果锚定在高质量流形上,有效缓解纯强化学习对齐中常见的美学质量退化问题。基于Stable Diffusion 3.5 Medium构建的Flow-OPD将GenEval分数从63提升至92,OCR准确率从59提升至94,相较原始GRPO实现约10分的综合提升,同时保持图像保真度与人类偏好对齐,并展现出超越教师模型的涌现特性。这些成果确立了Flow-OPD作为构建通用文生图模型的可扩展对齐范式。
基于可验证奖励的强化学习(RLVR)已成为大型语言模型(LLMs)后训练中激励推理能力的标准方法。在现有方案中,基于组的策略梯度方法较为普遍,即为每个提示采样一组响应,并通过组相对优势信号更新策略。本研究揭示了这些优化策略共享一个共同的几何结构:它们隐式地在响应单纯形上定义一个目标分布,并通过一阶近似向该目标投影。基于此洞察,我们提出了列表式策略优化(LPO),显式地进行目标投影,通过将近端强化学习目标约束在响应单纯形上厘清隐式目标,进而通过精确散度最小化进行策略投影。该框架提供了:(i)在列表式目标上的单调改进,同时具备有界、零和及自校正的投影梯度;(ii)通过解耦的投影步骤,能够灵活选择具有不同结构特性的散度。在多种推理任务和LLM骨干模型上,LPO在匹配目标下显著优于典型策略梯度基线的训练性能,同时固有地保持了优化稳定性与响应多样性。
现有多模态搜索代理在处理目标实体时采用顺序执行方式,每当查询分解为独立子检索任务时,每个实体需触发一次工具调用,导致冗余交互轮次累积。我们认为,高效的多模态代理应追求"更宽"而非"更长"的搜索策略:即在单轮交互中并行发出多个有依据的查询。为此,我们提出HyperEyes——一种并行多模态搜索代理,它将视觉定位与检索融合为单一原子操作,支持对多个实体进行并发搜索,同时将推理效率视为一等训练目标。HyperEyes采用两阶段训练。在冷启动监督阶段,我们构建了并行兼容数据合成管道,涵盖视觉多实体和文本多约束查询,并通过渐进拒绝采样生成面向效率的轨迹。在此基础上,本研究的核心贡献——双粒度效率感知强化学习框架——在两个层级运作。宏观层面,我们提出TRACE(工具使用参考自适应成本效率)轨迹级奖励,其参考值在训练过程中单调收紧,以抑制多余工具调用且不限制真实多跳搜索。微观层面,我们采用在策略蒸馏,从外部教师模型向失败展开注入密集的令牌级修正信号,缓解稀疏结果奖励带来的信用分配问题。鉴于现有基准仅以准确率作为唯一评估指标而忽略推理成本,我们构建了IMEB——包含300个人工标注实例的基准,联合评估搜索能力与效率。在六个基准测试中,HyperEyes-30B相比最强可比开源代理,准确率提升9.9%,平均工具调用轮次减少5.3倍。
测试时扩展(TTS)已成为一种通过在推理阶段分配额外计算来提升大语言模型性能的有效方法。然而,现有TTS策略大多依赖人工设计:研究人员通过直觉手动设计推理模式并调整启发式规则,导致计算分配空间存在大量未探索区域。我们提出了基于环境驱动的框架AutoTTS,该框架转变了研究者的设计对象:从设计单个TTS启发式策略转向构建能够自动发现TTS策略的环境。AutoTTS的核心在于环境构建:发现环境必须使控制空间易于处理,并为TTS搜索提供低成本、高频次的反馈。作为具体实现,我们将宽度-深度TTS形式化为基于预收集推理轨迹和探针信号的控制器综合问题——控制器需决策何时分支、继续、探测、剪枝或终止,并能避免重复大语言模型调用而进行低成本评估。我们进一步引入β参数化以提升搜索的可处理性,并通过细粒度执行轨迹反馈帮助智能体诊断TTS程序失败原因,从而提高发现效率。在数学推理基准上的实验表明,所发现的策略在精度-成本权衡上优于强人工设计基线。这些策略可泛化至未见基准和不同模型规模,而整个发现过程仅需39.9美元和160分钟。我们的数据和代码将在https://github.com/zhengkid/AutoTTS开源。
具身智能的进展日益依赖于可扩展的数据基础设施。尽管视觉和语言领域已借助互联网语料库实现了规模扩展,但物理交互的学习仍受限于缺乏大规模、多样化且标注丰富的人类活动数据。为此,我们提出HumanNet——一个一百万小时的人类中心视频语料库,它捕获了人类与物理世界的大规模交互过程。HumanNet涵盖第一人称和第三人称视角,包含细粒度活动、人-物交互、工具使用以及跨多样真实环境的长期行为。除原始视频外,该数据集还提供以交互为中心的标注,包括字幕、动作描述以及手部和身体相关信号,从而支持运动感知和交互感知学习。超越规模本身,HumanNet引入了一种面向具身学习的系统性数据整理范式,将人类中心过滤、时间结构组织、视角多样性以及标注丰富性作为首要设计原则。这一设计将非结构化的互联网视频转化为用于表征学习、活动理解、运动生成以及人-机器人迁移的可扩展基础资料。我们通过一项受控的视觉-语言-动作消融实验首次验证了这一设计的价值:在固定验证数据集下,基于Qwen VLM模型,使用HumanNet中提取的1000小时第一人称视频进行连续训练,其效果超越了使用Magic Cobot中100小时真实机器人数据进行的连续训练,这表明第一人称人类视频可成为机器人数据的一种可扩展且成本效益高的替代方案。通过构建该项目,我们旨在探索利用人类中心视频(而非仅依赖机器人专属数据)来扩展具身基础模型的可能性。
训练多模态大语言模型长期受限于高质量配对多模态数据的稀缺性。近期研究表明,预训练多模态对比模型的共享表征空间可作为桥梁,使模型能够利用单模态数据进行多模态训练。然而,该范式的关键前提仍未得到充分理解:来自不同模态的表征能否可靠地相互替换?核心障碍在于共享空间中持续存在的模态间隙。本文重新审视了模态间隙的几何本质。我们发现,模态表征已共享兼容的主导语义几何结构。真正阻碍模态可互换性的并非简单的全局偏移,而是集中在少数主导方向上的各向异性残差结构。基于此发现,我们进一步提出各向异性模态间隙对齐原则:有效的模态对齐应在保持源模态语义结构的同时,与目标模态分布对齐。在该原则指导下,我们提出各向异性几何校正框架AnisoAlign,用于无配对模态对齐。该框架利用目标模态的内部几何先验,对源模态表征进行有界校正,从而构建目标模态中的替代表征。实验在几何诊断和纯文本多模态大语言模型训练中均证实了其优势。总体而言,本文将模态间隙从经验观察重新塑造为一种可纠正的结构化几何现象,并为利用单模态数据训练多模态模型提供了新的表征对齐视角。
代码搜索通常被评估为第一阶段检索,尽管实际生产系统依赖于更广泛的管道,包括重排序和开发者风格的查询。现有基准测试也存在数据污染、标签噪声和退化的二元相关性等问题。本文中,我们引入了CoREB——一个污染限制的多任务代码检索与重排序基准,并附带一个微调的代码重排序器,其功能超越检索,覆盖完整的代码搜索流水线。CoREB基于从五个编程语言中反事实改写的LiveCodeBench问题构建,并采用定时发布和分级相关性判断。我们在三项任务(文本到代码、代码到文本、代码到代码)上对11个嵌入模型和5个重排序器进行了基准测试。实验揭示:①代码专用嵌入在代码到代码检索中占据主导地位(比通用编码器高出约2倍),但没有任何单一模型在所有三项任务中获胜;②短关键词查询(最接近真实开发者搜索的格式)使所有模型在nDCG@10上几乎降至零;③现成的重排序器存在任务不对称性,在代码到代码任务上波动达12个百分点,且没有任何基线能在所有任务上实现净正增益;④我们微调的CoREB-Reranker是首个在所有三项任务上实现一致增益的模型。数据集和模型已公开发布。
AI智能体正越来越多地被部署到不同领域,通过长期、高风险的动作执行来自动化复杂工作流。由于其高能力与灵活性,这类智能体引发了重大的安全与保障问题。越来越多的真实世界事件表明,攻击者可以轻易操纵智能体执行有害行为,例如泄露API密钥、删除用户数据或发起未经授权的交易。评估智能体的安全性本身具有挑战性,因为智能体在动态、不可信的环境中运行,涉及外部工具、异构数据源以及频繁的用户交互。然而,可用于大规模风险评估的现实、可控且可复现的环境在很大程度上仍未被充分探索。为弥补这一不足,我们提出了解码信任智能体平台(DecodingTrust-Agent Platform,简称DTap)——首个面向AI智能体的可控且交互式红队测试平台,涵盖14个真实世界领域及50多个模拟环境,这些环境复制了Google Workspace、Paypal、Slack等广泛使用的系统。为在DTap中实现智能体风险评估的规模化,我们进一步提出了DTap-Red——首个自主红队测试智能体,它能系统地探索多种注入向量(如提示词、工具、技能、环境及其组合),并自主发现针对不同恶意目标的有效攻击策略。利用DTap-Red,我们精心构建了DTap-Bench——一个大规模红队测试数据集,包含跨领域的高质量实例,每个实例都配有可验证的评判器,以自动验证攻击结果。通过DTap,我们对基于多种骨干模型的流行AI智能体进行了大规模评估,涵盖安全策略、风险类别及攻击策略,揭示了系统性的脆弱性模式,并为开发安全的下一代智能体提供了宝贵见解。
扩散变换器(DiT)在VAE潜在空间中通过流匹配训练,已实现图像与视频的统一视觉生成。将这一框架应用于语言建模,是迈向统一架构(同时支持视觉合成与文本生成)的合理下一步。我们提出TextLDM,以最小的架构修改将视觉潜在扩散方案迁移至文本生成。基于Transformer的VAE将离散令牌映射为连续潜在表示,并通过与冻结预训练语言模型进行表示对齐(REPA),以增强条件去噪的有效性。随后,标准DiT在此潜在空间中执行流匹配,其架构与视觉DiT完全相同。我们解决的核心难题在于获取高质量的连续文本表示:研究发现,仅依赖重建保真度不足以保证下游生成质量,通过REPA使潜在特征与预训练语言模型对齐至关重要。TextLDM在OpenWebText2上从零训练,显著优于先前的扩散语言模型,并在相同设置下达到GPT-2水平。该结果表明,视觉DiT方案可有效迁移至语言领域,为迈向多模态生成与理解的统一扩散架构迈出实质性一步。
随着大语言模型(LLMs)的快速发展,其能力不断提升,同时所需上下文长度也在持续增加。为提升长上下文处理的推理效率,近期提出了多种新型低复杂度混合架构,有效缓解了长上下文推理的计算负担。然而,现有关于长上下文预填充加速的研究仍主要聚焦于稀疏注意力机制,这类方法仅在纯注意力模型上达到最大加速效果。当应用于新兴架构(如线性/全注意力混合或滑动窗口/全注意力混合)时,这些预填充加速方法的性能会显著下降。此外,此类方法通常与连续批处理不兼容,难以集成到vLLM等现代推理引擎中。为此,我们提出UniPrefill——一种适用于几乎所有模型架构的预填充加速框架,可直接在令牌级别加速模型计算。我们进一步将UniPrefill实现为连续批处理算子,并扩展vLLM的调度策略,使其原生支持UniPrefill的预填充-解码协同处理与张量并行,从而无缝集成至vLLM中。UniPrefill在首次令牌延迟(TTFT)上实现了最高2.1倍的加速,且随着并发请求数量的增加,加速效果愈发显著。
强化学习(RL)显著提升了大型语言模型(LLM)智能体与环境交互及解决多轮任务的能力。然而,实现高效的智能体强化学习仍面临挑战:稀疏的结果导向型奖励难以为长交互轨迹中的单步动作提供有效信用分配。现有方法通常引入密集的中间监督信号(如过程奖励模型或辅助自监督信号),这不仅增加了监督与调参复杂度,还可能限制跨任务与跨领域的泛化能力。本文提出自适应熵调控(AEM)方法,该无监督信用分配技术通过动态调节RL训练过程中的熵值来优化探索-利用平衡。鉴于智能体强化学习中环境通常受完整响应(而非单个词元)影响,我们的分析将熵动态从词元层面提升至响应层面,使不确定性估计与LLM智能体的有效动作粒度对齐,并降低对词元级采样噪声的敏感性。研究进一步表明,自然梯度更新下的熵漂移由采样响应优势度与其相对信息量的交互作用主导。基于此发现,AEM构建了响应级不确定性代理指标,通过重缩放优势度来利用正负样本间的动态平衡,实现从探索到利用的自然过渡。在ALFWorld、WebShop及SWE-bench-Verified数据集上,针对1.5B至32B参数模型的广泛实验表明,AEM能持续提升强基线RL方法性能,其中集成至最先进软件工程RL训练框架时取得+1.4%的增益。
从单目视频中进行动态空间推理对于连接视觉智能与物理世界至关重要,但对视觉语言模型(VLM)而言仍具有挑战性。现有方法要么将空间-时间推理完全文字化,这在处理复杂动态时本质上是冗长且不精确的;要么依赖外部几何模块,这增加了推理复杂度且未能培养模型内在能力。本文提出4DThinker,这是首个使VLM能够通过动态潜在心理图像“以4D方式思考”的框架——即在连续隐空间中内部模拟场景演化过程。具体而言,我们首先引入一个可扩展、无需标注的数据生成管道,从原始视频中合成4D推理数据。随后提出动态意象微调(DIFT),通过联合监督文本标记和4D潜在表示,使模型植根于动态视觉语义。在此基础上,4D强化学习(4DRL)通过基于结果的奖励进一步处理复杂推理任务,并将策略梯度限制于文本标记以确保稳定优化。在多个动态空间推理基准上的大量实验表明,4DThinker持续优于强基线模型,并为VLM中的4D推理提供了新视角。我们的代码已开源:https://github.com/zhangquanchen/4DThinker。
随着深度学习模型参数规模增长至数十亿,微调的计算成本仍是部署中的重大障碍。尽管低秩适应(LoRA)已成为参数高效微调的标准方法,但预设静态秩r的需求需要穷举网格搜索来平衡效率与性能。现有秩自适应方案(如DyLoRA)通过在训练过程中从预定义分布中采样秩来缓解此问题,但由于缺乏跨完整秩层次的梯度信号一致性,这类方法在高秩区域常产生次优结果,导致数据利用效率低下。本文提出MatryoshkaLoRA——一种基于套娃思想的通用LoRA训练框架,通过在现有LoRA适配器之间插入精心设计的固定对角矩阵P,按比例缩放其子秩,从而学习精确的分层低秩表示。这一简单修改使通用框架通过改变P即可恢复LoRA与DyLoRA,并确保所有子秩有效嵌入可用梯度信息。我们的MatryoshkaLoRA支持动态秩选择,且准确率损失极小。我们进一步提出秩准确率曲线下面积(AURAC)指标,用于一致评估分层低秩适配器的性能。实验结果表明,相较于先前的秩自适应方法,MatryoshkaLoRA学习了更精确的分层低秩表示,并在所有测试数据集上实现了更优的准确率-性能权衡。我们的代码已开源:https://github.com/IST-DASLab/MatryoshkaLoRA。
递归架构中的状态追踪理论主要聚焦于表达能力:即固定架构能否在理论上实现一组符号转换规则。我们认为同样重要的是误差控制,即控制隐藏状态沿区分符号状态的方向漂移的动态机制。我们证明,仿射递归网络(一类包含状态空间模型和线性注意力的模型)一旦保持状态表示,就无法沿状态分离子空间纠正误差。因此,实际的仿射追踪器并未学习到稳健的状态追踪,而是学习由累积的状态相关误差所支配的有限时域解。我们刻画了这种失效的机制,表明仅当累积的类内散布相对于初始类间分离度保持较小时,追踪才具有可读性。我们在群组状态追踪任务上通过实验证明,这种崩溃是可预测的:当可区分性比率超过训练解码器的可读阈值时,追踪就会失效。在训练过的模型中,这一交叉点可预测下游准确性失效的时域界限。这些结果确立了稳健的状态追踪不仅取决于架构的理论表达能力,更关键地取决于其误差控制。
DeepSeek稀疏注意力(DSA)通过引入一个学习得到的逐词索引器,为每个前缀词元评分并选择最相关的词元用于主注意力,从而在细粒度推理时稀疏注意力领域达到了当前最优水平。为保持表达能力,该索引器使用多个查询头(例如DeepSeek-V3.2中为64个)共享同一组选定的词元;正是这种多头设计使得索引器在处理长上下文时成为主要计算成本。我们提出MISA(混合索引器稀疏注意力),作为DSA索引器的即插即用替代方案,将其索引器头视为一个混合专家池。一个轻量级路由器利用廉价的块级统计信息,选择仅由少数活跃头组成的查询相关子集,且仅有这些头执行高开销的词元级评分。这保留了原始索引器池的多样性,同时将每个查询的计算成本从使用所有头对所有前缀词元评分,降低为仅使用少数路由头进行评分,外加一个基于少量池化键计算的可忽略的路由项。我们还引入了MISA的分层变体,通过路由过程保留一个扩大的候选集,再使用原始DSA索引器对其进行重新排序,以近乎精确地恢复最终选定的词元。仅使用八个活跃头且无需额外训练,MISA在DeepSeek-V3.2和GLM-5的LongBench上均能与密集DSA索引器匹配,同时分别将索引器头数量减少八倍和四倍,且平均性能优于HISA。此外,MISA在高达128K词元的上下文中完全保留了绿色“大海捞针”热力图,每层可恢复DSA索引器所选词元的92%以上。我们的TileLang内核在单个NVIDIA H200 GPU上相比DSA原始索引器内核实现了约3.82倍的加速。
生成一致且连贯的长视频仍是一项基本挑战。现有方法在长时间跨度中容易出现语义漂移和叙事崩塌。我们提出A²RD,一种代理式自回归扩散架构,将创意生成与一致性保持解耦。A²RD将长视频合成构建为一个闭环过程,通过"检索—合成—精炼—更新"循环逐段合成并自我改进视频。它包含三个核心组件:(i)多模态视频记忆,跨模态追踪视频进展;(ii)自适应片段生成,在多种生成模式间切换以实现自然推进与视觉一致性;(iii)分层测试时自我改进,在帧级和视频级对每个片段进行自我修正,防止错误传播。我们进一步引入LVBench-C,一个具有非线性实体与环境转换的挑战性基准,用于严格测试长时一致性。在涵盖一分钟至十分钟视频的公开基准和LVBench-C上,A²RD在一致性上超越最先进基线高达30%,在叙事连贯性上超越20%。人工评估证实了这些提升,同时指出在运动与过渡平滑性方面的显著改进。
自蒸馏(Self-distillation, SD)为在不依赖更强外部教师模型的情况下适配大型语言模型(LLMs)提供了一条有前景的路径。然而,自回归LLM中的自蒸馏仍面临挑战,因为自生成轨迹具有自由形式,正确性依赖于任务,且看似合理的推理过程仍可能产生不稳定或不可靠的监督信号。现有方法主要考察孤立的设计选择,导致其有效性、作用及相互间的交互关系尚不清晰。为此,本文提出UniSD——一个用于系统研究自蒸馏的统一框架。UniSD整合了互补机制,以解决监督可靠性、表示对齐与训练稳定性问题,包括多教师一致性、EMA教师稳定化、token级对比学习、特征匹配以及散度裁剪。在六个基准测试、三个模型系列的六种模型上,UniSD揭示了自蒸馏何时优于静态模仿、哪些组件驱动性能提升,以及这些组件在不同任务中如何交互。基于这些洞见,我们构建了UniSDfull——一套集成了互补组件的完整流程,实现了最强的综合性能,相较基础模型提升+5.4个点,相较于最强基线提升+2.8个点。广泛的评估表明,自蒸馏是一种实用且可调控的方法,能够在无需更强外部教师的情况下高效适配LLM。
深度生成模型在文本与视觉领域取得了快速进展,催生了能够理解、推理并生成交错文本-图像序列的统一多模态系统。现有方法多将自回归语言建模与基于扩散的图像生成器结合,但这种方式继承了因果文本生成与迭代式视觉去噪之间的结构不匹配问题。我们观察到,自回归归一化流本质上就是自回归Transformer——共享相同的因果掩码、KV缓存机制和从左到右的结构——因此成为实现真正统一多模态生成的最自然范式。本文提出STARFlow2,基于Pretzel架构构建,该架构通过残差跳跃连接将预训练的视觉语言模型(VLM)流与TarFlow流垂直交错,二者均在同一因果掩码下运行。结合深浅流设计及统一的FAE潜在空间,STARFlow2实现了缓存友好的交错生成,文本和视觉输出可直接进入KV缓存而无需重新编码。实验表明,该方法在图像生成和多模态理解基准测试中均展现出强劲性能,验证了自回归流作为统一多模态建模可行基础的有效性。
基于扩散的模型将采样过程分解为许多小的高斯去噪步骤——当生成过程被压缩到少量粗略过渡时,这一假设便不再成立。现有的少步方法通过蒸馏、一致性训练或对抗目标来解决这一问题,但在此过程中牺牲了似然框架。我们提出了归一化轨迹模型(Normalizing Trajectory Models, NTM),该模型将每个反向步骤建模为具有精确似然训练的表达性条件归一化流。在架构上,NTM将每个步骤内的浅层可逆模块与跨轨迹的深层并行预测器相结合,形成一个端到端的网络,可从零开始训练,也可从预训练的流匹配模型初始化。其精确的轨迹似然进一步实现了自蒸馏:在模型自身分数上训练的轻量级去噪器可在四步内生成高质量样本。在文本到图像基准测试中,NTM仅需四个采样步骤即可匹配或超越强大的图像生成基线,同时独特地保留了生成轨迹上的精确似然。
检索增强生成(RAG)方法通过为大型语言模型(LLM)高效筛选相关上下文,有效减少了幻觉现象并降低了推理成本。然而,现有大多数RAG方法聚焦于单步检索,这在应对需要多步搜索的复杂问题时往往力不从心。近年来,多步检索方法逐渐兴起,通常涉及微调小型LLM以执行多步检索。此类微调资源消耗极高,且无法兼容更大规模的LLM使用。为此,我们提出Q-RAG——一种利用强化学习(RL)微调嵌入模型以实现多步检索的新颖方法。在开放域问答任务中,Q-RAG相较于现有其他多步检索方法提供了兼具竞争力与资源效率的替代方案,并在流行的长上下文基准测试BabiLong和RULER上(上下文长度达1000万token)取得了最先进水平。代码已开源:https://github.com/griver/Q-RAG
分词器是潜扩散模型的关键组成部分,它们定义了扩散模型运行的潜空间。然而,现有分词器主要侧重于提升重建保真度或继承预训练表示,尚不清楚何种潜空间真正有利于生成式建模。本文从潜流形组织的角度探究这一问题。通过构建可控的分词器变体,我们识别出扩散友好型潜流形的三个关键特性:连贯的空间结构、局部流形连续性以及全局流形语义。我们发现,这些特性相较于重建保真度与下游生成质量具有更强的一致性。基于此发现,我们提出了先验对齐自编码器(PAE),该方法通过显式塑造潜流形,而非依赖重建或继承间接形成扩散友好型流形。具体而言,PAE利用从视觉基础模型(VFM)中提取的精炼先验以及基于扰动的正则化,将空间结构、局部连续性和全局语义转化为显式训练目标。在ImageNet 256x256数据集上,PAE在训练效率和生成质量上均优于现有分词器,在相同训练设置下实现与RAE相当的性能,同时收敛速度提升高达13倍,并创下1.03的gFID新最优纪录。这些结果凸显了组织潜流形对于潜扩散模型的重要性。
人工智能向对话式聊天机器人界面快速趋同,标志着行业发展的关键转折点。本文认为,聊天机器人范式并非中立的界面选择,而是一种主导性的社会技术构造,其广泛采用正在重塑社会、经济、法律和环境系统。我们考察了将人工智能主要作为对话助手处理的广泛结构性缺陷,揭示基于聊天机器人的系统往往无法充分满足用户需求(尤其在复杂或高风险场景下),同时却表现出自信与权威。进一步分析表明,聊天机器人中介交互的常态化改变了工作、学习和决策模式,导致去技能化、知识同质化以及专业知识期望的转变。最后,我们审视了更广泛的社会影响,包括劳动力替代、经济权力集中,以及因持续投资大规模聊天机器人基础设施而加剧的环境成本。在承认合理益处的同时,我们认为当前人工智能发展轨迹反映了特定价值选择,即优先考虑对话通用性而非领域特异性、问责制及长期社会可持续性。本文最后提出超越"一刀切"聊天机器人的替代性人工智能发展路径和治理方向,强调多元化系统设计、任务导向型工具及制度保障,以减轻社会和经济危害。
尽管文本到图像模型在视觉逼真度方面取得了显著进展,但在忠实实现复杂视觉意图方面仍面临挑战,因为许多需求必须贯穿于基础理解、生成和验证的全过程。我们将这些需求称为**语义承诺**,并将其生命周期中的不连续性形式化为**概念鸿沟**——即承诺可能在局部被解析或检查,但无法作为同一操作单元在生成生命周期中始终可识别。为了解决这一问题,我们提出了**SCOPE**,一种规范引导的技能编排框架,该框架在动态演化的结构化规范中维护语义承诺,并针对未解决或违反的承诺条件性地调用检索、推理和修复技能。为了评估承诺级别的意图实现,我们引入了**Gen-Arena**,一个包含实体级和约束级规范的人工标注基准,以及**实体门控意图通过率(EGIP)**,一种严格的实体优先通过标准。SCOPE在Gen-Arena上显著优于所有基线方法,取得了0.60的EGIP,并在WISE-V(0.907)和MindBench(0.61)上取得强劲结果,证明了持久承诺追踪对复杂图像生成的有效性。
持续学习,特别是基于预训练模型(PTM)的类增量学习(CIL),近年来引起了广泛的研究兴趣。然而,如何在保持极长任务序列的稳定性与可塑性的同时,有效学习兼具判别性和全面性的特征表示,仍是一个未解决的问题。我们提出CaRE,一种可扩展的持续学习器,其核心是基于高效双级路由专家混合模型(BR-MoE)。BR-MoE的核心思想是一种双级路由机制:首先通过路由器选择阶段动态激活相关的任务特定路由器,随后通过专家路由阶段动态激活并聚合专家,旨在将判别性和全面性的表示注入每个中间网络层。另一方面,我们引入了一个具有挑战性的数据集OmniBenchmark-1K,用于评估包含数百个任务的极长任务序列上的CIL性能。大量实验表明,CaRE在多种数据集和任务设置(包括经典CIL设置下的常用CIL数据集,如5-20个任务)中均展现出领先性能。据我们所知,CaRE是首个能够扩展到极长任务序列(从100个到超过300个非重叠任务)的持续学习器,且在此类任务序列上大幅超越所有基线方法。我们希望这项工作能够激发对极长任务序列持续学习的进一步研究。代码和数据集已公开于https://github.com/LMMMEng/CaRE。
大语言模型智能体已演化为执行复杂任务的自主系统,其中SKILL.md规范已成为封装智能体能力的事实标准。然而,一个关键瓶颈依然存在:不同智能体框架对提示格式的敏感性存在显著差异,导致性能波动高达40%,而几乎所有技能仅以单一、格式无关的Markdown版本存在。人工跨平台重写带来了不可持续的维护负担,此前审计发现超过三分之一的社区技能包含安全漏洞。为此,我们提出SkCC——一个将经典编译器设计引入智能体技能开发的编译框架。其核心是SkIR——一种强类型中间表示——它将技能语义与平台特定格式解耦,支持在异构智能体框架间进行可移植部署。围绕此中间表示,编译时分析器在部署前通过反技能注入机制强制执行安全约束。通过四阶段流水线,SkCC将适配复杂度从O(m×n)降低到O(m+n)。在SkillsBench上的实验表明,编译后的技能在性能上始终优于原始版本,在Claude Code上将通过率从21.1%提升至33.3%,在Kimi CLI上从35.1%提升至48.7%,同时实现了低于10毫秒的编译延迟、94.8%的主动安全触发率,以及在各个平台上节省10%至46%的运行时令牌消耗。
准确理解语言、对话和写作背后的意图对于开发有用的大语言模型(LLM)助手至关重要。本文提出IntentGrasp,一个用于评估LLM意图理解能力的综合性基准数据集。该数据集源自49个高质量、开放许可的语料库,覆盖12个不同领域,通过源数据集整理、意图标签情境化和任务格式统一构建而成。IntentGrasp包含大规模训练集(262,759个实例)和两个评估集:包含12,909个测试用例的全量集,以及更均衡且更具挑战性的精选集(470个案例)。对7个系列20个LLM(包括GPT-5.4、Gemini-3.1-Pro和Claude-Opus-4.7等前沿模型)的广泛评估结果显示,模型表现不尽如人意——全量集得分低于60%,精选集低于25%。值得注意的是,20个测试模型中有17个在精选集上的表现低于随机猜测基线(15.2%),而预估的人类表现约为81.1%,这表明仍有显著的提升空间。为增强这种能力,本文提出意图微调(IFT)方法,即基于IntentGrasp训练集对模型进行微调,在全量集上实现30余个F1得分点的显著提升,在精选集上提升20余个得分点。值得注意的是,留一域(Lodo)实验进一步验证了IFT的强大跨域泛化能力,证明其是显著增强LLM意图理解能力的有效途径。总体而言,通过建立基准并提升意图理解能力,本研究为开发更具意图感知力、更强大且更安全的AI助手以造福人类社会开辟了光明前景。
最近的字节级语言模型在不依赖子词词汇表的情况下达到了与词元级模型相当的性能,但其实用性受到逐字节自回归生成速度缓慢的限制。我们通过字节潜在变换器中的新训练和生成技术解决了这一瓶颈。首先,我们引入了BLT扩散模型,这是一种新模型,也是我们最快的BLT变体,它通过辅助的块级扩散目标与标准的下一个字节预测损失联合训练。这使得推理过程能够在每个解码步骤中并行生成多个字节,显著减少了生成序列所需的前向传递次数。其次,我们提出了两种受推测性解码启发的扩展方法,以部分速度换取更高的生成质量:BLT自推测,即BLT的局部解码器继续生成超出其正常分块边界的草稿字节,然后通过单次完整模型前向传递进行验证;以及BLT扩散+验证,它在基于扩散的生成后增加一个自回归验证步骤,从而增强了BLT-D。所有方法在生成任务上的估计内存带宽成本可能比BLT低50%以上。每种方法都有其独特的优势,共同消除了字节级语言模型实际应用中的关键障碍。
基于大型语言模型(LLM)的智能体通过整合外部工具与规划能力,从根本上重塑了人工智能。尽管记忆机制已成为这些系统的架构基石,但当前研究仍零散分布,在操作系统工程与认知科学之间摇摆不定。这种理论割裂阻碍了对技术整合的统一认知与连贯演进视角的形成。为弥合这一鸿沟,本综述提出了一种面向LLM智能体记忆机制的新型演进框架,将发展过程形式化为三个阶段:存储(轨迹保留)、反思(轨迹精炼)与经验(轨迹抽象)。我们首先正式定义这三个阶段,继而分析驱动此演进的三大核心要素:长程一致性的必要性、动态环境中的挑战,以及持续学习的终极目标。此外,我们重点探讨前沿"经验"阶段中的两种变革性机制:主动探索与跨轨迹抽象。通过综合这些不同观点,本研究为下一代LLM智能体的开发提供了坚实的设计原则与清晰的路线图。
开源模型生态系统如今包含数十万个预训练模型,然而为新数据集挑选最佳模型变得越来越不可行:新模型和未经基准测试的数据集不断涌现,导致实践者在这两方面都缺乏先验记录。现有方法仅能处理这种野外场景的片段:自动机器学习和可迁移性估计从预定义的小型池中选择模型,或需要在目标数据集上进行昂贵的逐模型前向传播,而模型路由则预设了一个给定的候选池。我们提出ModelLens,一个用于野外模型推荐的统一框架。我们的关键洞察是:公开排行榜上的交互数据,尽管分散且嘈杂,却共同勾勒出跨异构评估设置的模型能力隐含图谱,这一信号足够丰富,可以直接从中学习。通过学习模型-数据集-指标三元组的性能感知潜在空间,ModelLens能够在无需在目标数据集上运行候选模型的情况下,对未见过的模型在未见过的数据集上进行排名。在一个包含162万条评估记录、涵盖4.7万个模型和9600个数据集的新基准上,ModelLens超越了那些仅依赖元数据或需要在目标数据集上运行每个候选模型的基线方法。其推荐的Top-K池进一步将多个代表性路由方法在多种问答基准上的性能提升高达81%。对近期发布基准的案例研究进一步证实了其对文本和视觉-语言任务的泛化能力。
现有的多模态智能体搜索基准主要评估多模态搜索和视觉浏览能力,但视觉证据要么局限于输入阶段,要么被视为答案终点,而非交织搜索轨迹的一部分。为此,我们提出InterLV-Search基准,用于评估交织语言-视觉智能体搜索任务,其中文本与视觉证据被反复用于后续搜索条件的设定。该基准包含2061个样本,覆盖三个层级:主动视觉证据检索、受控离线交织多模态搜索、开放网络交织多模态搜索。与现有基准相比,它还包含多模态多分支样本,需在证据搜索过程中对多个实体进行对比。我们通过自动化流水线构建第一、第二层级,并通过机器主导、人工监督的开放网络流水线构建第三层级。此外,我们提供InterLV-Agent用于标准化工具使用、轨迹记录及评估。针对专有与开源多模态智能体的实验表明,当前系统远未解决交织多模态搜索问题——最佳模型总体准确率低于50%,凸显出视觉证据检索、搜索控制及多模态证据整合方面的挑战。我们已在https://github.com/hbhalpha/InterLV-Search-Bench发布基准数据与评估代码。
线性注意力(LA)通过避免自注意力机制的二次复杂度,为扩展大语言模型(LLMs)处理长序列提供了有前景的范式。近期如Mamba2和GDN等线性注意力模型将线性递归解释为封闭形式的在线随机梯度下降(SGD),但朴素SGD更新存在信息快速衰减和优化收敛性不佳的问题。虽然基于动量的优化器提供了自然解决方案,但它们在同时实现训练效率和有效性方面面临挑战。为此,我们通过几何重排序更新系数,为线性注意力设计了一种带逐步动量规则的块级并行算法。进一步地,从动力系统视角,我们将基于动量的递归分析为引入复共轭特征值的二阶系统。该分析指导了稳定门控约束的设计。由此产生的Momentum DeltaNet(MDN)模型利用Triton内核实现与Mamba2、KDA等竞争性线性模型相当的训练吞吐量。在400M和1.3B参数模型上的大量实验表明,相较于包括Transformer、Mamba2和GDN在内的强基线模型,该模型在多种下游评估基准中均取得了一致的性能提升。代码:https://github.com/HuuYuLong/MomentumDeltaNet。
现代传感器能够生成丰富且高保真的数据,然而在可穿戴或遥感设备上运行的应用程序仍受限于带宽和功耗预算。JPEG和MPEG等标准化编解码器实现了码率与感知质量之间的高效权衡,但其设计针对人类感知,限制了它们在机器感知任务及非传统模态(如空间音频阵列、高光谱图像和三维医学图像)中的适用性。基于标量量化或分辨率降低的通用压缩方案虽适用范围广泛,却未能利用信号固有的冗余性,导致率失真性能欠佳。近期提出的生成式神经编解码器(即分词器)能够建模复杂的信号依赖关系,但往往存在参数过多、数据需求量大且模态特定等缺陷,使其难以在资源受限环境中实际应用。我们提出了一种轻量、通用且非对称的神经编解码器架构(LiVeAction),通过两个关键思想来应对上述局限:(1)为降低编码器复杂度以适应执行环境的资源约束,我们引入类FFT结构,并缩减基于神经网络的分析变换的总体规模与深度;(2)为实现任意信号模态并简化训练过程,我们采用基于方差的率惩罚替代对抗性损失与感知损失。我们的设计所生成的编解码器相比最先进的生成式分词器能够提供更优的率失真性能,同时仍适用于低功耗传感器的实际部署。我们已在https://github.com/UT-SysML/liveaction上发布了相关代码、实验内容及Python库。
强化学习系统依赖于指定观测与奖励函数的环境接口,但为新任务构建这些接口通常需要大量人工努力。尽管近期研究利用大型语言模型实现了奖励设计自动化,但这些方法假设观测固定,未能解决合成完整任务接口这一更广泛挑战。本文研究从原始仿真器状态发现强化学习任务接口的问题——其中观测映射与奖励函数均需生成。我们提出LIMEN(代码详见https://github.com/Lossfunk/LIMEN),一种基于大型语言模型引导的进化框架,将候选接口生成为可执行程序,并利用策略训练反馈对其进行迭代优化。在涵盖离散网格世界新任务以及运动与操控的连续控制领域实验中,针对观测与奖励的联合进化能够仅凭轨迹级成功度量发现有效接口,而单独优化任意单一组件均会在至少一个领域失败。这些结果表明,从原始状态自动构建强化学习接口可大幅减少人工工程,且观测与奖励组件往往受益于协同设计——因单组件优化会在我们评估套件中的至少一个领域遭遇灾难性失败。
理解决策区域的拓扑结构对于解释深度神经网络的内部工作原理至关重要。前期实验研究表明这些区域具有路径连通性。本文进一步探究一个更强的拓扑问题:决策区域内的闭合环路能否在不离开该区域的情况下持续收缩。为此,我们提出了一种迭代四边形网格填充方法,该方法可构造出以给定环路为边界的有限分辨率标签保持曲面,且该曲面完全位于同一决策区域内。我们进一步将该构造与自然Coons曲面片建立关联,以量化其与环路标准几何插值的偏差。通过在多个现代图像分类模型上评估该方法,我们获得了支持以下假设的实验证据:深度神经网络中的决策区域不仅具有路径连通性,而且具有单连通性。
统一多模态模型被设想为弥合理解与生成之间的鸿沟。然而,为达到具有竞争力的性能,当前最先进的模型大多采用理解与生成高度解耦的设计。这种设计虽有利于个体任务,却削弱了二者相互促进所需的联结,使得潜在协同效应在实证上仍不明确。我们提出通过引入理解导向后训练(UNO)这一轻量级框架来显式恢复这种协同——该框架不仅将理解视为独立任务,更将其作为直接监督信号来引导生成表征。通过纳入编码语义抽象(描述生成)与结构细节(视觉回归)的目标,我们使理解到生成的有效梯度流成为可能。在图像生成与编辑任务上的大量实验表明,理解可有效催化生成过程。
推测解码通过起草一个候选续写树并在一次目标前向中验证来加速大语言模型推理。现有起草器分为两派,各有相反弱点。自回归式起草器(如EAGLE-3)沿每条起草路径保持依赖关系,但每个树深度调用一次起草器,导致起草占每次迭代延迟的显著部分。并行起草器通过一次前向预测多个未来位置来减少起草器调用,但每个位置预测时未考虑其他位置,生成的路径会被验证器拒绝。本文提出SpecBlock,一种将路径依赖性与低成本起草相结合的块迭代起草器。每次起草器前向产生K个依赖位置,我们称之为一个块。通过重复块扩展生成起草树。两种机制显式地携带路径依赖性以保持后续起草位置的准确性。在每个块内,层间偏移将前一位置的隐藏状态传递到每个解码器层。跨块时,每个新块可从上一块的任意位置开始,继承其隐藏状态以扩展路径。为了将验证器预算花在更可能被接受的位置上,一个联合训练的排名头取代固定top-k树,在起草过程中按位置分配分支。为了避免在推理中从未出现的词缀上训练起草器,一个有效词缀掩码会在早期位置出错时丢弃后续位置的损失。除了静态起草外,部署时的一个成本感知bandit利用免费验证器反馈有选择性地更新起草器,仅当预期吞吐量增益超过更新成本时才进行更新。实验表明,SpecBlock在起草成本仅为EAGLE-3的44-52%时,平均加速比提升8-13%,而成本感知自适应将该优势扩展到11-19%。
持续葡萄糖监测(CGM)可检测早期代谢亚表型(胰岛素抵抗、β细胞功能障碍),但大规模人群部署面临两个耦合问题。首先,同一生理状态可通过多种视图呈现(CGM时间序列、静脉OGTT、葡萄糖密度摘要),当部署场景改变模态或环境时,单视图表征将无法迁移。其次,基线方法在这些场景变化下表现不一致。这两个问题指向同一解决方案:构建能脱离单一视图、捕获更高层次时间与分布结构的表征。我们提出CGM-JEPA,一种自监督预训练框架,通过预测掩码潜在表征而非原始数值,实现跨模态迁移的表征抽象。X-CGM-JEPA进一步引入掩码葡萄糖密度跨视图目标,以获取互补的分布信息。我们在228名受试者的sim389k未标注CGM数据上预训练,并在两个临床队列(N=27与N=17公共发布子集)上,通过20次迭代×2折交叉验证评估三种场景(队列泛化、静脉转CGM迁移、家庭CGM)。X-CGM-JEPA在所有三种场景中针对两个结局指标的AUROC均位列第一或第二,而其他基线均未实现,相比最强基线在队列泛化中提升+6.5个百分点,在静脉转CGM迁移中提升+3.6个百分点(配对Wilcoxon检验,p<0.001)。在模态迁移下,该模型在保持平均AUROC的同时,将性能向弱势亚组重新分配(种族AUROC差距缩小25-54%);在稀疏的域内静脉数据上,分布视图提升了标签感知聚类性能(ARI +39%,NMI +40%)。代码与权重:https://github.com/cruiseresearchgroup/CGM-JEPA
大型语言模型(LLM)代理现能执行涉及工具使用的长周期任务,而最终结果检查往往为时已晚,难以实施干预。在线预警需要针对异构轨迹部署轻量级前缀监控器,但手动编写的事件模式脆弱且部署时由LLM判定的成本高昂。我们提出PrefixGuard——一种轨迹到监控器的框架,包含离线StepView归纳步骤及后续的监督式监控器训练。StepView从原始轨迹样本中归纳出确定性的类型化步骤适配器,监控器则从终端结果中学习事件抽象与前缀风险评分。在WebArena、τ²-Bench、SkillsBench和TerminalBench上,最强PrefixGuard监控器的AUPRC分别达到0.900/0.710/0.533/0.557。采用各表示框架中最强的后端模型时,相比原始文本基线平均提升+0.137 AUPRC。在同一前缀预警协议下,LLM判别器表现仍显著较弱。我们还推导出基于评分的精确率-召回率曲线下面积(AUPRC)可观测性上限,该上限将监控器误差与因观测前缀缺乏证据导致的失败相分离。针对有限状态审计,事后确定的确定性有限自动机(DFA)提取在WebArena和τ²-Bench上保持紧凑(29和20个状态),但在SkillsBench和TerminalBench上扩展至151和187个状态。最后,首次告警诊断表明,强排序并不等同于部署实用性:WebArena排名虽高却难以支持低虚警率告警,而τ²-Bench和TerminalBench则保留了更多可操作的早期告警。综合而言,这些结果将PrefixGuard定位为实用的监控器合成方案,并附有明确诊断方法,以判断前缀预警何时能转化为可操作的干预措施。
关于AI代理经济学的一个自然直觉是,由于代理可以以极低的边际成本复制,当代理劳动与人类劳动高度替代时,其供给可能极具弹性,从而对认知劳动工资产生下行压力。我们认为这一框架在机制上存在错误,但结论部分正确,且纠正这一偏差对理论与政策均具有重要意义。代理并非劳动力,而是将算力资本K_c转化为有效认知劳动单位L_A的生产技术。一旦认识到这一点,锚定均衡工资的弹性供给边际便从劳动力市场转移至算力资本市场。基于经典要素定价框架mankiw2020,我们推导出算力锚定工资(CAW)约束:在人类与代理生产的认知劳动可相互替代的任务中,竞争性人类工资的上界为λ·k·r_c,其中r_c为算力资本的租赁价格,k为生产一个有效代理认知劳动单位所需的算力强度,λ为人类与代理的相对生产率。我们通过常替代弹性(CES)聚合方法推广该结论,区分可替代任务与互补任务,并探讨要素份额的影响。结论简洁明确:认知劳动的定价者已不再是劳动力市场。
快速权重编程器(FWP)通过动态更新的参数而非循环隐状态来编码时间依赖性。量子FWP(QFWP)利用变分量子电路(VQC)扩展了这一思想,但现有实现依赖于多量子比特架构,这类架构在含噪中等规模量子(NISQ)设备上难以扩展,且经典模拟成本高昂。我们提出门控QKAN-FWP,这是一种将FWP与量子启发式科尔莫戈罗夫-阿诺德网络(QKAN)相结合的快权重框架,采用单量子比特数据重上传电路作为可学习非线性激活,即数据重上传激活(DARUAN)。我们进一步引入标量门控快速权重更新规则,该规则通过对其自适应记忆核、几何有界性及可并行梯度路径的理论分析,稳定了参数演化。我们在时间序列基准、MiniGrid强化学习上评估该框架,并以实际太阳周期预测作为主要实践成果进行重点展示。在528个月输入窗口和132个月预测范围的长时域场景中,我们仅含12.5k参数的模型在尺度化均方误差(MSE)、峰值幅度误差和峰值时序误差上均优于一系列参数多出13倍的经典循环基线模型,这些基线包括长短期记忆(LSTM)网络(25.9k-89.1k参数)、WaveNet-LSTM(167k参数)、经典循环神经网络(11.5k参数)以及改进型回声状态网络(132k参数)。为验证NISQ兼容性,我们进一步将训练好的快速编程器部署至IonQ和IBM量子处理器上,在1024次采样下,预测精度恢复至无噪声模拟器的相对MSE的0.1%以内。这些结果将门控QKAN-FWP定位为一种可扩展、参数高效且与NISQ兼容的量子启发式序列建模方法。
强化学习已成为提升大型语言模型推理能力的标准方法,但越来越多证据表明,RL并未教授新策略,而是将概率质量重新分配至基础模型已包含的解决方案中。本研究提出疑问:若RL仅是将模型导向其已知路径,那么RL优化循环本身是否必要?通过跨多个模型家族和RL算法的词元级分析,我们发现RL的有益影响是一种稀疏且可预测的修正,集中于模型对分支选择不确定的高熵决策点。仅1%-3%的词元位置受到影响,被提升的词元始终位于基础模型前5个备选方案内,且在这些少数位置进行定向修正可因果性地恢复RL大部分精度增益,而随机修正则无效。基础模型自身的熵值可在无任何RL训练模型的情况下识别这些位置,整个修正过程呈低维特性,仅需极小比例的模型参数即可表征。这些发现将推理改进重新定义为稀疏策略选择而非能力获取。我们将这一洞见转化为ReasonMaxxer方法——一种极简的免RL方法,仅对熵门控决策点应用对比损失,基于数百次基础模型采样且无需在线生成。在三个模型家族、六种规模及六个数学推理基准测试中,ReasonMaxxer匹配或超越完整RL性能,同时仅需数十个问题及单GPU数分钟训练,训练成本降低约三个数量级。
大型语言模型(LLMs)已成为现代人工智能的核心基础,但其生命周期仍受限于训练与部署的严格分离——部署后学习行为实际上便停止了。这一局限性与其持续通过环境交互进行适应的自然智能形成鲜明对比。本文形式化定义了"部署时学习"(DTL)作为LLM生命周期的第三阶段,使LLM智能体在部署过程中无需修改模型参数即可通过经验持续改进。我们提出CASCADE(基于案例的持续部署适应)框架——一种通用且规范的方法,为LLM智能体配备显式演进的场景记忆。CASCADE将经验复用建模为上下文赌博机问题,实现原则性的探索-利用权衡,并建立长期交互中的无遗憾保证。该设计使智能体能够积累、选择并优化任务相关案例,将过往经验转化为可执行知识。在涵盖医疗诊断、法律分析、代码生成、网络搜索、工具使用及具身交互的16项多样化任务中,CASCADE相较零样本提示将宏平均成功率提升20.9%,且持续优于基于梯度与基于记忆的基线方法。通过将部署重新定义为适应性学习过程,本研究为持续改进的人工智能系统奠定基础。
图像描述是计算机视觉中最基础的任务之一。因其具有开放式的特性,在多模态大语言模型时代受到了广泛关注。为了追求更详细、更准确的描述,近期研究越来越多地转向强化学习方法。然而,现有的描述生成强化学习方法及评估指标往往强调描述质量的单一维度,导致描述核心维度之间存在相互权衡。例如,以实用性为导向的目标可能会鼓励生成带有噪声、幻觉或过长的描述,从而提升下游问答任务的表现,却损害了流畅性;而以竞技场为导向的目标则可能倾向于生成流畅但通用性较强、实用性有限的描述。为解决这一问题,我们提出了一种更均衡的强化学习框架,该框架共同优化了基于实用性的正确性、参考描述的覆盖度以及语言质量。为了有效优化由此产生的连续多目标奖励形式,我们应用了基于GDPO风格的奖励解耦归一化方法处理连续值的描述奖励,并证明该方法优于原始GRPO方法。此外,我们引入了基于长度的条件奖励掩码,为描述生成提供了更合适的长度惩罚机制。在LLaVA-1.5-7B和Qwen2.5-VL 3B及7B基础模型上,我们的方法持续提升了描述质量,在不同模型上分别获得了最高+13.6的DCScore、+9.0的CaptionQA和+29.0的CapArena提升。
世界模型通过观察和动作预测未来状态的变化。现有工作主要集中于图像生成。相比之下,基于视觉特征的世界模型预测未来视觉特征而非原始视频像素,提供了一种更高效且不易产生幻觉的替代方案。然而,当前基于特征的方法依赖直接回归,这会导致在复杂交互中产生模糊或崩溃的预测,而在高维特征空间中进行生成建模仍然具有挑战性。在本工作中,我们发现一种新型潜在动作表示——我们称之为**残差潜在动作**(Residual Latent Action, RLA)——可以轻松地从DINO残差中学习得到。我们还证明RLA具有预测性、可泛化性,并能编码时间进程。基于RLA,我们提出**RLA世界模型**(RLA-WM),该模型通过流匹配预测RLA值。RLA-WM在仿真和真实世界数据集上均优于最先进的基于特征的世界模型和视频扩散世界模型,同时速度比视频扩散快数个数量级。此外,我们开发了两种利用RLA-WM改进策略学习的机器人技术。第一种是使用RLA的最小化世界动作模型,可从无动作演示视频中学习。第二种是首个完全在仅由离线视频学习的世界模型内部训练的视觉强化学习框架,使用视频对齐的奖励,无需在线交互或手工设计的奖励。项目页面:https://mlzxy.github.io/rla-wm
域泛化(DG)旨在学习在分布外(OOD)偏移下保持鲁棒性且能有效泛化至未见目标域的表示。尽管近期的不变学习策略与架构进展已取得优异性能,但通过二阶统计量显式发现结构化域不变子空间的方法仍鲜有探索。本研究提出CPCANet,一种基于公共主成分分析(CPCA)的新型框架,通过将迭代式Flury-Gautschi(FG)算法展开为完全可微的神经层,将CPCA的统计特性融入端到端可训练框架,在保持可解释性的同时强制发现跨多样域的共享子空间。在四个标准DG基准上的实验表明,CPCANet在零样本迁移中达到了最优(SOTA)性能。此外,CPCANet架构无关且无需针对数据集进行特定调参,为学习分布偏移下的鲁棒表示提供了简洁高效的方案。代码开源地址:https://github.com/wish44165/CPCANet。
视觉-语言模型(VLM)近年来发展迅速,尤其在基于智能体的系统兴起后,被越来越多地部署于实际应用场景中。然而,其安全性问题受到的关注相对有限。即便是最新的专有模型和开源权重VLM,仍极易受到对抗攻击的影响,导致下游应用面临显著风险。本文提出一种基于稀疏自编码器(SAE)的新型轻量级对抗攻击检测框架,命名为SAEgis。通过将SAE模块插入预训练VLM,并采用标准重构目标进行训练,我们发现学习到的稀疏潜在特征能够自然捕捉攻击相关信号。这些特征使模型能够可靠地判断输入图像是否受到对抗扰动——即使对于未见过的样本也是如此。大量实验表明,SAEgis在域内、跨域和跨攻击场景下均表现出色,尤其在跨域泛化方面相较于现有基线方法提升显著。此外,融合多层信号进一步增强了检测的鲁棒性和稳定性。据我们所知,这是首次探索将SAE作为即插即用机制用于VLM对抗攻击检测的工作。该方法无需额外对抗训练,引入的额外开销极低,为提升实际VLM系统的安全性提供了一种实用途径。
在线蒸馏(OPD)是一种强大的模型对齐范式,但其对教师logits的依赖限制了它在白盒场景中的应用。我们认为结构化语义评分标准可以替代教师logits,从而实现仅依赖教师生成响应的可扩展在线蒸馏。为证明这一点,我们提出了ROPD——一种基于评分标准的在线蒸馏的简洁且基础性框架。具体而言,ROPD通过师生对比诱导出提示相关的评分标准,进而利用这些评分标准对学生模型的生成结果进行评分,以实现在线策略优化。实验结果表明,ROPD在大多数场景下超越了先进的基于logits的在线蒸馏方法,且样本效率提升高达10倍。这些结果将基于评分标准的在线蒸馏确立为一种灵活且兼容黑盒的替代方案,可替代主流的基于logits的在线蒸馏,为在闭源和开源大语言模型间的可扩展蒸馏提供了简洁而强大的基准方法。代码已开源:https://github.com/Peregrine123/ROPD_official。
现代文本到SQL系统生成多个候选SQL查询并对其排序以确定最终预测结果。然而,现有方法存在两个局限性。首先,对于功能等价的SQL查询,即使执行结果完全相同,其评分也往往不一致。其次,当候选池中缺失正确的SQL语句时,排序策略无法恢复正确结果。我们提出R^3-SQL框架,通过统一奖励机制同时解决排序与重采样这两个问题。R^3-SQL首先根据执行结果对候选查询进行分组,并对组别进行一致性排序。为评估每组质量,该方法融合了跨组的成对偏好与最优组排名、组规模所体现的点态效用,从而捕捉相对偏好、一致性与候选质量。为提升候选召回率,R^3-SQL引入智能体重采样机制:评估已生成的候选池,并在正确SQL可能缺失时选择性重采样。R^3-SQL在BIRD-dev上达到75.03%的执行准确率,成为采用公开规模模型方法中的新标杆,且在五个基准测试中均取得稳定性能提升。
大型语言模型已成为进化搜索的驱动力,但大多数系统依赖固定且由提示引导的策略来采样下一个候选方案。这限制了在实际工程和研究任务中的适应性——这些任务中评估成本高昂,且进展依赖于学习任务特定的搜索动态。我们提出PACEvolve++,一种基于顾问模型强化学习的框架,用于进化搜索代理的测试时策略适应。PACEvolve++将战略搜索决策与实现解耦:可训练的顾问生成、评估并筛选假设,而更强的前沿模型将筛选出的假设转化为可执行的候选方案。为在非平稳反馈下训练顾问,我们提出一种相位自适应方法,根据进化过程的不同阶段调整优化策略。进化初期,利用群体相对反馈学习广泛的搜索偏好;后期,当奖励差距收窄时,则强调k中最佳前沿贡献以支持稳定优化。在专家并行负载均衡、序列推荐和蛋白质适应性外推任务中,PACEvolve++优于采用前沿模型的最新进化搜索框架,实现了更快的收敛速度,并在进化搜索过程中稳定了测试时训练。
在仅解码器语言模型中进行长上下文推理成本高昂,因为长提示在预填充阶段被处理,在每一层进行缓存,并在自回归解码阶段被反复关注。我们提出浅层预填充、深度解码(SPEED)方法,这是一种阶段不对称的 KV 可见性策略,仅在下层实例化非锚定提示令牌的 KV 状态,同时保持解码阶段令牌的全深度。与以往使上层提示 KV 状态更易存储或构建的方法不同,SPEED 完全将预填充令牌从上层解码可见性集合中移除。借助一个最小的序列开始锚点,这一简单改动在降低长上下文成本的同时,保持了广泛的基准测试质量。在受控的 Llama-3.1-8B 指令微调研究中,SPEED 仅使用 75% 的层来容纳预填充令牌,在 OLMES 风格基准测试上取得了 51.2 的平均分,而全深度基线为 51.4,同时将首次令牌生成时间降低了 33%,每输出令牌时间降低了 22%,并在 128K 上下文下将活跃 KV 内存减少了 25.0%。逐层诊断表明,这种截断保留了全深度模型的主要提示选择区域和表示稳定化区域。这些结果表明,当解码阶段令牌保持全深度时,长上下文提示令牌无需始终作为全深度 KV 缓存对象持久存在。
基于范例的图像编辑方法通过源-目标图像对定义的变换作用于新的查询图像。现有方法依赖双配对监督范式,需要两对共享相同编辑语义的图像对来学习目标变换。这一约束导致训练数据难以大规模构建,且限制了模型在不同编辑类型间的泛化能力。我们提出Delta-Adapter方法,在单配对监督下学习可迁移的编辑语义,无需任何文本引导。该方法并非直接将范例对暴露给模型,而是利用预训练视觉编码器提取编码两幅图像间视觉变换的语义差异量(semantic delta)。通过基于感知器的适配器将该语义差异量注入预训练图像编辑模型。由于目标图像对模型始终不可见,它可作为预测目标,从而实现无需额外范例对的单配对监督。这种设计使我们能够利用现有大规模编辑数据集进行训练。为进一步促进变换的忠实迁移,我们引入语义差异一致性损失,确保生成输出的语义变化与从范例对中提取的真实语义差异量保持一致。大量实验表明,Delta-Adapter在四个强基线方法的基础上,持续提升了已知编辑任务的编辑准确性与内容一致性,同时在未见编辑任务上展现出更优的泛化能力。代码将发布于https://delta-adapter.github.io。
离散流匹配通过将噪声标记逐步转化为连贯语言来生成文本,但可能需要数百次前向传递。蒸馏利用多步轨迹训练学生模型,使其在少量步骤中复现该过程。当学生模型表现不佳时,通常的解释是容量不足。我们持相反观点:瓶颈在于轨迹,而非学生模型。每条训练轨迹通过一系列盲目的随机跳跃构建而成,且未对序列质量进行评估;早期中间步骤的一个错误决策会传播到后续步骤,而学生模型却必须模仿这一结果。轨迹塑造离散流匹配(TS-DFM)用引导式导航取代了这些盲目跳跃:一个轻量级能量指南针在每个中间步骤评估候选续接方案,选择最连贯的路径。所有塑造过程仅在训练阶段进行,推理成本保持不变。在170M参数的语言建模任务中,经过塑造的学生模型在8步内实现了比1024步教师模型低32%的困惑度,同时速度提升128倍,且这一优势在多种源分布及三种规模递增的评估器上保持一致。TS-DFM在我们对比的所有离散生成基线中取得了最佳困惑度,包括那些在6倍数据量或使用5倍模型规模上训练的方法。