每日精选AI研究论文及翻译
尽管基于语言模型的自主AI科学家发展迅猛,但生成可直接发表的学术插图仍是研究流程中劳动密集型的瓶颈环节。为减轻这一负担,我们推出PaperBanana——一个用于自动生成出版级学术插图的智能体框架。该框架依托前沿视觉语言模型与图像生成技术,通过协调专业化智能体实现参考文献检索、内容风格规划、图像渲染及基于自我批判的迭代优化。为系统评估框架性能,我们构建了包含292个测试案例的PaperBananaBench评估集,这些案例源自NeurIPS 2025会议论文的方法论图示,覆盖多研究领域与插图风格。综合实验表明,PaperBanana在忠实度、简洁性、可读性与美学品质上持续超越主流基线方法。我们进一步证明该方法可有效扩展至高质量统计图表的生成。总体而言,PaperBanana为出版级插图的自动化生成开辟了新路径。
可验证奖励强化学习(RLVR)已成为解锁大语言模型复杂推理能力的关键技术。然而,现有可验证数据的匮乏制约了RL的扩展能力,导致模型在长期训练中改进效果逐渐饱和。为突破此瓶颈,我们提出"金鹅"策略——通过构建填空任务的多选题版本,从不可验证的网络文本中合成无限RLVR任务的简易方法。给定源文本,我们引导大语言模型识别并掩码关键推理步骤,继而生成多样化的合理干扰项。该方法使我们能利用通常被传统RLVR数据构建排除在外的、富含推理的不可验证语料(如科学教材),合成包含逾70万个任务的GooseReason-0.7M大规模RLVR数据集,覆盖数学、编程与通用科学领域。实验表明,GooseReason能有效激活已饱和的RLVR模型,在持续强化学习中实现稳健的持续增益,使15亿和40亿参数指令模型在15个多样化基准测试中刷新最优结果。最终,我们将"金鹅"部署于真实网络安防场景:从原始FineWeb抓取数据中合成该领域RLVR任务——此前该领域完全缺乏RLVR数据。基于合成数据GooseReason-Cyber训练Qwen3-40亿指令模型后,其在网络安全领域表现超越经过大量领域专用预训练与后训练的70亿参数专业模型,创下新纪录。这彰显了通过开发海量富含推理的不可验证网络文本,自动扩展RLVR数据的巨大潜力。
大型语言模型(LLMs)作为工具增强型智能体正日益广泛应用于多步骤决策任务,但训练稳健的工具使用智能体仍具挑战性。现有方法仍需人工干预,依赖不可验证的模拟环境,仅采用监督微调(SFT)或强化学习(RL)单一范式,且难以实现稳定的长周期多轮次学习。为应对这些挑战,我们提出ASTRA框架——通过可扩展数据合成与可验证强化学习,实现工具增强型语言模型智能体全自动端到端训练。ASTRA集成两大互补组件:首先,基于工具调用图静态拓扑结构的数据流水线可合成多样化、结构化的轨迹序列,从而培养广泛可迁移的工具使用能力;其次,通过捕捉人类语义推理的丰富组合拓扑,环境合成框架将分解后的问答轨迹转化为独立、可代码执行且规则可验证的环境,实现确定性多轮次强化学习。基于该方法,我们开发了统一训练方案:利用轨迹级奖励整合SFT与在线RL,平衡任务完成度与交互效率。在多个工具使用基准测试中,ASTRA训练的模型在同等规模下达到最先进性能,在保持核心推理能力的同时逼近闭源系统水平。我们已开源完整流水线、环境配置及训练模型:https://github.com/LianjiaTech/astra。
NVIDIA Blackwell GPU硬件支持的NVFP4低精度格式,首次有望实现大语言模型等海量参数的端到端全量化预训练。然而,现有量化训练方法仍会牺牲该格式的部分表示能力,以通过随机舍入(SR)获得更准确的无偏量化梯度估计,导致其精度较标准FP16和FP8训练存在明显差距。本文通过一种名为MS-EDEN的新型微尺度格式无偏量化方案改进了NVFP4量化训练的技术水平,该方案的量化误差比SR低2倍以上。我们将其集成到名为Quartet II的新型全NVFP4线性层量化方案中,通过理论分析证明Quartet II在正向和反向传播的所有主要矩阵乘法运算中均能实现更优的梯度估计。此外,我们的方案与近期针对NVFP4的训练优化技术形成良好协同。我们在38B token数据上对最高19亿参数的LLM进行端到端训练,进一步验证了Quartet II的有效性。我们提供的内核可在NVIDIA Blackwell GPU上运行,相比BF16实现最高4.2倍加速。代码已开源:https://github.com/IST-DASLab/Quartet-II。
大型推理模型(LRMs)通过强化学习在推理任务上生成长链思维推理,取得了显著性能。然而这种过度优化往往优先满足指令遵循性,使模型易受恶意提示的影响。为缓解这种安全性退化,现有方法依赖外部教师蒸馏,但这会引入分布差异从而损害原始推理能力。我们提出ThinkSafe框架,通过自生成对齐机制在无需外部教师的情况下恢复安全对齐。核心洞见在于:尽管指令遵循会抑制安全机制,模型通常仍保留识别危害的潜在知识。ThinkSafe通过轻量级拒绝引导解锁这种知识,指导模型生成分布内的安全推理轨迹。基于这些自生成响应的微调能有效重校准模型,同时最小化分布偏移。在DeepSeek-R1-Distill和Qwen3上的实验表明,ThinkSafe在保持推理能力的同时显著提升安全性。值得注意的是,该方法以显著降低的计算成本实现了优于GRPO的安全性和相当的推理性能。代码、模型及数据集详见https://github.com/seanie12/ThinkSafe.git。
尽管思维链(CoT)显著提升了大型语言模型(LLM)的性能,但显式推理链会引入大量计算冗余。近期潜在推理方法试图通过将推理过程压缩至隐空间来缓解该问题,但因缺乏合适的压缩指导往往导致性能严重下降。本研究提出渲染式CoT引导变分潜在推理(ReGuLaR),通过一种简洁而新颖的隐式学习范式解决此问题。本质上,我们在变分自编码器(VAE)框架内构建潜在推理模型,从基于先前状态的后验分布中采样当前潜在推理状态。具体而言,在学习该变分潜在推理模型时,我们将显式推理链渲染为图像,并从中提取稠密的视觉语义表征以正则化后验分布,从而实现高效压缩并最小化信息损失。大量实验表明,ReGuLaR在计算效率与推理效能上均显著优于现有潜在推理方法,甚至通过多模态推理超越CoT,为潜在推理提供了具有洞察力的全新解决方案。代码地址:https://github.com/FanmengWang/ReGuLaR。
测试时训练为提升大语言模型的推理能力提供了一条前景广阔的路径——仅利用测试题目即可实现模型自适应。然而现有方法在处理复杂推理问题时面临双重挑战:原始测试题目往往因难度过高而难以生成高质量伪标签,且有限测试集规模使得持续在线更新易出现不稳定。为突破这些局限,我们提出TTCS——一种协同演化的测试时训练框架。具体而言,TTCS从同一预训练模型初始化两个策略:题目生成器与推理求解器。二者通过迭代优化实现协同进化:生成器基于测试题目生成难度渐进的变体,构建贴合求解器当前能力的结构化课程;求解器则通过在原始测试题与合成题上采样多组回答并计算自洽奖励来实现自我更新。关键机制在于:求解器的反馈会引导生成器产出与模型当前能力匹配的题目,而生成的题目变体又反过来稳定求解器的测试时训练。实验表明,TTCS能持续增强模型在复杂数学基准上的推理能力,并可迁移至不同大语言模型骨干的通用领域任务,为动态构建自进化的测试时课程开辟了可扩展路径。代码与实现细节详见https://github.com/XMUDeepLIT/TTCS。
本研究指出,视频世界建模与视觉语言预训练相结合,为机器人学习建立了全新且独立的基础。直观而言,视频世界模型通过理解动作与视觉动态之间的因果关系,赋予了预测近期未来的能力。受此启发,我们提出LingBot-VA——一种同时学习帧预测与策略执行的自回归扩散框架。该模型具有三项精心设计:(1)基于混合专家Transformer架构的共享潜空间,可融合视觉与动作表征;(2)支持持续获取环境真实观测数据的闭环推演机制;(3)并行化动作预测与运动执行的异步推理管道,以实现高效控制。我们在仿真基准测试和真实场景中验证了模型性能,结果表明其在长周期操作任务、训练后数据效率以及对新场景配置的强泛化能力方面展现出显著优势。代码与模型已开源以促进学术社区发展。
长周期自主推理需要将不断增长的交互历史有效压缩至有限上下文窗口内。现有记忆系统大多将历史序列化为文本,其令牌级成本均匀且随长度线性增长,常将宝贵预算消耗在低价值细节上。为此,我们提出MemOCR——一种多模态记忆智能体,通过视觉布局实现自适应信息密度的内存空间分配,从而在紧张上下文预算下提升长周期推理能力。具体而言,MemOCR维护结构化富文本记忆(如标题、高亮内容)并将其渲染为图像供智能体查阅,通过视觉方式突出关键证据并强力压缩辅助细节。为确保不同内存预算下的鲁棒性,我们采用预算感知的强化学习目标训练MemOCR,使其适应多级压缩场景。在长上下文多跳与单跳问答基准测试中,MemOCR优于强文本基线,并在极端预算下实现更高效的上下文利用。
当前最先进的嵌入模型越来越多地源自经过对比学习调整的仅解码器大语言模型(LLM)骨架。随着基于可验证奖励强化学习(RLVR)训练的逻辑推理模型的出现,一个自然问题随之产生:当这些模型作为嵌入初始化时,增强的推理能力是否能转化为更优越的语义表示?与预期相反,我们在MTEB和BRIGHT基准上的评估揭示了**零效应**:采用相同训练方案时,基于RLVR调优骨架初始化的嵌入模型并未持续优于其基础对应模型。为解析这一悖论,我们提出**层次化表示相似性分析(HRSA)**框架,该框架从表示层、几何层和功能层三个维度解构相似性。HRSA分析表明,虽然RLVR会引发潜在流形局部几何结构的不可逆重组与可逆的坐标基漂移,但全局流形几何结构与线性解码能力得以保持。因此,后续的对比学习会驱动基础模型与推理初始化模型之间产生强对齐,这一现象我们称之为**流形重对齐**。实证研究表明,与监督微调(SFT)不同,RLVR是在现有语义空间内优化轨迹,而非从根本上重构语义空间本身。
大型语言模型(LLM)的安全性评估通常采用单次或低预算对抗性提示测试,这往往低估了实际风险。实践中,攻击者可通过大规模并行采样反复探测模型直至生成有害回复。尽管近期研究表明攻击成功率会随重复采样而提升,但预测大规模对抗风险的原则性方法仍显不足。我们提出一种考虑规模效应的N选最优风险估计框架SABER,用于建模N选最优采样下的越狱漏洞。通过采用伯努利分布的共轭先验——贝塔分布对样本级成功概率建模,我们推导出可解析的缩放定律,能够基于小规模采样数据可靠地外推大规模(N)攻击成功率。仅需n=100个样本,我们的锚定估计器预测ASR@1000的绝对误差均值仅为1.66,较基线方法的12.04降低了86.2%。研究结果揭示了异构的风险缩放特征,表明在标准评估中表现稳健的模型可能在并行对抗压力下出现快速非线性风险放大。本工作为实际LLM安全评估提供了一种低成本、可扩展的方法论。我们将在论文发表时同步开源代码与评估脚本,以助力后续研究。
尽管扩散语言模型(dLLMs)具备非自回归生成的潜力,但现有解码策略存在位置偏差,未能充分发挥其任意生成的潜能。本研究深入探索了dLLMs的内在频谱特性,首次通过频域分析揭示:隐藏状态中的低频分量主要编码全局结构信息和长程依赖关系,而高频分量则负责刻画局部细节特征。基于此发现,我们提出FourierSampler——通过频域滑动窗口机制动态引导模型实现"从结构到细节"的生成方式。在LLaDA和SDAR基准测试中,FourierSampler显著优于其他推理增强策略,在LLaDA1.5-8B和LLaDA-8B-Instruct模型上分别实现20.4%和16.0%的相对提升,其表现甚至明显超越同等规模的自回归模型(如Llama3.1-8B-Instruct)。
我们推出升级版模型PaddleOCR-VL-1.5,该模型在OmniDocBench v1.5数据集上以94.5%的准确率刷新业界最优(SOTA)纪录。为系统评估模型对扫描畸变、倾斜、弯曲、屏幕翻拍及光照变化等真实物理形变的鲁棒性,我们提出Real5-OmniDocBench基准测试。实验结果表明,增强后的模型在新构建的基准测试中均达到SOTA性能。此外,我们通过引入印章识别与文本检测任务扩展模型能力,同时保持其作为0.9B超紧凑视觉语言模型的高效特性。代码地址:https://github.com/PaddlePaddle/PaddleOCR
近期基于GRPO(生成式强化策略优化)的流匹配模型方法在文本到图像生成的人类偏好对齐方面展现出显著进步。然而,这些方法仍存在稀疏奖励问题:整个去噪轨迹的终端奖励被均摊至所有中间步骤,导致全局反馈信号与各去噪步骤的实际细粒度贡献不匹配。为解决该问题,我们提出DenseGRPO创新框架,通过密集奖励机制实现人类偏好对齐,可评估每个去噪步骤的细粒度贡献。具体而言,我们的方法包含两个核心组件:(1)提出通过基于常微分方程的方法对中间清晰图像施加奖励模型,预测逐步奖励增益作为各去噪步骤的密集奖励。这种方式确保反馈信号与单步贡献精确匹配,从而提升训练效率;(2)基于估计的密集奖励,我们发现现有GRPO方法中均匀探索设置与时变噪声强度存在匹配缺陷,导致探索空间失当。因此,我们提出奖励感知方案,通过自适应调整SDE采样器中针对特定时间步的随机性注入来校准探索空间,确保所有时间步均具有适宜的探索范围。在多个标准基准上的大量实验验证了DenseGRPO的有效性,并突显了有效密集奖励在流匹配模型对齐中的关键作用。
近期研究开始探索将DINO等预训练视觉基础模型应用于生成式自编码器,展现出强大的生成能力。然而,现有方法因高频细节丢失往往存在重建保真度受限的问题。本研究提出DINO球面自编码器框架,有效弥合语义表征与像素级重建之间的鸿沟。我们核心发现是:对比式表征中的语义信息主要编码于特征向量方向,而强制进行严格的幅值匹配反而会阻碍编码器保留细粒度细节。为此,我们设计了分层卷积块嵌入模块以增强局部结构与纹理保持能力,并采用余弦相似度对齐目标函数在保证语义一致性的同时允许特征幅值灵活变化以保留细节。此外,基于自监督学习基础模型表征本质存在于超球面的观察,我们引入黎曼流匹配技术在球面潜空间上直接训练扩散Transformer。ImageNet-1K实验表明,本方法实现了0.37 rFID和26.2 dB PSNR的顶尖重建质量,同时保持与预训练视觉基础模型的强语义对齐。值得注意的是,基于黎曼流匹配的扩散Transformer展现出高效收敛特性,在80轮训练周期即达到3.47的gFID指标。
角色图像动画旨在通过将驱动序列中的运动迁移至静态参考图像,来合成高保真视频。尽管近期取得进展,现有方法仍面临两个根本性挑战:(1)次优的运动注入策略导致身份保持与运动一致性之间出现"跷跷板"式的权衡;(2)过度依赖显式姿态先验(如骨骼结构),难以捕捉复杂动态,且阻碍了对任意非人形角色的泛化能力。为解决这些挑战,我们提出DreamActor-M2——一个将运动条件重构为上下文学习问题的通用动画框架。该方法采用两阶段范式:首先,通过将参考图像外观与运动线索融合到统一潜空间,弥合输入模态差异,使模型能够基于基础模型的生成先验共同推理空间身份与时间动态;其次,引入自举数据合成流程,构建伪跨身份训练样本对,实现从依赖姿态控制到端到端RGB直接驱动动画的无缝过渡,显著提升对多样化角色与运动场景的泛化能力。为进行全面评估,我们进一步提出AW Bench基准测试集,涵盖广泛角色类型与运动场景。大量实验表明,DreamActor-M2实现了最先进的性能,在视觉保真度与跨域泛化鲁棒性方面均表现卓越。项目页面:https://grisoon.github.io/DreamActor-M2/
基于人类反馈的强化学习(RLHF)是使大语言模型(LLM)与人类偏好对齐的关键技术,但其易受奖励过优化影响,即策略模型对奖励模型产生过拟合,利用虚假奖励模式而非准确捕捉人类意图。现有缓解方法主要依赖表层语义信息,难以有效解决由策略分布持续偏移导致的奖励模型与策略模型失准问题,这不可避免地引发奖励差异扩大,加剧奖励过优化。针对这些局限,我们提出R2M(实时对齐奖励模型)——一种新型轻量级RLHF框架。R2M突破仅依赖预训练LLM语义表征的传统奖励模型范式,通过利用策略模型动态演化的隐状态(即策略反馈)来实现与强化学习过程中策略实时分布偏移的对齐。本研究为通过实时利用策略模型反馈提升奖励模型性能开辟了新方向。
可验证奖励的强化学习已成为训练智能代理的强大范式。然而现有方法通常采用二元奖励机制,无法区分达成相同结果的不同轨迹质量,从而忽视了解空间内潜在的多样性。受网球"甜点"概念启发——即球拍能产生最佳击球效果的核心区域,我们提出甜点学习框架,为智能体优化提供差异化指导。该框架遵循一个简单而有效的原则:通过渐进式放大的分层奖励机制,引导策略趋向解空间的甜点区域。这一原则可自然适配多种任务:视觉感知任务利用距离分层建模奖励接近度,复杂推理任务则对向可行解决方案的渐进进展给予奖励。我们从理论上证明该框架能保持最优解的顺序性并提升梯度信噪比,从而实现更有导向性的优化。在GUI感知、短/长期规划和复杂推理等任务的广泛实验中,12个基准测试均显示其对强基线模型的持续改进,样本效率提升最高达2.5倍,并展现出有效的跨任务迁移能力。本研究确立了甜点学习作为训练高效鲁棒智能代理的通用原则。
诸如Qwen-2.5-Omni的自回归大音频语言模型在音频理解与交互任务中表现出色,但其扩展仍需耗费大量数据与算力,且严格串行的解码方式限制了推理效率。扩散大语言模型近期被证明能有效利用有限训练数据,先前DIFFA的研究表明,在同等条件下用扩散架构替代自回归主干能显著提升音频理解能力,但这仅停留在概念验证规模,未进行大规模指令微调、偏好对齐或实用解码方案。我们提出DIFFA-2——一个实用的基于扩散的通用音频理解大模型。该模型升级了语音编码器,采用双路语义与声学适配器,通过结合语义-声学对齐、大规模监督微调和方差缩减偏好优化的四阶段课程学习进行训练,且仅使用全开源语料。在MMSU、MMAU和MMAR基准上的实验表明,DIFFA-2相较DIFFA实现持续提升,并在实际训练成本下与强自回归音频大模型保持竞争力,印证了扩散建模作为大规模音频理解主干架构的可行性。代码已开源:https://github.com/NKU-HLT/DIFFA.git。
大型语言模型(LLMs)展现出卓越能力,但其基于随机下一词预测的机制易产生逻辑不一致与奖励破解问题,而形式符号系统可规避此类缺陷。为弥合这一差距,我们提出一种形式逻辑验证引导的框架,将形式符号验证动态嵌入自然语言生成过程,通过实时反馈实现错误检测与即时修正。与既往受限于被动事后验证的神经符号方法不同,我们的方法能主动惩罚推理链中的中间谬误。我们通过创新的两阶段训练流程实现该框架,协同整合形式逻辑验证引导的监督微调与策略优化。在涵盖数学、逻辑及通用推理的六大基准测试中,7B与14B模型分别以平均10.4%和14.2%的优势超越现有最优基线。这些结果证实形式验证可作为一种可扩展机制,显著突破先进LLM推理的性能边界。
基于向量量化的图像生成通常采用两阶段流程:首先通过分词器将图像编码为离散标记,随后生成模型学习标记间的依赖关系以实现重建。然而,第一阶段分词效果的提升未必能改善第二阶段的生成质量,因为现有方法未能有效约束标记间的依赖关系。这种不匹配迫使生成模型从无序分布中学习,导致生成结果存在偏差且连贯性较弱。为此,我们提出原生视觉分词技术,通过在分词阶段强制建立因果依赖关系来解决该问题。基于此思路,我们开发了NativeTok框架,该框架在实现高效重建的同时,将关系约束嵌入标记序列中。NativeTok包含两个核心组件:(1)用于潜在图像建模的元图像变换器;(2)因果专家混合变换器,其中每个轻量化专家模块基于先验标记和潜在特征生成单个标记。我们进一步设计了分层原生训练策略,仅更新新增的专家模块以保证训练效率。大量实验验证了NativeTok的有效性。
大型语言模型(LLMs)能够有效调用工具,但在多轮执行中仍显脆弱:遭遇工具调用错误后,较小模型常会退化为重复无效调用,无法解读错误反馈并自我修正。这种脆弱性阻碍了实际场景中的可靠部署——在工具交互过程中,执行错误本就难以避免。我们发现现有方法的核心局限:标准强化学习(RL)将错误视为稀疏负奖励,未能提供恢复指引;而预收集的合成纠错数据集又与模型在策略执行时的错误模式存在分布差异。为弥补这一缺口,我们提出Fission-GRPO框架,将执行错误转化为RL训练循环内的纠正信号。该机制核心是通过微调的错误模拟器生成诊断反馈,将失败轨迹裂解为新增训练实例,进而基于当前策略重采样恢复路径。这使得模型能从自主探索所犯的具体错误中学习,而非依赖静态预收集错误案例。在BFCL v4多轮测试集上,Fission-GRPO将Qwen3-8B的错误恢复率绝对提升5.7%,关键的是,其整体准确率较GRPO提升4%(42.75%→46.75%),甚至优于专用工具调用智能体。
尽管大语言模型在软件工程领域展现出潜力,但其在单元测试中的应用仍主要局限于孤立的测试生成或预言预测,未能解决测试套件维护这一更广泛的挑战。我们推出TAM-Eval(测试自动化维护评估框架),该框架与基准测试平台旨在评估模型在三大核心测试维护场景中的表现:测试套件的创建、修复与更新。与先前局限于函数级任务的研究不同,TAM-Eval在测试文件层级运行,同时在独立评估期间保持对完整代码库上下文的访问,更真实地反映实际维护工作流程。我们的基准数据集包含从Python、Java和Go项目中自动提取并验证的1,539个场景。TAM-Eval支持对原始大语言模型和智能体工作流进行系统无关的评估,采用基于测试套件通过率、代码覆盖率和变异测试的无参考评估方案。实验结果表明,当前最先进的大语言模型在真实测试维护流程中能力有限,仅能小幅提升测试有效性。我们将TAM-Eval作为开源框架发布,以支持自动化软件测试的未来研究。数据与代码已公开于https://github.com/trndcenter/TAM-Eval。
我们提出RM-RF——一种轻量级奖励模型,用于对自动生成的单元测试进行免运行评估。该方法无需重复编译和执行候选测试,仅通过源代码和测试代码即可预测三个执行衍生信号:(1) 增强后的测试套件能否成功编译运行;(2) 生成的测试用例是否提高代码覆盖率;(3) 生成的测试用例是否提升变异杀死率。为训练和评估RM-RF,我们构建了包含焦点文件、测试文件及通过执行流水线标记的候选测试增量的多语言数据集(Java、Python、Go),并发布了用于对比评估的配套数据集与方法论。通过测试多种模型架构与调优机制(零样本、全量微调及基于LoRA的参数高效微调),模型在三个预测目标上平均F1值达到0.69。与传统编译运行工具相比,RM-RF在保持竞争力预测准确度的同时,显著降低了延迟与基础设施成本,可为大规模测试生成和基于强化学习的代码优化提供快速、可扩展的反馈机制。
尽管多智能体系统已通过专业化分工展现出处理复杂任务的潜力,但同时微调多个智能体仍面临两大挑战:(1)跨智能体的功劳分配问题;(2)昂贵多智能体模拟的样本效率问题。本研究提出基于人工智能反馈的逐动作过程奖励微调方法(MAPPA)以同时解决这两个难题。通过将功劳分配细化至单个智能体动作而非仅针对任务完成度,MAPPA能够在无需真实标签的情况下实现细粒度监督,并从每次模拟中提取最大化的训练信号。我们在数学竞赛题和工具增强的数据分析任务上验证了该方法。在未见过的数学问题上,MAPPA在AIME和AMC测试中分别提升5.0-17.5个百分点和7.8-17.2个百分点;在数据分析任务中,成功率提高12.5个百分点,质量指标最高提升30%,证明逐动作监督能推动不同领域多智能体系统的全面改进。通过解决这些核心挑战,我们的工作为在最小人力监督下扩展多智能体系统处理复杂长周期任务迈出了第一步。
基于大语言模型的深度搜索智能体已在多步检索、推理及长周期任务执行方面展现出强大能力。然而在实际应用中,其失败往往源于缺乏随着任务在不确定性环境下演进时,对推理与检索状态进行监控调节的机制。认知神经科学的研究启示表明,人类元认知具有分层结构,能够将快速异常检测与选择性触发的经验驱动反思相结合。本研究提出具备元认知监控的深度搜索框架(DS-MCM),该框架通过显式分层元认知监控机制增强深度搜索能力。DS-MCM集成两大核心组件:快速一致性监控器——对外部证据与内部推理置信度进行轻量级对齐校验;慢速经验驱动监控器——基于历史智能体轨迹构建的经验记忆库,被选择性激活以指导纠偏干预。通过将监控机制直接嵌入推理-检索循环,DS-MCM既能判断何时需要干预,又能依据先验经验确定纠偏策略。在多个深度搜索基准测试及不同骨干模型上的实验表明,DS-MCM能持续提升性能与鲁棒性。
探测研究通过训练轻量级预测器,探究冻结大语言模型各层表征中编码的信息。除分析功能外,探测技术常被应用于"探测-引导"操作流程:从探测器中提取学习得到的概念向量,通过前向传播过程中的加性激活引导将其注入到层级表征中。该流程的有效性取决于能否获得精确、在消融条件下方向稳定且计算成本低廉的概念向量。基于这些需求,我们提出RAPTOR(岭自适应逻辑探测器)——一种简单的L2正则化逻辑探测器,其通过验证集调优的岭强度从归一化权重中生成概念向量。在指令调优大语言模型和人工标注概念数据集上的大量实验表明,RAPTOR在准确度上达到或超越强基线方法,同时实现具有竞争力的方向稳定性并显著降低训练成本;这些量化结果得到了定性下游引导演示的佐证。最后,借助凸高斯极小极大定理(CGMT),我们在高维小样本场景下的理想化高斯师生模型中,对岭逻辑回归进行了机制性刻画,揭示了惩罚强度如何调节探测器精度与概念向量稳定性,并提出了与真实大语言模型嵌入趋势定性相符的结构性预测。
思维链(CoT)技术赋能大语言模型处理复杂问题,但其在离散词符空间中的推理仍受计算成本高和推理路径坍塌的制约。近期潜在推理方法尝试通过连续隐状态进行推理以提升效率,然而这些方法通常作为从显式推理步骤到隐状态的端到端映射运行,且推理时往往需要预定义隐式步骤数量。本研究提出潜在思维规划框架PLaT,通过根本性分离推理与语言化过程,将潜在推理重构为规划问题。我们将推理建模为潜在规划状态的确定性轨迹,而独立解码器在必要时将这些思维具象化为文本。这种解耦使模型能动态决定终止推理的时机,而非依赖固定超参数。数学基准测试的实证结果揭示了一种独特权衡:虽然PLaT的贪婪准确率低于基线模型,但在推理多样性方面展现出卓越的可扩展性。这表明PLaT学习到了更稳健、更广阔的解决方案空间,为推理时搜索提供了透明且可扩展的基础框架。
随着数字环境(数据分布)的动态变化,新图形用户界面数据持续涌入——引入新领域或分辨率——在静态环境中训练的智能体性能会逐渐退化。本研究提出"持续GUI智能体"新任务,要求GUI智能体在领域和分辨率变迁下实现持续学习。我们发现,由于动态场景中用户界面交互点和交互区域的多样性,现有方法难以在GUI分布变化时保持稳定的定位基准。为此,我们提出动态锚定GUI框架(GUI-AiF),这是一种通过强化微调实现持续学习稳定的新框架,其核心是两种新型奖励机制:动态锚点奖励(APR-iF)与动态锚域奖励(ARR-iF)。这些奖励机制引导智能体与动态变化的交互点及区域保持对齐,有效克服现有奖励策略过度依赖静态定位基准(如固定坐标或元素尺寸)的缺陷。大量实验表明GUI-AiF超越了现有最优基线方法。本研究开创了首个面向GUI智能体的持续学习框架,揭示了强化微调技术在持续GUI智能体领域尚未开发的潜力。
扩散模型与流匹配模型的最新进展揭示了预测目标的偏好转变——从噪声(ε)和速度(v)预测转向直接数据(x)预测,这一趋势在高维场景中尤为明显。然而,关于最优目标为何取决于数据特定属性的形式化解释仍属空白。本研究提出了一个广义预测框架的理论体系,该体系可容纳任意输出目标(其中ε预测、v预测和x预测均为特例)。我们推导出数据几何特性与最优预测目标之间的解析关系,从理论上严格证明了当环境维度显著超越数据本征维度时,x预测会表现出优越性。值得注意的是,虽然理论将维度确定为最优预测目标的决定因素,但流形约束数据的本征维度在实际中往往难以估计。为弥合这一差距,我们提出k-Diff框架,该框架采用数据驱动方法直接从数据中学习最优预测参数k,无需显式维度估计。在潜空间和像素空间图像生成的大量实验表明,k-Diff在不同架构和数据规模下均能稳定超越固定目标基线方法,为提升生成性能提供了原则性自动化解决方案。
表征学习是搜索、聚类、分类和重排等下游任务的核心。当前最先进的序列编码器通常通过池化操作将可变长度的标记序列压缩为单一向量,最常用的方法包括特殊[CLS]标记池化或标记嵌入的均值池化。本文揭示了这些池化策略的系统性缺陷:[CLS]池化倾向于将信息集中于序列起始位置,可能弱化分布式证据的表征能力;而均值池化则会稀释重要的局部信号,有时导致短上下文场景性能下降。为此,我们提出地标(LMK)池化方法:将序列分割为多个文本块,在块间插入地标标记,最后通过池化地标标记嵌入形成最终表征。这种简洁机制以引入少量特殊标记为代价,在保留局部显著特征的同时提升了长上下文外推能力。实验表明,LMK池化在短上下文检索任务中与现有方法表现相当,在长上下文任务中则实现显著提升,为现有池化方法提供了实用且可扩展的替代方案。
知识蒸馏(KD)技术正被日益广泛地应用于将大型语言模型的能力迁移至小型模型,其在提升效率与实用性的同时,效果往往超越传统微调方法。除性能优势外,KD也被探索作为隐私保护机制以降低训练数据泄露风险。尽管训练数据记忆现象在标准预训练和微调场景中已得到深入研究,但其在知识蒸馏框架下的动态特性仍鲜为人知。本研究基于三大语言模型家族(Pythia、OLMo-2、Qwen-3)和三个数据集(FineWeb、Wikitext、Nemotron-CC-v2),系统探究了KD全流程中的记忆效应。我们发现:(1)蒸馏模型的训练数据记忆量显著低于标准微调(记忆减少超50%);(2)部分样本具有先天易记忆特性,在蒸馏过程中贡献了绝大部分记忆量(占比约95%以上);(3)通过基于zlib熵、KL散度和困惑度的特征组合,可在蒸馏前有效预测学生模型的记忆倾向;(4)虽然软蒸馏与硬蒸馏的总体记忆率相近,但硬蒸馏风险更高:其继承教师模型特定样本的数量是软蒸馏的2.7倍。本研究最终证明,相较于标准微调,知识蒸馏既能提升模型泛化能力,又可降低数据记忆风险。
开放词汇定位任务需在弱监督下实现精准的视觉-语言对齐,然而现有方法要么依赖缺乏细粒度表达能力的全局句子嵌入,要么需通过显式监督或复杂跨注意力机制实现词汇级对齐。我们提出理论根基扎实的视觉-语言对齐框架ExpAlign,其基于规范的多示例学习建模框架。该框架通过期望对齐头对词汇-区域相似度进行基于注意力的软MIL池化,无需额外标注即可实现隐式的词汇与实例选择。为进一步稳定对齐学习,我们设计了基于能量的多尺度一致性正则化方案,包含Top-K多阳性对比目标及从拉格朗日约束自由能最小化推导的几何感知一致性目标。大量实验表明,ExpAlign持续提升开放词汇检测与零样本实例分割性能,尤其在长尾类别上表现突出。最显著的是,在LVIS minival数据集上达到36.2 AP_r,在同等模型规模下超越现有先进方法,同时保持轻量级和推理高效特性。
端到端自动驾驶系统日益采用自监督视频预训练来学习可迁移的规划表征。然而,目前用于场景理解的视频世界模型预训练仅带来有限性能提升,这一局限因驾驶任务固有的多义性而加剧:每个场景通常仅提供单一人驾轨迹,导致多模态行为学习困难。本研究提出Drive-JEPA框架,通过整合视频联合嵌入预测架构(V-JEPA)与多模态轨迹蒸馏技术实现端到端驾驶。首先,我们将V-JEPA适配于端到端驾驶任务,在大规模驾驶视频上预训练ViT编码器以生成与轨迹规划对齐的预测性表征。其次,我们设计了以提案为中心的规划器,在保留人类轨迹的同时蒸馏模拟器生成的多模态轨迹,并采用动量感知选择机制以提升行为稳定性和安全性。在NAVSIM基准测试中,结合简易Transformer解码器的V-JEPA表征在无感知设定下以3个PDMS优势超越现有方法。完整Drive-JEPA框架在v1版本达到93.3 PDMS,v2版本实现87.8 EPDMS,创造了新的性能纪录。
在剪枝领域,彩票假说指出大型网络包含稀疏子网络(即中奖彩票),这些子网络可独立训练以达到稠密网络的性能。然而现有方法大多假设存在适用于所有输入的单一通用中奖彩票,忽略了现实数据固有的异质性。本研究提出"路由彩票"(RTL)框架,通过自适应剪枝发现多个专用子网络(称为自适应彩票),每个子网络分别适配不同类别、语义簇或环境条件。在多样化数据集和任务中,RTL在平衡准确率与召回率上持续超越单模型及多模型基线,其参数量比独立模型减少高达10倍,并呈现语义对齐特性。此外,我们发现了激进剪枝下出现的"子网络坍缩"现象,提出基于子网络相似度的无标签诊断方法以识别过度稀疏化问题。本研究将剪枝重新定义为模型结构与数据异质性对齐的机制,为构建更具模块化和环境感知能力的深度学习模型开辟了新路径。
多模态大语言模型(MLLMs)是当前人工智能研究的重点领域。然而,现有研究主要集中于静态图像理解,对序列化音视频数据处理能力的探索仍显不足。这一空白凸显了建立高质量基准测试体系以系统评估MLLMs在真实场景中性能表现的必要性。我们推出SONIC-O1基准——一个涵盖13个现实对话领域、包含4,958条人工校验标注及人口统计元数据的综合评估体系。该基准通过开放式摘要生成、多项选择题作答及基于推理的时间定位等关键任务评估MLLMs性能。针对闭源与开源模型的实验揭示了其局限性:虽然两类模型在选择题准确率上差距较小,但最佳闭源模型在时间定位任务上较开源模型领先22.6%。模型在不同人口群体间的性能差异进一步表明其行为存在持续性偏差。总体而言,SONIC-O1为具有时序基础和社会鲁棒性的多模态理解提供了开放评估框架。我们公开SONIC-O1以促进可复现性研究:项目页面:https://vectorinstitute.github.io/sonic-o1/ 数据集:https://huggingface.co/datasets/vector-institute/sonic-o1 GitHub:https://github.com/vectorinstitute/sonic-o1 排行榜:https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard
我们推出KAPSO——一个用于自主程序合成与优化的模块化框架。给定自然语言目标和评估方法后,KAPSO通过迭代执行构思、代码合成与编辑、运行、评估及学习等步骤,持续改进可运行成果以达成可量化目标。该框架将程序合成视为长期优化循环中的操作符而非终点,其进展由评估器结果动态定义。 KAPSO通过三个紧密耦合的组件,针对性解决编程智能体常见的长期性故障:实验状态丢失、调试过程脆弱、领域知识复用薄弱。首先,基于git的实验引擎将每次尝试隔离为独立分支,生成可复现成果并保留迭代溯源信息;其次,知识系统整合代码库、内部手册、文档资料、科研论文及网络搜索结果等异构资源,将其组织成支持工作流检索、实现方案检索及环境约束检索的结构化表示;第三,认知记忆层协调检索过程,维护从实验轨迹(运行日志、代码差异、评估反馈)提炼的可复用经验库,有效减少重复错误模式并加速收敛。 我们在MLE-Bench(Kaggle式机器学习竞赛)和ALE-Bench(AtCoder启发式优化)上对KAPSO进行端到端性能评估。 代码地址:https://github.com/Leeroo-AI/kapso
注意力模式在大语言模型的训练与推理过程中具有关键作用。已有研究识别出检索头、汇聚头和对角线轨迹等独立模式,但这些观察仍呈碎片化状态,缺乏统一的理论解释。为弥补这一空白,我们提出时序注意力模式可预测性分析框架,该统一框架从时序连续性视角分析注意力机制的数学表达形式,从而解释各类注意力模式。TAPPA不仅深化了对注意力行为的理解,还为推理加速方法提供了理论指导。具体而言,该框架将注意力模式划分为具有明显规律性的可预测模式与呈现有效随机性的不可预测模式。我们进一步发现,这种区分可通过查询向量沿时间维度的自相似度来解释。针对可预测模式,我们通过查询向量、键向量与旋转位置编码的联合作用,对三种典型案例进行了详细数学分析。通过将TAPPA的洞见应用于KV缓存压缩和LLM剪枝任务,我们验证了该框架的有效性。在这些任务中,基于TAPPA设计的简易评估指标均能持续提升基线方法性能。代码已开源:https://github.com/MIRALab-USTC/LLM-TAPPA。
我们提出视觉个性化图灵测试(VPTT),这是一种基于感知不可区分性(而非身份复现)来评估情境化视觉个性化的新范式。当模型的输出(图像、视频、3D资产等)在人类或经过校准的视觉语言模型评判下,与特定人物可能合理创作或分享的内容无法区分时,即视为通过VPTT。为实现该测试,我们构建了VPTT框架,包含万人角色基准库(VPTT-Bench)、视觉检索增强生成器(VPRAG)以及基于纯文本度量且与人类/VLM评判标准对齐的VPTT分数。实验表明人类评估、VLM评估与VPTT评分高度相关,验证了VPTT分数作为感知代理指标的可靠性。VPRAG在实验中展现出最佳的对齐度-原创性平衡,为个性化生成式AI提供了可扩展且隐私安全的基础架构。
在后邓纳德时代,嵌入式系统优化需在能效与延迟之间进行复杂权衡。传统启发式调优方法在高维非平滑参数空间中往往效率低下。本研究提出一种基于高斯过程的贝叶斯优化框架,用于自动化搜索异构多核架构的最优调度配置。我们通过逼近能耗与时间的帕累托前沿,显式处理问题的多目标特性。进一步地,通过引入敏感性分析(fANOVA)并比较不同协方差核函数(如Matérn与RBF),为黑盒模型提供物理解释性,揭示驱动系统性能的主导硬件参数。
少量经过验证的目标信息能否引导基础模型昂贵的自监督预训练?传统预训练方法优化的是固定代理目标(如下一词预测),这种机制可能导致计算资源偏离下游任务的核心能力。我们提出价值预训练法(V-Pretraining):一种基于价值、与模态无关的受控持续预训练方法,通过轻量级任务设计器重塑预训练任务,使每个梯度步的价值最大化。以样本增强的自监督学习为例,该任务设计器会筛选预训练任务(如数据增强方案),确保预训练损失梯度与下游任务(如图像分割)计算的梯度方向一致。这种方法能有效引导预训练过程朝向相关下游能力发展。值得注意的是,预训练模型始终不接触下游任务标签,这些标签仅用于塑造预训练任务。在相同更新预算下,对0.5B-7B语言模型进行价值预训练时,仅需使用12%的GSM8K训练样本作为反馈,就能在推理任务(GSM8K测试Pass@1)上相较传统下一词预测方法实现最高18%的相对提升。在视觉自监督学习中,我们将ADE20K数据集的最优结果提升1.07 mIoU,在降低NYUv2 RMSE的同时提升ImageNet线性分类准确率,并为持续预训练中的令牌效率提升提供了初步证据。