每日精选AI研究论文及翻译
可验证奖励强化学习(RLVR)为增强大模型的数学推理能力提供了稳健机制。然而我们发现,现有方法在算法和数据层面均存在系统性不足——尽管挑战性难题对完善未充分发展的能力至关重要,但现有研究对其重视程度明显不够。算法层面,广泛使用的组相对策略优化(GRPO)存在隐性失衡问题,即对难度较高题目的策略更新幅度反而更小。数据层面,增强方法主要通过改写问题来提升多样性,却未能系统性地增加问题内在难度。针对这些问题,我们提出双轮驱动的MathForge框架,从算法和数据双维度攻坚难题,该框架包含难度感知组策略优化(DGPO)算法和多维度问题重构(MQR)策略。具体而言,DGPO首先通过难度均衡的组优势估计修正GRPO的隐性失衡,进而采用难度感知的题目级加权机制优先处理难题;与此同时,MQR从多维度重构问题以提升难度,同时保持原标准答案不变。MathForge形成协同闭环:MQR拓展数据边界,DGPO则有效学习增强数据。大量实验表明,MathForge在多项数学推理任务上显著超越现有方法。代码与增强数据均已开源:https://github.com/AMAP-ML/MathForge。
我们推出LingBot-World——一款基于视频生成技术开发的开源世界模拟器。作为顶级世界模型,LingBot-World具备以下核心特性:(1)在包括写实场景、科学情境、卡通风格等广泛环境中保持高保真度与强健的动态表现;(2)实现分钟级长时程模拟的同时保持跨时间维度的上下文连贯性,即具备"长时记忆"能力;(3)支持实时交互,在以每秒16帧生成时延迟低于1秒。我们公开代码与模型参数,旨在缩小开源与闭源技术之间的差距。相信本次发布将赋能内容创作、游戏开发、机器人学习等领域的实际应用。
我们推出创新者-VL,这是一款面向科学领域的多模态大语言模型,旨在提升跨学科的科学理解与推理能力,同时保持通用视觉任务的优异表现。与依赖海量领域预训练和不透明技术链的主流趋势不同,我们的研究表明:通过规范化的训练设计和透明化方法论,能以显著降低的数据量培育出强大的科学智能。(i)首先,我们提供完全透明、端到端可复现的训练流程,涵盖数据收集、清洗、预处理、监督微调、强化学习及评估环节,并附有详细的优化方案,为学术界的系统性拓展提供便利;(ii)其次,创新者-VL展现出卓越的数据效率,仅用不足五百万经筛选的样本即可在多项科学任务中取得竞争优势,且无需大规模预训练。这一结果证明,通过规范化的数据筛选而非盲目扩大规模,同样能实现高效推理;(iii)再次,该模型表现出强大的泛化能力,在通用视觉、多模态推理及科学基准测试中均达到领先水平,表明科学对齐能力可融入统一模型而不影响通用性能。我们的实践表明,即使不依赖大规模数据,也能构建高效、可复现、高性能的科学多模态模型,为未来研究奠定实践基础。
我们推出DeepSeek-OCR 2,旨在研究一种新型编码器DeepEncoder V2的可行性——该编码器能够根据图像语义动态重排视觉标记。传统视觉语言模型在处理图像时,始终以固定的光栅扫描顺序(左上到右下)和静态位置编码将视觉标记输入大语言模型。然而这与人类视觉感知方式相悖,人类的视觉扫描会遵循由内在逻辑结构驱动的灵活且语义连贯的模式。尤其对于复杂版式图像,人类视觉会进行基于因果关系的序列化处理。受此认知机制启发,DeepEncoder V2被设计为具备因果推理能力的编码器,使其在基于LLM的内容解析前能智能重组视觉标记。本研究探索了一个新颖范式:是否可通过两级级联的一维因果推理结构有效实现二维图像理解,从而提供一种有望实现真正二维推理的全新架构方案。代码与模型权重已开源:http://github.com/deepseek-ai/DeepSeek-OCR-2。
强化学习已使大语言模型能够作为智能体执行任务,然而由于高质量轨迹的稀缺性,尤其是在有限资源下训练其完成长周期任务仍具挑战。现有方法通常通过扩大采样规模并无差别地在中间步骤间分配计算资源,这种做法本质上会在无关紧要的步骤上浪费大量计算预算,且无法保证样本质量。为此,我们提出Spark(基于关键状态动态分支的战略策略感知探索)这一新型框架,通过在关键决策状态进行选择性分支来实现资源高效的探索。我们的核心思路是在关键决策点启动自适应分支探索以探测潜在优质轨迹,从而实现优先保障采样质量而非盲目覆盖的精准资源分配。该设计利用智能体内在的决策信号减少对人类先验知识的依赖,使其能自主扩展探索范围并实现更强的泛化能力。在多项任务(如具身规划)上的实验表明,Spark能以显著更少的训练样本达成更高的成功率,即使在未见场景中也展现出稳健的泛化性能。
语言模型的表征中常存在与高层概念对应的线性方向。本文研究这些表征的动态特性:在(模拟)对话语境中,表征如何沿着这些维度演化。我们发现线性表征在对话过程中会发生剧烈变化:例如,对话初期被表征为事实的信息可能在对话结束时被表征为非事实,反之亦然。这种变化具有内容依赖性:与对话相关的信息表征可能改变,而通用信息通常保持稳定。即使对于能将事实性与表层响应模式分离的维度,这些变化依然稳健存在,并出现在不同模型家族和模型层级中。表征变化无需依赖策略内对话——即使重播由完全不同的模型编写的对话脚本也能产生类似变化。但若仅将科幻故事作为背景语境明确呈现,其适应效应则弱得多。我们还发现,沿着表征方向进行引导在对话不同时点可能产生截然不同的效果。这些结果与"模型会根据对话提示扮演特定角色而演化表征"的观点一致。我们的发现可能对可解释性与引导技术构成挑战——特别是表明静态解读特征或方向、或假设特定特征范围始终对应真实值的探测方法可能产生误导。然而,这类表征动态性也为理解模型如何适应语境指明了令人兴奋的新研究方向。
大型语言模型越来越多地在可验证领域(如代码和数学)中通过强化学习进行后训练。然而,当前基于可验证奖励的强化学习方法仅能从每次尝试的标量结果奖励中学习,形成了严重的信用分配瓶颈。许多可验证环境实际上能提供丰富的文本反馈(如运行时错误或裁判评估),用以解释尝试失败的原因。我们将这一设定形式化为带丰富反馈的强化学习,并提出了自蒸馏策略优化方法,该方法无需外部教师或显式奖励模型,即可将符号化反馈转化为密集的学习信号。SDPO将基于反馈的当前模型视为自教师,并将其反馈指导下的下一词预测蒸馏回策略中。通过这种方式,SDPO利用了模型在上下文中回溯识别自身错误的能力。在科学推理、工具使用以及LiveCodeBench v6上的竞技编程任务中,SDPO相较于强可验证奖励基线方法,在样本效率和最终准确率上均有提升。值得注意的是,即便在仅返回标量反馈的标准可验证奖励环境中,SDPO通过将成功轨迹作为失败尝试的隐式反馈,其表现仍优于基线方法。最后,在测试时对单个问题应用SDPO可加速困难二元奖励任务的探索发现,仅需最佳K采样或多轮对话三分之一的尝试次数即可达到相同的发现概率。
尽管大型语言模型(LLM)具备流畅的语法生成能力,但在高风险领域确保其逻辑正确性仍是一项根本性挑战。我们提出一种神经符号框架,将LLM与可满足性模理论(SMT)求解器相结合,通过迭代优化生成可验证的答案。该方法将LLM输出分解为原子主张,将其自动形式化为一级逻辑,并利用自动定理证明验证其逻辑一致性。我们引入三大核心创新:(1)通过形式语义等价性检查实现多模型共识,确保候选答案在逻辑层面的对齐,消除表面形式指标的语法偏差;(2)语义路由机制,将不同类型的主张导向相应验证策略——逻辑命题使用符号求解器,常识推理采用LLM集成验证;(3)基于最小修正子集(MCS)的精确逻辑错误定位技术,精确定位需要修订的主张子集,将二元失败信号转化为可操作的反馈。该框架根据逻辑状态对主张进行分类,并将多重验证信号聚合为带有方差惩罚的统一评分。系统利用结构化反馈持续迭代优化答案,直至满足接受标准或实现收敛。这种混合方法在可行处提供形式化保证,在其他场景采用共识验证,从而推动可信AI发展。实验表明,在GPT-OSS-120B模型上,VERGE框架在一系列推理基准测试中的收敛性能较单次推理方法平均提升18.7%。
图形用户界面(GUI)智能体展现出巨大潜力,可使基础模型完成现实世界任务,从而革新人机交互模式并提升人类生产效率。本报告提出OmegaUse——一种支持计算机与手机使用场景、能在移动端与桌面端自主执行任务的通用GUI智能体模型。构建高效GUI智能体模型依赖两大要素:(1)高质量数据;(2)有效训练方法。为此,我们引入精心设计的数据构建流程与解耦式训练范式。数据构建方面,我们整合严格筛选的开源数据集,并提出新型自动化合成框架,通过自底向上自主探索与自顶向下分类引导生成相结合的方式,创造高保真合成数据。训练方法上,为充分发挥数据价值,采用两阶段策略:先通过监督微调(SFT)建立基础交互语法,再采用群组相对策略优化(GRPO)提升空间定位与序列规划能力。为平衡计算效率与智能体推理能力,OmegaUse基于混合专家(MoE)架构构建。针对跨终端离线能力评估,我们推出OS-Nav基准测试套件,涵盖多操作系统:面向中文安卓移动环境的ChiM-Nav,以及专注于Ubuntu系统日常桌面交互的Ubu-Nav。大量实验表明,OmegaUse在现有GUI基准测试中表现卓越:在ScreenSpot-V2上以96.3%的准确率刷新纪录,在AndroidControl上实现79.1%的领先步骤成功率。在OS-Nav测试中,OmegaUse同样表现强劲,于ChiM-Nav达到74.24%的步骤成功率,在Ubu-Nav上取得55.9%的平均成功率。
开源权重编程智能体相较于闭源系统应具备一项根本优势:它们能够针对私有代码库进行专业化训练,将仓库特定信息直接编码至模型权重中。然而训练成本与复杂性使得这一优势长期停留于理论层面。我们证明该优势现已具备实践可行性。本文提出软验证高效仓库智能体(SERA),一种高效的编程智能体训练方法,能够快速低成本地创建专用于私有代码库的智能体。仅通过监督微调(SFT),SERA就在完全开源(开放数据、方法、代码)模型中取得了最先进的成果,同时达到与Devstral-Small-2等前沿开源权重模型相媲美的性能。创建SERA模型的成本比强化学习低26倍,比先前达到同等性能的合成数据方法低57倍。我们提出的软验证生成(SVG)方法能够从单个代码库生成数千条轨迹。结合成本效益优势,该方法实现了对私有代码库的专业化适配。除仓库专业化外,我们将SVG应用于更大规模的代码库集合,生成超过20万条合成轨迹。基于该数据集,我们详细分析了编程智能体训练的缩放规律、消融实验及混杂因素。总体而言,我们相信这项工作将极大加速开源编程智能体的研究进程,并彰显可适配私有代码库的开源模型优势。作为Ai2开源编程智能体系列的首个模型,我们同步发布SERA的全部代码、数据及Claude Code集成方案,以支持研究社区发展。
任务无关的特征上采样研究领域近年来崭露头角,其核心目标是通过预训练视觉骨干网络高效生成更密集的特征。这类方法通过学习将低分辨率特征映射至高分辨率版本,以远低于常规成本的方式实现密集特征提取。早期研究主要采用迭代式上采样策略,而近期工作则转向基于交叉注意力的方法,但后者可能陷入与待上采样骨干网络相似的效率瓶颈问题。本文证明迭代上采样方法仍可与基于交叉注意力的方案相媲美,且能以更低推理成本实现最优性能。我们提出UPLiFT——一种通用像素级轻量特征变换架构,并设计高效的局部注意力算子以克服传统迭代特征上采样方法的局限。该算子采用完全局部化的注意力池化公式,实验表明局部注意力机制使UPLiFT在上采样过程中保持特征稳定性,从而以低于现有像素级特征上采样器的推理成本达到最优性能。此外,我们将UPLiFT应用于生成式下游任务,证明其在VAE特征上采样任务中与最先进的耦合流匹配模型性能相当。总体而言,UPLiFT为生成密集特征提供了一种通用且高效的解决方案。
尽管混响语音研究已开展数十年,但由于多数语料库缺乏单文件声学标注或可复现性文档不足,方法对比仍存在困难。我们推出RIR-Mega-Speech语料库,该库通过将LibriSpeech语音与RIR-Mega集合中约5000条模拟房间冲激响应进行卷积生成,总时长约117.5小时。每个文件均包含根据明确定义的可复现流程从源RIR计算得到的RT60、直达声与混响声能比(DRR)和清晰度指数(C_{50})。我们还提供了重建数据集和复现所有评估结果的脚本。 基于Whisper small模型对1500组配对语音的测试显示:纯净语音的WER为5.20%(95%置信区间:4.69-5.78),混响版本为7.70%(7.04-8.35),配对差异为2.50个百分点(2.06-2.98),相当于相对性能下降48%。WER随RT60增加呈单调上升趋势,随DRR增加而下降,这与既往感知研究一致。虽然混响损害识别性能的核心结论已获公认,但我们旨在为学界提供声学条件透明、结果可独立验证的标准化资源。该资源库包含适用于Windows和Linux环境的一键重建指令。
多模态讽刺检测(MSD)旨在通过建模跨模态语义不一致性来识别图文对中的讽刺现象。现有方法常利用跨模态嵌入失配检测不一致性,但当视觉与文本内容关联松散或语义间接时效果不佳。虽然近期研究采用大语言模型(LLM)生成讽刺线索,但这些生成结果固有的多样性和主观性常引入噪声。为解决这些局限,我们提出生成式差异比较网络(GDCNet)。该框架通过使用多模态大语言模型(MLLM)生成的描述性、事实导向的图像标题作为稳定语义锚点,捕捉跨模态冲突。具体而言,GDCNet计算生成的目标描述与原始文本之间的语义和情感差异,同时测量视觉-文本保真度。这些差异特征随后通过门控模块与视觉、文本表示融合,以自适应平衡模态贡献。在MSD基准上的大量实验表明,GDCNet在准确性和鲁棒性方面均优于现有方法,在MMSD2.0基准上实现了最新最优性能。
尽管可验证奖励的强化学习(RLVR)显著提升了大型语言模型的推理能力,但随着问题趋于饱和,训练进程常陷入停滞。我们发现核心挑战在于信息性失败样本的可及性不足:学习信号虽然存在,但在标准推演过程中鲜少出现。为此,我们提出失败前缀条件化这一简单有效的方法,从饱和问题中持续学习。该方法不再从原始问题出发,而是通过将训练重新分配至基于罕见错误推理轨迹生成的前缀条件,使模型暴露于易失败状态。实验表明,失败前缀条件化带来的性能提升相当于中等难度问题的训练效果,同时保持了标记效率。进一步分析模型鲁棒性发现,该方法能降低模型在误导性失败前缀下的性能衰减,尽管对早期正确推理的遵循程度存在轻微权衡。最后我们证明,在训练过程中动态更新失败前缀的迭代策略,能在性能平台期后实现额外增益。总体而言,失败前缀条件化为RLVR在饱和问题上的持续训练提供了有效路径。
在多说话人场景下,说话人归属的自动语音识别(ASR)仍面临重大挑战。现有方法虽能在特定领域微调后表现优异,但鲜有系统能在跨领域数据集上实现良好泛化。我们先前提出的Diarization-Conditioned Whisper(DiCoW)模型利用说话人日志输出作为条件信息,通过极少量微调即展现出强大的多语言与多领域性能。本文针对DiCoW的核心局限——静默-目标-非目标-重叠(STNO)掩码的模糊性问题展开研究:当两个或多个说话人完全重叠时,即便其转写内容不同,模型接收的条件信息仍可能近乎相同。我们提出SE-DiCoW(自注册型日志条件Whisper),通过说话人日志定位目标说话人最活跃的对话片段作为注册段,并采用跨注意力机制将注册段特征作为固定条件注入每个编码层。此外,我们通过改进数据分割、模型初始化及数据增强策略进一步优化DiCoW。综合这些创新,SE-DiCoW在EMMA MT-ASR基准测试中相比原始DiCoW将宏平均tcpWER显著降低了52.4%。
近年来,大语言模型推理能力的进步日益依赖于训练后损失函数与对齐策略的优化。然而,传统强化学习范式(如分组相对策略优化)仍受限于静态均匀性约束:均匀的提示词采样和固定次数的每提示词推演。对于异构、重尾分布的推理数据,这种机制会导致结构性低效——既在已掌握模式上浪费算力,又对困难问题的长尾部分训练不足。为此,我们提出多对抗者分组分布鲁棒优化框架,这是一种以优化为先导的方法,通过动态调整训练分布突破均匀推理模型的限制。 我们引入了在线难度分类器,将提示词动态划分为基于pass@k指标的难度分组。随后提出两个独立的训练后GDRO博弈机制:(1)提示词-GDRO采用指数移动平均去偏的乘性权重赌博机采样器,精准聚焦高强度难度边界,在避免频率偏差的前提下持续提升顽固困难组的权重;(2)推演-GDRO通过影子价格控制器在组间重新分配推演次数,在固定平均算力预算下实现困难任务梯度方差削减的最大化。我们为两个控制器提供了无悔保证,并对推演-GDRO进行了方差代理分析,推导出平方根最优的推演分配方案。 基于Qwen3-Base模型在DAPO 14.1k数据集上的实验表明:在1.7B、4B和8B参数规模下,提示词-GDRO与推演-GDRO在pass@8准确率上相较GRPO基线分别实现平均10.6%和10.1%的相对提升。定性分析揭示了 emergent curriculum 现象:对抗者将资源向持续演进的推理边界倾斜,从而显著增强推理模型的性能表现。
在仇恨言论检测等社会敏感性任务中,大型语言模型(LLMs)生成解释的质量对用户信任和模型对齐等因素至关重要。虽然角色提示(PP)作为一种引导模型实现用户定制化生成的方式日益普及,但其对模型推理过程的影响仍待深入探索。我们研究了LLM生成的归因依据如何随不同模拟人口统计角色的设定而变化。通过使用带有词级归因标注的数据集,我们测量了模型与不同人口统计群体人工标注的一致性,并评估了PP对模型偏见和人类对齐的影响。针对三种LLMs的评估结果揭示三个关键发现:(1)PP在最主观的任务(仇恨言论检测)中提升分类性能,但会降低归因质量;(2)模拟角色未能与现实世界中对应人口统计群体对齐,且角色间高度一致性表明模型难以被有效引导;(3)无论是否使用PP,模型均表现出稳定的人口统计偏见和过度标记内容为有害的强烈倾向。我们的研究揭示了一个关键权衡:尽管PP能提升社会敏感性任务的分类性能,但这往往以牺牲归因质量为代价,且无法缓解模型固有偏见,因此在实际应用中需审慎使用。
素描为动画创作提供了一种直观传达动态意图的方式(即元素如何随时间与空间变化),使其成为自动内容生成的天然媒介。然而现有方法常将素描局限于固定指令标记或预定义视觉形态,忽视了其自由形式的本质以及人类在意图塑造中的核心作用。为此,我们提出一种交互范式:用户通过自由手绘向视觉语言模型传达动态意图,并以草图故事板到动态图形的流程实现该范式。我们开发了交互界面,并通过24名参与者的三阶段研究进行优化。研究表明:素描能以极简输入传递运动信息,其固有模糊性需用户参与澄清,且能通过视觉引导实现视频精细化调整。我们的发现揭示了素描与AI交互在弥合意图与结果之间鸿沟的潜力,并验证了其在3D动画和视频生成领域的适用性。
随着机器人实时部署需求的日益增长,视觉-语言-动作模型亟需实现快速且端侧的推理能力。在现有VLA模型研究中,效率优化多聚焦于令牌层级(如视觉令牌剪枝),而系统性减少Transformer层数的研究却鲜有关注。据我们所知,在知识蒸馏框架下对基于流预测的VLA模型进行层数压缩的探索尚属空白。本文提出Shallow-pi——一种原则性知识蒸馏框架,通过将VLM主干网络和流式动作头的Transformer层数从18层压缩至6层,实现了推理速度提升两倍以上,并在标准操作基准测试中成功率下降幅度小于1%,确立了精简VLA模型中的最优性能。关键的是,我们在Jetson Orin和Jetson Thor边缘设备上,通过多机器人平台(包括人形机器人系统)在复杂动态操作场景中的工业级真实实验验证了该方法的有效性。