每日精选AI研究论文及翻译
本文介绍了群序列策略优化(Group Sequence Policy Optimization, GSPO),这是一种稳定、高效且性能卓越的强化学习算法,专为训练大规模语言模型而设计。与以往采用词元级别重要性比率的算法不同,GSPO基于序列似然性定义重要性比率,并在序列级别进行裁剪、奖励和优化。我们证明,相较于GRPO算法,GSPO在训练效率和性能上均表现出色,显著稳定了专家混合(Mixture-of-Experts, MoE)强化学习训练过程,并具备简化强化学习基础设施设计的潜力。GSPO的这些优势为最新Qwen3模型的显著提升做出了重要贡献。
近期,基于Transformer架构的研究在视频生成任务中取得了显著成功。然而,全注意力机制的二次方复杂度仍是关键瓶颈,尤其在高分辨率和长时间视频序列处理时更为突出。本文提出NABLA,一种新颖的邻域自适应块级注意力机制,它能动态适应视频扩散变换器(DiTs)中的稀疏模式。通过采用自适应稀疏驱动阈值的块级注意力,NABLA在保持生成质量的同时降低了计算开销。我们的方法无需定制底层算子设计,并能无缝集成于PyTorch的Flex Attention算子。实验表明,与基线相比,NABLA实现了高达2.7倍的训练与推理加速,几乎未在量化指标(CLIP分数、VBench分数、人类评估分数)和视觉质量上做出妥协。代码及模型权重已公开于:https://github.com/gen-ai-team/Wan2.1-NABLA。
大型语言模型(LLMs)在推理密集型任务上已展现出卓越性能,然而优化其推理效率仍是一个待解的难题。尽管测试时扩展(TTS)提升了推理质量,却常导致过度思考,浪费计算资源于冗余运算。本研究探讨了如何在不额外训练的前提下,高效且自适应地引导LLM的测试时扩展。受物理学中动量概念的启发,我们提出了动量不确定性引导推理(MUR),通过追踪并聚合随时间推移的步骤不确定性,动态分配思考预算至关键推理步骤。为支持灵活的推理时控制,我们引入了gamma控制机制,这一简单方法通过单一超参数调节推理预算。我们提供了深入的理论证明,支持MUR在稳定性和偏差方面的优越性。MUR在四个具有挑战性的基准测试(MATH-500、AIME24、AIME25和GPQA-diamond)上,针对不同规模的近期Qwen3模型(1.7B、4B和8B),与多种TTS方法进行了全面评估。结果表明,MUR平均减少超过50%的计算量,同时准确率提升0.62%至3.37%。
我们推出Captain Cinema,一个专为短片生成设计的框架。该框架基于电影情节的详细文本描述,首先生成一系列关键帧,勾勒出整个故事的轮廓,确保故事情节与视觉呈现(如场景与角色)的长程一致性。我们称此步骤为自上而下的关键帧规划。这些关键帧随后作为条件信号,输入至支持长上下文学习的视频合成模型,以生成它们之间的时空动态。此步骤被称为自下而上的视频合成。为了支持多场景、长叙事电影作品的稳定高效生成,我们引入了针对长上下文视频数据特别优化的多模态扩散变换器(MM-DiT)的交错训练策略。我们的模型在一个精心策划的、包含交错数据对的电影数据集上进行训练。实验表明,Captain Cinema在高质量、高效率地自动生成视觉连贯、叙事一致的短片方面表现优异。项目页面:https://thecinema.ai
大型推理模型通过扩展的思维链序列取得了显著性能,但这种计算自由度导致即使是简单问题也会产生过多的token生成。我们提出了长度自适应策略优化(LAPO),这是一个新颖的框架,将推理长度控制从外部约束转变为模型的内在能力。与现有方法中施加严格限制或依赖事后干预不同,LAPO通过两阶段强化学习过程使模型内化对适当推理深度的理解。在第一阶段,模型通过发现成功解长度的统计分布来学习自然推理模式。第二阶段则利用这些模式作为元认知指导,将其直接嵌入模型的推理上下文中,以确保推理时的灵活性。在数学推理基准测试上的实验表明,LAPO最多可减少40.9%的token使用,同时提高2.3%的准确率。我们的分析揭示,经过LAPO训练的模型发展出了根据问题复杂度分配计算资源的涌现能力,实现了高效推理而不牺牲质量。
尽管近期3D生成技术取得了显著进展,但将这些方法扩展到地理尺度——例如建模数千平方公里的地球表面——仍是一个未解的难题。我们通过数据基础设施与模型架构的双重创新来应对这一挑战。首先,我们推出了Aerial-Earth3D,这是迄今为止最大的3D航空数据集,包含在美国本土拍摄的50,000个精选场景(每个场景大小为600米×600米),共计4500万帧多视角Google Earth图像。每个场景提供带有姿态标注的多视角图像、深度图、法线、语义分割及相机位姿,并通过严格的质量控制确保地形多样性。基于此,我们提出了EarthCrafter,一个专为大规模3D地球生成设计的框架,采用稀疏解耦的潜在扩散方法。我们的架构将结构与纹理生成分离:1)双稀疏3D-VAE将高分辨率几何体素和纹理2D高斯溅射(2DGS)压缩至紧凑的潜在空间,极大缓解了因地理规模庞大带来的计算成本,同时保留了关键信息。2)我们提出了条件感知的流匹配模型,训练于混合输入(语义、图像或无输入)之上,以灵活独立地建模潜在几何与纹理特征。大量实验表明,EarthCrafter在超大规模生成任务中表现卓越。该框架还支持多种应用,从语义引导的城市布局生成到无条件地形合成,同时通过Aerial-Earth3D提供的丰富数据先验,保持了地理合理性。项目页面请访问https://whiteinblue.github.io/earthcrafter/。
扩展视觉生成模型对于现实世界的内容创作至关重要,但同时也伴随着巨大的训练和计算成本。相比之下,测试时扩展因其资源效率和优异性能而日益受到关注。在本研究中,我们提出了TTS-VAR,这是首个针对视觉自回归(VAR)模型的通用测试时扩展框架,将生成过程建模为路径搜索问题。为了在计算效率与探索能力之间实现动态平衡,我们首先在整个因果生成过程中引入了自适应递减的批量大小调度策略。此外,受VAR模型从粗到细的多尺度分层生成启发,我们的框架整合了两个关键组件:(i) 在粗尺度上,我们观察到生成的标记难以评估,可能导致错误地接受劣质样本或拒绝优质样本。注意到粗尺度包含充足的结构信息,我们提出了基于聚类的多样性搜索方法。该方法通过语义特征聚类保持结构多样性,从而为后续选择具有更高潜力的样本奠定基础。(ii) 在细尺度上,基于重采样的潜力选择利用潜力评分优先考虑有前景的候选样本,这些评分定义为结合多尺度生成历史的奖励函数。在强大的VAR模型Infinity上的实验显示,GenEval评分显著提升了8.7%(从0.69增至0.75)。关键发现表明,早期阶段的结构特征有效影响最终质量,且重采样效果随生成尺度的不同而变化。代码已发布于https://github.com/ali-vilab/TTS-VAR。
大型推理模型通过广泛的思维链生成实现了卓越的性能,但在处理不同复杂度问题时采用统一的推理策略,导致显著的计算效率低下。我们提出了分层预算策略优化(HBPO),这是一个强化学习框架,使模型能够在不牺牲能力的情况下学习针对特定问题的推理深度。HBPO解决了效率导向训练中探索空间崩溃的根本挑战,即对长输出长度的惩罚会系统性地使模型偏离必要的长推理路径。通过分层预算探索,我们的方法将滚动样本划分为具有不同令牌预算的多个子组,旨在实现资源的高效分配,同时防止能力下降。我们引入了差异化的奖励机制,创建与问题复杂性相一致的预算感知激励,使模型能够发现任务需求与计算努力之间的自然对应关系。大量实验表明,HBPO在四个推理基准测试中平均令牌使用量减少了高达60.6%,同时准确率提高了3.14%。与现有方法不同,HBPO不施加外部约束或依赖离散模式选择,而是表现出自适应的行为,模型能够根据问题复杂度自动调整推理深度。我们的结果表明,推理效率与能力并非天生冲突,通过适当结构化的分层训练,可以在保持探索多样性的同时实现两者的同步优化。
信息抽取(IE)是众多自然语言处理应用的基础,然而现有解决方案往往需要针对不同任务定制专门模型,或依赖于计算成本高昂的大型语言模型。我们推出了GLiNER2,这是一个统一框架,它在原有GLiNER架构的基础上进行了增强,支持命名实体识别、文本分类以及层次化结构化数据抽取,所有功能集成于一个高效模型之中。基于预训练的Transformer编码器架构,GLiNER2在保持CPU高效性和紧凑体积的同时,通过直观的基于模式的接口引入了多任务组合能力。我们的实验表明,在抽取和分类任务上,GLiNER2展现了竞争力,并在部署便捷性上相比基于大语言模型的方案有显著提升。我们将GLiNER2作为开源项目发布,提供pip可安装的库、预训练模型及详细文档,访问地址为https://github.com/fastino-ai/GLiNER2。
面对概念漂移的非稳态数据流学习,需要模型能够在保持资源效率的同时实现即时适应。现有的自适应集成方法通常依赖于粗粒度的适应机制或简单的投票方案,未能充分利用专业知识。本文提出了DriftMoE,一种在线专家混合(MoE)架构,通过新颖的协同训练框架解决了这些局限。DriftMoE配备了一个紧凑的神经路由器,与一组增量式霍夫丁树专家共同训练。其核心创新在于一个促进专家专业化的共生学习循环:路由器选择最合适的专家进行预测,相关专家根据真实标签进行增量更新,而路由器则利用一个多热正确性掩码优化其参数,该掩码强化了每位准确专家的表现。这一反馈循环为路由器提供了清晰的训练信号,同时加速了专家的专业化进程。我们在涵盖突变、渐变及现实世界漂移的九大数据流学习基准上评估了DriftMoE的性能,测试了两种配置:一种是专家专注于数据区域(多类别变体),另一种是专家聚焦于单类别专业化(任务导向变体)。结果表明,DriftMoE与最先进的流学习自适应集成方法相比具有竞争力,为概念漂移适应提供了一种原则性强且高效的途径。所有代码、数据管道及可复现性脚本均已公开于我们的GitHub仓库:https://github.com/miguel-ceadar/drift-moe。
我们推出最新一代TeleChat系列模型:TeleChat2、TeleChat2.5及T1,相较于前代TeleChat实现了显著升级。尽管模型架构变动不大,但通过优化预训练与后训练阶段的策略,新系列在性能上取得了重大突破。该系列以TeleChat2为起点,其预训练过程使用了10万亿高质量且多样化的token,随后通过监督微调(SFT)和直接偏好优化(DPO)进一步增强能力。TeleChat2.5和T1在此基础上扩展了训练流程,引入了针对特定领域的持续预训练阶段,并结合强化学习(RL)以提升代码生成和数学推理任务的表现。其中,T1版本专为复杂推理设计,支持长链式思维(CoT)推理,在数学与编程方面展现出显著进步;而TeleChat2.5则侧重于速度,提供快速推理能力。这两款旗舰模型T1和TeleChat2.5均采用密集的Transformer架构,拥有1150亿参数,相比原版TeleChat,在推理与通用任务性能上实现了重大跨越。值得注意的是,T1-115B在多项指标上超越了OpenAI的o1-mini和GPT-4o等专有模型。我们公开发布了TeleChat2、TeleChat2.5及T1,包括350亿和1150亿参数的后训练版本,旨在为开发者和研究人员提供面向多样化应用的最先进语言模型。
文本到图像合成领域的最新进展在很大程度上得益于复杂的采样策略和无分类器引导(CFG),以确保生成高质量图像。然而,CFG依赖于两次前向传播,尤其是在结合复杂的采样算法时,导致了极高的推理成本。为解决这一问题,我们提出了TeEFusion(文本嵌入融合),这是一种新颖且高效的蒸馏方法,它直接将引导强度融入文本嵌入中,并蒸馏教师模型的复杂采样策略。通过简单的线性操作融合条件与无条件文本嵌入,TeEFusion无需额外参数即可重建所需的引导效果,同时使学生模型能够学习教师模型通过其复杂采样方法生成的输出。在诸如SD3等最先进模型上的大量实验表明,我们的方法使学生模型能够以更为简洁高效的采样策略紧密模仿教师模型的性能。因此,学生模型的推理速度比教师模型快至6倍,同时保持的图像质量与教师模型复杂采样方法所得相当。代码已公开于https://github.com/AIDC-AI/TeEFusion{github.com/AIDC-AI/TeEFusion}。
本报告记录、描述并评估了2024年新版英语GloVe(全局词向量表示)模型。尽管2014年构建的原始GloVe模型已被广泛应用并证明其价值,但语言与世界持续演进,我们认为当前使用场景可从更新后的模型中获益。此外,2014版模型在具体数据版本及预处理步骤方面缺乏详尽记录,我们通过详细记录这些新模型来弥补这一不足。我们利用维基百科、Gigaword以及Dolma子集训练了两组词向量。通过词汇对比、直接测试及命名实体识别(NER)任务的评估表明,2024版向量融入了新的文化和语言相关词汇,在类比和相似性等结构性任务上表现相当,并在诸如非西方新闻数据等近期、时间依赖性强的NER数据集上展现出性能提升。
在计算机视觉领域,图像分割通常依据语义考量进行定义,并高度依赖于特定类别的惯例。相比之下,发展心理学研究表明,人类是以斯佩尔克物体(Spelke objects)的视角来感知世界的——这些物体是由物理实体组成的集合,在受到物理力作用时能够可靠地一起移动。因此,斯佩尔克物体基于与类别无关的因果运动关系运作,这可能更有利于支持诸如操作和规划等任务。本文首先对斯佩尔克物体概念进行了基准测试,引入了SpelkeBench数据集,该数据集包含了自然图像中多种定义明确的斯佩尔克分割。接着,为了从图像中算法化地提取斯佩尔克分割,我们构建了SpelkeNet,这是一类视觉世界模型,旨在预测未来运动的分布。SpelkeNet支持估计斯佩尔克物体发现的两个关键概念:(1) 运动可能性图,识别在“戳”动作下可能移动的区域;(2) 预期位移图,捕捉场景其余部分将如何移动。这些概念被用于“统计反事实探测”,即在具有高运动可能性的区域施加多样化的“虚拟戳”,并利用由此产生的预期位移图将斯佩尔克分割定义为相关运动统计的统计聚合。我们发现,在SpelkeBench上,SpelkeNet的表现优于如SegmentAnything(SAM)等有监督基线模型。最后,我们展示了斯佩尔克概念在实际应用中的实用性,当将其应用于多种现成的物体操作模型时,在3DEditBench物理物体操作基准测试中取得了更优的性能。
基于扩散模型的文本转语音(TTS)系统在零样本语音合成领域取得了显著进展,然而针对感知指标优化所有组件仍具挑战性。先前的研究通过DMOSpeech展示了直接优化语音生成组件的指标,但时长预测部分尚未得到优化。本文提出了DMOSpeech 2,通过强化学习方法将指标优化扩展至时长预测器。该系统采用了一种新颖的时长策略框架,结合群体相对偏好优化(GRPO),以说话人相似度和词错误率作为奖励信号。通过优化这一先前未优化的组件,DMOSpeech 2构建了一个更为完整的指标优化合成流程。此外,本文还引入了教师引导采样,这是一种混合方法,利用教师模型进行初始去噪步骤,随后过渡到学生模型,在保持效率的同时显著提升了输出多样性。全面评估显示,与之前系统相比,DMOSpeech 2在所有指标上均表现出色,同时采样步骤减少一半且无质量下降。这些进展标志着在多个组件上实现指标优化的语音合成系统迈出了重要一步。音频样本、代码及预训练模型可在https://dmospeech2.github.io/获取。
大型语言模型(LLMs)在金融应用领域展现出巨大潜力;然而,现有模型在面对需要高级推理能力、严格可信度要求及高效适应领域特定需求的场景时,往往表现出局限性。我们推出了Agentar-Fin-R1系列金融大语言模型(8B和32B参数),该系列基于Qwen3基础模型专门设计,旨在增强金融应用中的推理能力、可靠性和领域专长。我们的优化方法融合了一套高质量、系统化的金融任务标签体系与一个全面的多层次可信度保障框架。此框架涵盖了高质量可信知识工程、多智能体可信数据合成以及严格的数据验证治理。通过标签引导的自动化难度感知优化、两阶段训练管道及动态归因系统,我们显著提升了训练效率。我们的模型在主流金融基准测试如Fineva、FinEval和FinanceIQ,以及通用推理数据集如MATH-500和GPQA-diamond上接受了全面评估。为深入评估实际部署能力,我们创新性地提出了Finova评估基准,专注于智能体级别的金融推理与合规性验证。实验结果表明,Agentar-Fin-R1不仅在金融任务上达到了业界领先水平,还展现了卓越的通用推理能力,验证了其作为高风险金融应用可信解决方案的有效性。Finova基准测试平台可在https://github.com/antgroup/Finova获取。
我们推出Iwin Transformer,一种无需位置嵌入的层次化视觉Transformer,通过创新的交错窗口注意力与深度可分离卷积的协作,能够直接从低分辨率到高分辨率进行微调。该方法利用注意力机制连接远距离的标记,并应用卷积链接邻近的标记,从而在单一模块内实现全局信息交换,克服了Swin Transformer需要连续两个模块来近似全局注意力的局限。在视觉基准上的大量实验表明,Iwin Transformer在图像分类(ImageNet-1K上87.4%的top-1准确率)、语义分割及视频动作识别等任务中展现出强劲竞争力。我们还验证了Iwin核心组件作为独立模块的有效性,它能够无缝替换类别条件图像生成中的自注意力模块。Iwin Transformer引入的概念与方法,如Iwin 3D Attention在视频生成中的应用,有望激发未来研究。代码与模型已发布于https://github.com/cominder/Iwin-Transformer。
部分相关视频检索(PRVR)致力于解决一个关键挑战:将未经剪辑的视频与仅描述部分内容的文本查询相匹配。现有方法在欧几里得空间中存在几何失真问题,有时会误传视频的内在层次结构,并忽视某些层次语义,最终导致时间建模效果欠佳。为解决这一问题,我们首次提出了针对PRVR的双曲建模框架——HLFormer,该框架利用双曲空间学习来弥补欧几里得空间在层次建模能力上的不足。具体而言,HLFormer结合了洛伦兹注意力块和欧几里得注意力块,在混合空间中编码视频嵌入,并通过均值引导的自适应交互模块动态融合特征。此外,我们引入了部分顺序保持损失,通过洛伦兹锥约束强化“文本<视频”的层次关系。这一方法通过加强视频内容与文本查询之间的部分相关性,进一步提升了跨模态匹配效果。大量实验表明,HLFormer在性能上超越了现有最先进的方法。代码已发布于https://github.com/lijun2005/ICCV25-HLFormer。
医学图像分割在众多医疗任务中至关重要,包括疾病诊断与治疗规划。其中,皮肤病变分割作为关键领域,对于皮肤癌的诊断及患者监测具有重要意义。在此背景下,本文提出了一种基于扩散变换器(DiT)的新型分割模型——SegDT。SegDT专为低成本硬件设计,并引入了整流流(Rectified Flow)技术,该技术不仅能在减少推理步骤的同时提升生成质量,还保持了标准扩散模型的灵活性。我们的方法在三个基准数据集上进行了评估,并与多项现有工作进行了对比,结果显示其在保持快速推理速度的同时,达到了业界领先的精度。这使得所提出的模型在实际医疗应用中极具吸引力。本研究成果推动了深度学习模型在医学图像分析中的性能与能力,为医疗专业人员提供了更快、更精准的诊断工具。相关代码已公开于https://github.com/Bekhouche/SegDT{GitHub}。
本文提出了一种基于深度学习的新方法,用于从面部图像中同时进行年龄和性别分类,旨在提升定向广告活动的有效性。我们设计了一种定制的卷积神经网络(CNN)架构,针对这两项任务进行了优化,该架构充分利用了面部特征中年龄与性别信息之间的内在关联。与现有方法通常独立处理这些任务不同,我们的模型学习共享表示,从而提高了性能。该网络在一个大规模、多样化的面部图像数据集上进行训练,这些图像经过精心预处理,以确保对光照、姿态和图像质量变化的鲁棒性。实验结果显示,性别分类准确率显著提升,达到95%,年龄估计的平均绝对误差为5.77岁,表现具有竞争力。重要的是,我们分析了不同年龄组的表现,识别出在准确估计年轻人年龄方面存在的特定挑战。这一分析揭示了针对性的数据增强和模型优化的必要性,以解决这些偏差。此外,我们探讨了不同CNN架构和超参数设置对整体性能的影响,为未来研究提供了宝贵的见解。
基于强大语言基础构建的多模态大语言模型(MLLMs)已实现了多模态上下文学习(MICL)——通过包含图像、问题及答案的少量多模态示例适应新任务。尽管在标准视觉-语言数据集上显示出显著改进,当前MLLMs在利用示例中的视觉信息方面仍面临挑战。具体而言,它们往往忽视视觉线索,过度依赖文本模式,导致仅模仿文本而非真正实现多模态适应。这种行为使得MICL实质上仍为单模态,大大限制了其实际应用价值。更重要的是,这一局限常被那些无需理解视觉上下文的任务性能提升所掩盖。因此,如何有效增强MICL能力并可靠评估其表现仍待深入探索。针对这些问题,我们首先提出了动态注意力重分配(DARA),一种通过重新平衡视觉与文本标记间注意力来鼓励模型关注视觉上下文的高效微调策略。此外,我们推出了TrueMICL,一个专为MICL设计的数据集,包含支持集与测试集,明确要求整合多模态信息——特别是视觉内容——以正确完成任务。大量实验验证了我们整体解决方案的有效性,展示了在多模态上下文学习真实能力上的显著提升。代码与数据集可在https://chenxshuo.github.io/true-micl-colm获取。