每日精选AI研究论文及翻译
我们推出SAM 3D——一种基于视觉的生成式三维物体重建模型,能够通过单张图像预测几何结构、纹理贴图和空间布局。该模型在自然场景图像中表现卓越,尤其适用于存在遮挡和场景杂波的常见情况,其中基于上下文的视觉识别线索起着更为关键的作用。我们通过人机协同标注流程实现了物体形状、纹理和姿态的精准标注,以前所未有的规模提供了视觉基础的三维重建数据。在现代多阶段训练框架下,我们结合合成预训练与真实场景对齐技术,突破了三维数据的"资源壁垒"。相较于近期研究成果,我们实现了显著提升,在真实物体与场景的人类偏好测试中以至少5:1的胜率领先。我们将公开代码与模型权重、在线演示系统,以及针对野外环境三维物体重建的新挑战性基准测试集。
大型语言模型(LLM)智能体通常通过强化学习进行训练,但其发展受限于对人类标注数据的依赖,这不仅制约了扩展性,还将人工智能束缚于人类知识范畴。现有自进化框架虽提供替代方案,但往往受限于模型固有能力和单轮交互机制,难以支撑涉及工具使用或动态推理的复杂课程学习。我们提出Agent0——一种完全自主的框架,通过多步协同进化与无缝工具集成,无需外部数据即可培育高性能智能体。该框架在源自同一基础LLM的两个智能体间建立共生竞争机制:课程智能体负责提出日益挑战性的前沿任务,执行智能体则学习解决这些任务。通过集成外部工具增强执行者的问题解决能力,这种提升反过来迫使课程智能体构建更复杂的工具感知任务。在此迭代过程中,Agent0形成了自我强化的循环,持续生成高质量课程体系。实验表明,Agent0显著提升推理能力,将Qwen3-8B-Base模型在数学推理和通用推理基准上的表现分别提升18%和24%。代码已开源:https://github.com/aiming-lab/Agent0。
在视频生成模型中,首帧图像究竟扮演着何种角色?传统观点将其视为视频的时空起点,仅仅是后续动态的生成种子。而本研究揭示了截然不同的视角:视频模型隐式地将首帧作为概念记忆缓冲区,存储视觉实体以供生成过程中重复调用。基于这一发现,我们仅需20-50个训练样本即可在不改变模型架构或进行大规模微调的情况下,实现多样化场景中稳健通用的视频内容定制。这揭示了视频生成模型基于参考内容进行视频定制的强大却长期被忽视的能力。
近期推理模型的进展通过扩展的思维链推演,在文本和视觉领域取得了显著成功。然而音频语言模型领域始终存在一个令人困惑的现象:模型在使用极少甚至无需推理的情况下表现更佳,这引发了一个根本性问题——音频智能是否真能从深思熟虑中受益?我们推出Step-Audio-R1,这是首个成功解锁音频领域推理能力的音频推理模型。通过我们提出的模态锚定推理蒸馏框架,该模型学会了生成与音频相关的推理链,使其真正扎根于声学特征而非产生脱节的虚构建构。我们的模型展现出强大的音频推理能力,在涵盖语音、环境声与音乐的综合音频理解与推理基准测试中,不仅超越Gemini 2.5 Pro,更达到与最先进的Gemini 3 Pro相媲美的性能。这些结果表明,当推理能力被恰当锚定时,可成为跨模态的可迁移能力,从而将扩展推演从音频智能的负担转化为强大资产。通过建立首个成功的音频推理模型,Step-Audio-R1为构建真正跨所有感知模态进行深度思考的多模态推理系统开辟了新路径。
尽管取得了显著进展,多模态基础模型在空间智能方面仍存在明显不足。本研究通过扩展多模态基础模型规模,在SenseNova-SI系列中培育空间智能能力。该系列基于成熟的多模态基础构建,包括视觉理解模型(如Qwen3-VL和InternVL3)以及统一理解与生成模型(如Bagel)。我们采用系统化方法构建高性能、强鲁棒性的空间智能:通过严格的空间能力分类体系,精心策划了包含800万多样本数据的SenseNova-SI-8M数据集。SenseNova-SI在多项空间智能基准测试中展现出突破性性能:VSI-Bench达68.7%,MMSI达43.3%,MindCube达85.6%,ViewSpatial达54.6%,SITE达50.1%,同时保持强大的通用多模态理解能力(如MMBench-En达84.9%)。更重要的是,我们分析了数据规模扩展的影响,探讨了多样化数据训练带来的泛化能力早期迹象,解析了过拟合与语言捷径风险,开展了空间思维链推理的初步研究,并验证了潜在的下游应用前景。SenseNova-SI为持续演进项目,本报告将定期更新。所有新训练的多模态基础模型均已开源,以促进该领域的深入研究。
近期,如Veo-3等生成视频模型的进展展现了令人惊讶的零样本推理能力,这催生了对系统化、可靠评估方法的迫切需求。为此,我们推出了V-ReasonBench,一个旨在从四个关键维度评估视频推理能力的基准:结构化问题解决、空间认知、基于模式的推理以及物理动态理解。该基准集成了合成与真实世界的图像序列,提供了一系列答案可验证的任务,这些任务具有可重复性、可扩展性及明确性。对六种顶尖视频模型的评估揭示了各维度间的显著差异,特别是在结构化、空间、模式基础及物理推理方面表现出的强烈变化。我们进一步将视频模型与强大的图像模型进行对比,分析了常见的幻觉行为,并探讨了视频时长对帧链推理的影响。总体而言,V-ReasonBench为衡量视频推理提供了一个统一且可复现的框架,旨在支持开发具备更可靠、与人类思维对齐的推理能力的模型。
尽管语言模型已在众多实际应用中产生重要影响,视频生成领域仍主要局限于娱乐用途。受视频与生俱来的物理世界信息展示能力启发(例如仅通过文本教导他人打领带的困难),我们发现了一个尚未充分利用的机遇:将视频拓展为下一代事件预测(NEP)的新型答案模态,并将其形式化为视频化下一代事件预测(VNEP)。传统NEP任务以包含程序性或预测性问题的视频作为输入,通过文本来预测下一事件,而VNEP则需要动态视频响应。这种从"讲述"到"展示"的转变,为程序化学习和创意探索开启了更直观、更个性化的解答方式。然而,该任务对现有模型仍具挑战性,因其需要理解多模态输入、进行指令条件推理,并生成视觉与语义一致的视频。为此,我们提出VANS模型,通过强化学习将视觉语言模型(VLM)与视频扩散模型(VDM)对齐以实现VNEP。VANS的核心是我们提出的联合生成式强化策略优化(Joint-GRPO),它能协调VLM和VDM作为整体运作。基于两者输出的共享奖励机制,该策略既优化VLM生成兼具准确性和可视化友好度的描述文本,又指导VDM生成符合文本描述及输入视觉语境的视频。为支撑此学习过程,我们构建了专用于VNEP任务的VANS-Data-100K数据集。在程序性和预测性基准测试上的实验表明,VANS在视频事件预测与可视化方面均实现了最先进的性能。代码已发布于https://github.com/KlingTeam/VANS。
训练面向多尺度与多部署目标的大语言模型家族成本极其高昂,每个不同规模的模型都需要独立训练。近期通过剪枝和知识蒸馏实现的模型压缩技术虽降低了成本,但每个压缩模型仍需消耗数万亿标记的训练开销。本文提出Nemotron Elastic框架,用于构建面向推理的混合Mamba-Attention架构大模型,该框架可在单一父模型中嵌入多个嵌套子模型,每个子模型针对不同部署配置和预算进行优化。这些子模型与父模型共享权重,无需额外训练或微调即可在部署时零样本提取。我们通过端到端训练的路由器实现该功能,该路由器与专为推理模型设计的两阶段训练课程紧密耦合。我们还提出保持Mamba结构约束的组感知SSM弹性化技术、异构MLP弹性化技术、基于归一化MSE的层重要性评估以改进深度选择,以及支持同步多预算优化的知识蒸馏方法。我们将Nemotron Elastic应用于Nemotron Nano V2 12B模型,仅用1100亿训练标记即可同步生成90亿和60亿参数模型,相比从头训练模型家族实现超过360倍的成本降低,相较现有最优压缩技术也有约7倍提升。所有嵌套模型在准确率上均达到或超越现有最优水平。此外,与其他压缩方法不同,本方案的嵌套特性可实现"多合一"推理模型,其部署内存占用与模型家族数量保持恒定。
我们开源了MiMo-Embodied——首个成功融合自动驾驶与具身智能两大领域并实现最先进性能的跨载体基础模型。该模型在任务规划、功能预测和空间理解等17项具身AI基准测试中刷新纪录,同时在环境感知、状态预测和驾驶规划等12项自动驾驶基准测试中表现卓越。在这些任务中,MiMo-Embodied显著超越了现有开源、闭源及专用基线模型。研究表明,通过多阶段学习、精标数据构建以及思维链/强化学习微调,两大领域呈现出显著的积极迁移效应并形成良性互促。我们详细解析了模型架构与训练方法以推动后续研究,代码与模型已发布于https://github.com/XiaomiMiMo/MiMo-Embodied。
视觉-语言-动作(VLA)模型在机器人操控任务中表现出色,但其性能受限于对专家演示数据的重度依赖,易产生演示偏差。强化学习(RL)作为克服这一局限的关键后训练策略,现有VLA-RL方法(包括基于群体的优化方法)却因奖励稀疏性问题而效能受限。仅依赖二元成功指标会浪费失败轨迹中的宝贵信息,导致训练效率低下。为此,我们提出自参照策略优化(SRPO),一种新型VLA-RL框架。SRPO通过将当前训练批次中生成的成功轨迹作为自我参照,无需外部演示或人工奖励工程即可为失败尝试分配渐进式奖励。其核心创新在于利用潜在世界表征来稳健衡量行为进展:通过世界模型潜在空间中的压缩化、可迁移编码,而非依赖原始像素或领域特定微调,自然捕捉跨环境进展模式,实现精准的通用化轨迹比较。在LIBERO基准测试中,SRPO从成功率48.9%的监督基线出发,仅用200步强化学习即达到99.2%的最新最优成功率,相对提升103%且无需额外监督。此外,SRPO在LIBERO-Plus基准上实现167%的性能提升,展现出卓越的鲁棒性。
医院和医疗系统的运行依赖于决定患者流、成本及护理质量的运营决策。尽管通用文本训练的基础模型在医学知识和对话基准测试中表现优异,但它们可能缺乏这些运营决策所需的专业知识。我们推出Lang1模型系列(参数规模1亿至70亿),其预训练数据融合了来自纽约大学朗格尼健康中心电子健康记录的800亿临床标记和来自互联网的6270亿标记。为在真实场景中严格评估Lang1,我们开发了现实医疗评估基准(ReMedE),该基准基于668,331份电子健康记录笔记,评估五大关键任务:30天再入院预测、30天死亡率预测、住院时长、合并症编码和保险拒赔预测。在零样本场景下,通用模型与专业模型在五项任务中有四项表现不佳(AUROC为36.6%-71.7%),仅死亡率预测例外。经微调后,Lang1-1B模型性能优于参数规模达其70倍的微调通用模型,以及参数规模达其671倍的零样本模型,AUROC分别提升3.64%-6.75%和1.66%-23.66%。我们还观察到跨任务扩展效应:对多任务联合微调可提升其他任务表现。Lang1-1B能有效迁移至分布外场景,包括其他临床任务和外部医疗系统。研究表明,医院运营的预测能力需要显式监督微调,而基于电子健康记录的领域内预训练可提升微调效率。我们的发现印证了新兴观点:专业大语言模型能在特定任务中与通用模型竞争,并表明构建有效的医疗系统人工智能需要结合领域内预训练、监督微调以及超越代理基准的真实场景评估。
神经信息检索系统在高资源语言中表现卓越,但对土耳其语这类形态丰富、资源相对匮乏的语言仍缺乏深入探索。稠密双编码器当前主导土耳其语信息检索,而保留词元级表征以实现细粒度匹配的延迟交互模型尚未得到系统评估。我们推出TurkColBERT——首个全面比较稠密编码器与延迟交互模型在土耳其语检索性能的基准框架。通过两阶段适配流程:先在土耳其语NLI/STS任务上微调英语及多语言编码器,再利用基于MS MARCO-TR训练的PyLate将其转换为ColBERT风格检索器。我们在覆盖科学、金融及论证领域的五个土耳其语BEIR数据集上评估了10个模型。结果表明参数效率优势显著:仅含1.0M参数的colbert-hash-nano-tr比600M参数的turkish-e5-large稠密编码器缩小600倍,却保持其平均mAP的71%以上。参数量比稠密编码器小3-5倍的延迟交互模型显著优于后者,其中ColmmBERT-base-TR在特定领域任务上实现最高13.8%的mAP提升。针对生产环境需求,我们比较索引算法:MUVERA+重排序比PLAID快3.33倍,并带来1.7%的相对mAP提升。这使得ColmmBERT-base-TR在MUVERA下实现0.54毫秒查询延迟的低延迟检索。我们已开源所有检查点、配置及评估脚本。当前局限包括依赖中等规模数据集(≤5万文档)及翻译基准,可能无法完全反映真实土耳其语检索环境;更大规模的MUVERA评估仍有待开展。
我们提出NaTex——一种直接在三维空间中预测纹理颜色的原生纹理生成框架。与以往依赖烘焙由几何条件多视图扩散模型(MVDs)生成的二维多视角图像的方法不同,NaTex规避了MVD流程的若干固有局限。这些局限包括:处理需修复的遮挡区域困难、难以实现边界处网格与纹理的精准对齐、以及保持跨视角内容与色彩强度的一致性和连贯性。NaTex采用创新范式,将纹理视作密集彩色点云,从而解决上述问题。基于这一理念,我们提出潜空间色彩扩散技术,包含几何感知的彩色点云VAE和多控制扩散Transformer(DiT)——整套系统使用三维数据从头训练,专用于纹理重建与生成。为实现精准对齐,我们引入原生几何控制机制,通过位置编码和几何潜变量将直接三维空间信息作为DiT的条件输入。我们协同设计了VAE-DiT架构:几何潜变量由与色彩VAE紧密耦合的专用几何分支提取,提供与纹理保持强对应关系的细粒度表面引导。通过这些设计,NaTex展现出强大性能,在纹理连贯性与对齐精度上显著超越现有方法。此外,NaTex还表现出优异的泛化能力,无需训练或仅需简单调参即可适用于材质生成、纹理优化、部件分割与纹理映射等多种下游任务。
视觉生成领域的最新进展正日益探索推理能力的整合。现有方法虽已引入文本推理(即在生成前作为预规划或生成后作为精炼环节),但缺乏生成过程中的实时多模态交互。在本初步研究中,我们提出"边生成边推理"(TwiG)框架——首个实现文本推理与视觉生成全程协同演进的交错式架构。该框架在视觉内容渐进生成过程中,通过交错进行文本推理来指导即将生成的局部区域,并对已合成内容进行反思。这种动态交互能产生更具上下文感知能力且语义丰富的视觉输出。为挖掘该框架潜力,我们探索了三种候选策略:零样本提示、基于自建TwiG-50K数据集的有监督微调,以及通过定制化TwiG-GRPO策略实现的强化学习,每种策略都为交错式推理的动态机制提供独特见解。本研究有望推动文本推理交错技术在增强视觉生成方面的深入探索。代码将发布于:https://github.com/ZiyuGuo99/Thinking-while-Generating。
我们推出TimeViper混合视觉语言模型,旨在解决长视频理解中的挑战。处理长视频既需要高效的模型架构,又需要有效的长时序上下文处理机制。为此,TimeViper采用混合Mamba-Transformer骨干网络,将状态空间模型的高效性与注意力机制的表现力相结合。通过这种混合设计,我们揭示了视觉到文本的信息聚合现象:随着大语言模型深度增加,信息从视觉标记逐步流向文本标记,导致视觉标记出现严重冗余。基于这一发现,我们提出TransV模块——一种通过指令标记实现视觉标记转移与压缩的令牌信息传输模块,在保持多模态理解能力的同时,可将视觉标记压缩至原有数量的1/64。该设计使TimeViper能够处理超过10,000帧、时长可达小时级的视频。在多基准测试中的大量实验表明,TimeViper在扩展处理帧数的同时仍可与最先进模型竞争。我们还进一步分析了Mamba和Transformer层的注意力行为,为混合模型的可解释性研究提供了新视角。这项工作是开发、解释和压缩混合Mamba-Transformer架构的初步探索。
UV展开技术将三维表面以最小失真度展开为二维平面,通常需要将复杂曲面分解为多个图块。尽管该技术已被广泛研究,但现有方法在处理AI生成网格时常常表现不佳——这类网格通常存在噪点、凹凸不平且几何条件较差。现有方法往往产生高度碎片化的图块和欠佳的边界,导致伪影产生并阻碍下游任务。我们提出PartUV,一种基于部件划分的UV展开流程,能在保持低失真度的同时生成数量显著减少且与部件对齐的图块。该方案基于最新基于学习的部件分解方法PartField构建,通过自上而下的递归框架将高层语义部件分解与新颖的几何启发式算法相结合。它能确保每个图块的失真度低于用户指定阈值,同时最小化图块总数。该流程整合并拓展了参数化与排布算法,包含对非流形与退化网格的专门处理,并进行了大规模并行化优化。在涵盖人造物体、CAD模型、AI生成网格和常见形状的四个数据集上的测试表明,PartUV在图块数量和接缝长度上优于现有工具及近期神经网络方法,达到可比失真度,在挑战性网格上呈现高成功率,并支持部件级多图块排布等新应用。项目页面详见https://www.zhaoningwang.com/PartUV。
手术视频分割对计算机辅助手术至关重要,能够实现手术器械和组织的精确定位与追踪。基于提示的交互式视频目标分割(iVOS)模型(如Segment Anything Model 2/SAM2)相比预定义类别方法具有更高灵活性,但在手术场景下面临领域差异和长时追踪能力不足的挑战。为突破这些限制,我们构建了SA-SV——当前规模最大的手术iVOS基准数据集,包含跨越八类手术流程的实例级时空标注(61k帧,1.6k掩码片段),支持长时追踪与零样本泛化的全面开发与评估。基于SA-SV,我们提出SAM2S基础模型,通过三重创新增强SAM2的手术iVOS能力:(1)DiveMem可训练多样化记忆机制,实现鲁棒长时追踪;(2)时序语义学习提升器械理解能力;(3)抗模糊学习策略缓解多源数据标注不一致问题。大量实验表明,在SA-SV上微调可使SAM2平均J&F指标较原始版本提升12.99点,而SAM2S进一步将性能推至80.42平均J&F,分别以17.10点和4.11点的优势超越原始版与微调版SAM2,同时保持68 FPS实时推理速度及强大零样本泛化能力。代码与数据集将于https://jinlab-imvr.github.io/SAM2S发布。
大规模语言模型(LLM)的长期训练需要保持稳定的探索性,以防止模型陷入次优行为。熵在此过程中至关重要,它通过调控探索强度来避免模型过早收敛至次优解。然而现有强化学习方法难以维持适宜的熵水平,因为训练过程同时包含正负样本,而每类样本在不同训练阶段对熵的影响方式各异。为此,我们提出基于比例-积分控制的熵稳定方法(EntroPIC),该方法通过动态调整正负样本的损失系数来自适应调节其影响,从而实现训练全程的熵稳定,确保高效探索与稳定进展。我们针对同策略与异策略学习场景进行了完整的理论分析,证明EntroPIC能有效控制大规模LLM训练中的熵变化。实验结果表明,本方法可成功维持目标熵水平,为LLM实现稳定且最优的强化学习训练。
基于Transformer的架构在序列推荐系统中已被广泛采用,但其在金融服务领域的实时推荐应用面临着独特的实践与建模挑战。这些挑战包括:a) 用户跨数字与实体渠道产生的长周期交互行为(隐式与显式)会形成时间异构的上下文环境;b)多类关联产品并存需协调建模,以支持多样化广告位投放与个性化信息流,同时平衡相互竞争的业务目标。我们提出FinTRec这一基于Transformer的框架来解决上述挑战及金融服务的运营目标。尽管传统上树模型因可解释性及符合监管要求更受金融领域青睐,但本研究证明FinTRec为转向Transformer架构提供了可行有效的路径。通过历史模拟与线上A/B测试关联分析,我们发现FinTRec持续超越生产级树模型基线。该统一架构经过产品适配微调后,可实现跨产品信号共享,降低训练成本与技术负债,同时提升所有产品的离线性能。据我们所知,这是首个兼顾技术实现与业务考量的金融服务统一序列推荐建模综合性研究。
ImageNet-1K线性探针迁移精度虽仍是视觉表征质量的默认评估指标,但其对科学影像的性能预测已然失效。基于46个现代视觉模型检查点的测试表明,ImageNet top-1精度仅能解释生态学任务中34%的性能差异,且在准确率超过75%的模型中存在30%的误判。我们推出BioBench——一个捕捉ImageNet缺失维度的开放生态视觉基准。该基准整合了9项公开的应用驱动型任务,涵盖4个生物分类界和6种采集模态(无人机RGB图像、网络视频、显微照片、原位与标本图像、相机陷阱帧),总计310万张图像。通过单一Python接口可实现数据下载、轻量级分类器与冻结主干网络的适配,并输出类别均衡宏F1值(同时提供FishNet和FungiCLEF的领域指标);ViT-L模型在A6000 GPU上仅需6小时即可完成评估。BioBench不仅为生态学计算机视觉研究提供了新标尺,更为构建跨领域的可靠AI科学基准提供了模板方案。代码与预测结果详见https://github.com/samuelstevens/biobench,完整结果可访问https://samuelstevens.me/biobench。
尽管当前的大型视觉语言模型(LVLM)展现出强大的多模态推理能力,但由于过度依赖语言先验而非视觉证据,其常产生缺乏依据或虚构的响应。这一局限凸显出尚缺乏量化指标来衡量模型在推理过程中对视觉信息实际利用的程度。我们提出基于问题条件化利用度量的"草拟-优化"(DnR)智能体框架:该框架首先通过构建查询条件化的相关性图谱来定位问题相关线索,再通过相关性引导的概率掩码测量模型依赖度,从而量化模型对视觉证据的依赖程度。在此度量引导下,DnR智能体借助外部视觉专家的定向反馈优化初始回答——将各专家输出(如检测框或掩码)渲染为图像上的视觉提示,通过重新查询模型选择能最大程度提升利用度的响应。该方法无需重新训练或改变模型架构即可增强视觉基础。在视觉问答和图像描述基准测试中,实验显示出持续的性能提升与幻觉现象减少,证明视觉利用度测量为构建更可解释、证据驱动的多模态智能体系统提供了原理性路径。
图像-文本预训练技术的最新进展通过对齐视觉与文本表征,显著提升了视觉理解能力。对比语言-图像预训练(CLIP)在多模态学习中发挥了关键作用。然而,其单标签单粒度对齐的焦点限制了在医学影像等复杂领域的适用性——这类图像常对应多个高层级标签(如疾病类别)及不同标注粒度(如诊断描述、临床解释)。为此,我们提出多粒度语言学习(MGLL),这是一种旨在同时提升多标签与跨粒度对齐效果的对比学习框架。MGLL利用结构化多标签监督机制,整合多粒度文本描述,并引入带逐点约束的软标签监督以增强对齐效果。该框架采用平滑KL散度确保跨粒度一致性,同时作为即插即用模块保持计算效率。基于我们构建的大规模多粒度数据集进行预训练,并在多个数据集上验证,MGLL在下游任务中超越了其他先进方法。代码已开源:https://github.com/HUANGLIZI/MGLL。