每日精选AI研究论文及翻译
近年来,在多模态模型的研究中,统一图像理解与生成日益受到关注。尽管图像理解的设计选择已得到广泛探讨,但在统一框架下结合图像生成的最佳模型架构与训练方案仍待深入探索。鉴于自回归模型和扩散模型在高质量生成与可扩展性方面的强大潜力,我们对其在统一多模态场景中的应用进行了全面研究,重点关注图像表示、建模目标及训练策略。基于这些研究,我们提出了一种新颖方法,采用扩散变换器生成语义丰富的CLIP图像特征,与传统的基于VAE的表示形成对比。这一设计既提升了训练效率,又改善了生成质量。此外,我们证明了统一模型采用分阶段预训练策略——先进行图像理解训练,再进行图像生成训练——具有实际优势,能在保持图像理解能力的同时,培养出强大的图像生成能力。最后,我们精心构建了一个高质量的指令微调数据集BLIP3o-60k,通过向GPT-4o提供涵盖多样场景、物体、人类手势等的描述,专门用于图像生成。依托于我们创新的模型设计、训练方案及数据集,我们开发了BLIP3-o,一套领先的统一多模态模型。BLIP3-o在涵盖图像理解与生成任务的主流基准测试中均表现出色。为促进未来研究,我们全面开源了模型,包括代码、模型权重、训练脚本以及预训练和指令微调数据集。
大型语言模型(LLMs)的快速扩展揭示了当前硬件架构中的关键限制,包括内存容量、计算效率和互连带宽的约束。在2048个NVIDIA H800 GPU上训练的DeepSeek-V3展示了硬件感知的模型协同设计如何有效应对这些挑战,实现大规模的高性价比训练与推理。本文深入分析了DeepSeek-V3/R1模型架构及其AI基础设施,重点介绍了多项关键创新:提升内存效率的多头潜在注意力机制(MLA)、优化计算-通信权衡的专家混合架构(MoE)、释放硬件全部潜力的FP8混合精度训练,以及最小化集群级网络开销的多平面网络拓扑。基于DeepSeek-V3开发过程中遇到的硬件瓶颈,我们与学术界和工业界同行展开了更广泛的讨论,探讨了未来硬件的潜在方向,包括精确的低精度计算单元、纵向扩展与横向扩展的融合,以及低延迟通信架构的创新。这些见解凸显了硬件与模型协同设计在满足日益增长的AI工作负载需求中的关键作用,为下一代AI系统的创新提供了实用的蓝图。
广泛应用于训练大型多模态模型的自然语言图像描述数据集,主要聚焦于自然场景,却忽视了数学图形中对于解题至关重要的复杂细节,这阻碍了当前多模态模型在数学推理领域的进步。为此,我们提出利用代码作为跨模态对齐的监督信号,因为代码本身包含了生成相应图形所需的所有信息,从而在两种模态间建立了精确的联系。具体而言,我们采用模型在环的方法共同开发了图像到代码的模型及数据集,最终得到了图像到代码模型FigCodifier和迄今为止最大的图像代码数据集ImgCode-8.6M。此外,我们利用FigCodifier合成了新的数学图形,进而构建了高质量的多模态数学指令微调数据集MM-MathInstruct-3M。最后,我们推出了MathCoder-VL模型,该模型首先使用ImgCode-8.6M进行跨模态对齐训练,随后在MM-MathInstruct-3M上进行多模态数学问题求解的微调。我们的模型在所有六项指标上均达到了开源领域的新SOTA水平。尤为突出的是,在MathVista的几何问题求解子集中,它超越了GPT-4o和Claude 3.5 Sonnet,分别实现了8.9%和9.2%的提升。数据集和模型将在https://github.com/mathllm/MathCoder发布。
密集视觉预测任务长期以来受限于对预定义类别的依赖,这限制了其在现实场景中的应用,因为现实中的视觉概念是无限开放的。尽管视觉-语言模型(VLMs)如CLIP在开放词汇任务中展现出潜力,但直接将其应用于密集预测时,由于局部特征表示的局限性,往往导致性能欠佳。在本研究中,我们观察到CLIP的图像标记难以有效聚合来自空间或语义相关区域的信息,导致特征缺乏局部区分性和空间一致性。为解决这一问题,我们提出了DeCLIP,一种新颖的框架,通过解耦自注意力模块分别获取“内容”和“上下文”特征来增强CLIP。其中,“内容”特征与图像裁剪表示对齐,以提升局部区分能力;而“上下文”特征则在视觉基础模型(如DINO)的指导下学习保持空间相关性。大量实验表明,DeCLIP在包括目标检测和语义分割在内的多项开放词汇密集预测任务中,显著超越了现有方法。代码已发布于magenta{https://github.com/xiaomoguhz/DeCLIP}。
我们提出了一种简单而有效的基于扩散模型的方法,用于对图像中的光源进行细粒度、参数化的控制。现有的重光照方法要么依赖多视角输入在推理时执行逆向渲染,要么无法提供对光照变化的显式控制。我们的方法通过在少量真实原始照片对上进行微调,并辅以大规模合成的渲染图像,来激发扩散模型在重光照任务中的照片级真实感先验。我们利用光的线性特性,合成了描绘目标光源或环境光照受控变化的图像对。借助这些数据及适当的微调策略,我们训练了一个能够精确调整光照的模型,实现对光照强度和颜色的显式控制。最后,我们展示了该方法如何实现引人注目的光照编辑效果,并在用户偏好方面超越了现有方法。
过去十年间,深度学习在计算机视觉领域的成功,很大程度上依赖于大规模标注数据集和强大的预训练模型。在数据稀缺的场景下,这些预训练模型的质量对于有效的迁移学习至关重要。传统上,图像分类和自监督学习是预训练卷积神经网络(CNN)及基于Transformer架构的主要方法。近期,文本到图像生成模型的兴起,尤其是那些在潜在空间中使用去噪扩散技术的模型,引入了一类基于海量带标注图像数据集训练的基础模型。这些模型能够生成未见内容的逼真图像,表明它们对视觉世界有着深刻的理解。在本研究中,我们提出了Marigold,这是一系列条件生成模型及微调协议,旨在从如Stable Diffusion这样的预训练潜在扩散模型中提取知识,并将其适配于密集图像分析任务,包括单目深度估计、表面法线预测和本征分解。Marigold对预训练潜在扩散模型的架构改动极小,仅需在单个GPU上使用小型合成数据集训练数日,便展示了最先进的零样本泛化能力。项目页面:https://marigoldcomputervision.github.io
模仿是人类的一项基本学习机制,使个体能够通过观察和效仿专家来掌握新任务。然而,将这种能力应用于机器人却面临重大挑战,这源于人类与机器人在视觉外观和物理能力上的本质差异。尽管先前的方法通过使用共享场景和任务的跨实体数据集来弥合这一差距,但大规模收集人类与机器人之间对齐的数据并非易事。本文提出UniSkill,一种新颖的框架,它能够从无标签的大规模跨实体视频数据中学习到与实体无关的技能表示,使得从人类视频提示中提取的技能能够有效迁移至仅基于机器人数据训练的策略中。我们在仿真和真实环境中的实验表明,我们的跨实体技能成功指导机器人选择恰当动作,即使面对未见过的视频提示。项目网站可访问:https://kimhanjung.github.io/UniSkill。
从单一RGB图像中恢复高质量的三维场景是计算机图形学中的一项艰巨任务。现有方法常受限于特定领域或生成物体质量不高的问题。为此,我们提出了CAST(基于组件对齐的单RGB图像三维场景重建),一种新颖的三维场景重建与恢复方法。CAST首先从输入图像中提取物体级别的二维分割信息及相对深度数据,随后利用基于GPT的模型分析物体间的空间关系,从而理解场景中各物体如何相互关联,确保重建过程更加连贯。接着,CAST采用一个具备遮挡感知能力的大规模三维生成模型,独立生成每个物体的完整几何形状,通过MAE(掩码自编码器)和点云条件化来减轻遮挡和物体信息不完整的影响,确保生成结果与源图像的几何结构和纹理精确对齐。为了将每个物体与场景对齐,对齐生成模型计算出必要的变换参数,使得生成的网格能够准确放置并融入场景的点云中。最后,CAST引入了一个物理感知的校正步骤,利用细粒度关系图生成约束图,该图指导物体姿态的优化,确保物理一致性和空间连贯性。通过使用有符号距离场(SDF),模型有效解决了遮挡、物体穿透及漂浮物体等问题,确保生成的场景真实反映现实世界的物理交互。CAST可应用于机器人领域,实现高效的现实到仿真的工作流程,为机器人系统提供真实且可扩展的仿真环境。
诸如GPT-4o-audio等端到端语音对话模型近期在语音领域引起了广泛关注。然而,对于语音对话模型会话性能的评估却长期被忽视。这主要归因于智能聊天机器人传递了大量非文本信息,这些信息难以通过像ChatGPT这样的基于文本的语言模型进行量化。为填补这一空白,我们提出了WavReward,一种基于音频语言模型的奖励反馈模型,能够通过语音输入评估语音对话系统的智商(IQ)与情商(EQ)。具体而言,1)WavReward依托音频语言模型,整合了深度推理过程及非线性奖励机制用于后训练。通过强化学习算法实现多样本反馈,我们构建了一个专为语音对话模型定制的评估器。2)我们引入了ChatReward-30K,一个用于训练WavReward的偏好数据集。ChatReward-30K涵盖了语音对话模型的理解与生成两方面,场景涉及文本聊天、指令聊天的九种声学属性及隐含聊天等多种任务。WavReward在多个语音对话场景中超越了以往最先进的评估模型,在客观准确率上较Qwen2.5-Omni实现了从55.1%到91.5%的显著提升。在主观A/B测试中,WavReward也以83%的优势领先。全面的消融研究证实了WavReward各组成部分的必要性。论文一经录用,所有数据与代码将公开于https://github.com/jishengpeng/WavReward。
我们提出了Omni-R1,它通过强化学习方法GRPO在音频问答数据集上对最新的多模态大语言模型Qwen2.5-Omni进行微调。这一方法在最新的MMAU基准测试中实现了新的最先进性能。Omni-R1在声音、音乐、语音及整体平均类别上,无论是在Test-mini还是Test-full划分中,均取得了最高的准确率。为了深入理解性能提升的原因,我们测试了包含与不包含音频的模型,发现GRPO带来的大部分性能提升可归因于更优的文本推理能力。此外,我们意外发现,在纯文本数据集上进行无音频微调,也能有效提升基于音频的性能表现。
软件问题定位,即识别与自然语言问题描述(如错误报告、功能请求)相关的精确代码位置(文件、类或函数),是软件开发中至关重要却耗时的一环。尽管近期基于大语言模型(LLM)的代理方法展现出潜力,但由于复杂的多步推理及依赖闭源LLM,它们往往带来显著的延迟和成本。另一方面,传统的代码排序模型,通常针对查询到代码或代码到代码的检索进行优化,在处理冗长且描述故障的问题定位查询时表现欠佳。为弥合这一差距,我们提出了SweRank,一个高效且有效的问题定位检索与重排序框架。为便于训练,我们构建了SweLoc,这是一个从公开GitHub仓库中精心挑选的大规模数据集,包含真实世界的问题描述及其对应的代码修改。在SWE-Bench-Lite和LocBench上的实证结果表明,SweRank实现了最先进的性能,超越了先前的排序模型以及使用Claude-3.5等闭源LLM的高成本代理系统。此外,我们展示了SweLoc在提升现有多种检索器和重排序模型用于问题定位方面的实用性,确立了该数据集作为社区宝贵资源的地位。
尽管视频理解领域近期取得了进展,大型视频语言模型(LVLMs)在执行基于视频的因果推理方面的能力仍未被充分探索,这主要归因于缺乏相关且专门的基准来评估视觉基础和目标驱动环境下的因果推理。为填补这一空白,我们引入了一个名为基于视频的长篇因果推理(VCRBench)的新基准。我们利用日常简单活动的程序化视频构建了VCRBench,其中步骤被故意打乱,每个片段捕捉一个关键的因果事件,以测试LVLMs是否能识别、推理并正确排序实现特定目标所需的事件。此外,该基准经过精心设计,防止LVLMs利用语言捷径,如在多项选择或二元问答格式中常见的那样,同时避免了评估开放式问答的挑战。我们对VCRBench上最先进的LVLMs的评估表明,这些模型在基于视频的长篇因果推理上表现不佳,主要原因是它们难以直接从视觉观察中建模长程因果依赖关系。作为迈向这一能力的一小步,我们提出了识别-推理分解(RRD),一种模块化方法,将基于视频的因果推理分解为视频识别和因果推理两个子任务。我们在VCRBench上的实验显示,RRD显著提升了准确率,最高增益达25.2%。最后,我们的深入分析揭示了有趣的见解,例如,LVLMs在复杂的基于视频的长篇因果推理任务中主要依赖语言知识。
预训练数据集是多模态模型发展的基石,然而它们通常源自网络规模语料库,不可避免地带有固有偏见和有害内容。本文深入研究了LLaVA图文预训练数据集中有害内容的普遍性,探讨了这些有害内容在不同模态中的表现形式。我们针对常见的有害内容类别进行了全面分析,并提出了针对性的缓解策略,最终构建了一个经过优化的去毒数据集。该数据集从LLaVA预训练数据集中移除了7,531对有毒的图文配对。我们提供了实施稳健有害内容检测管道的指导原则。研究结果强调了主动识别和过滤有害内容——如仇恨言论、露骨图像和针对性骚扰——对于构建更负责任、更公平的多模态系统的必要性。该去毒数据集已开源,可供进一步研究使用。
行人重识别(ReID)技术在受控的地面条件下表现相对良好,但在实际复杂场景中部署时却效果不佳。显然,这是由于极端的数据变化因素所致,如分辨率、视角变化、尺度差异、遮挡以及服装或时段漂移引起的外观变化。此外,公开可用的数据集并未真实地包含此类变化及其程度,这限制了该技术的发展。本文介绍了DetReIDX,一个大规模的空地行人数据集,专为在现实世界条件下对ReID进行压力测试而设计。DetReIDX是一个多时段数据集,包含来自509个身份的超过1300万个边界框,数据采集自三大洲的七所大学校园,无人机飞行高度介于5.8至120米之间。更重要的是,作为一项关键创新,DetReIDX中的对象至少在不同日期的两个时段被记录,期间服装、光照和地点均有所变化,使其真正适用于评估长期行人重识别。此外,数据还标注了16个软生物特征属性以及用于检测、跟踪、重识别和动作识别的多任务标签。为了提供DetReIDX实用性的实证证据,我们考察了人体检测和重识别这两个具体任务,在这些任务中,当面对DetReIDX的条件时,最先进的方法性能显著下降(检测准确率下降高达80%,Rank-1重识别率下降超过70%)。该数据集、标注及官方评估协议已在https://www.it.ubi.pt/DetReIDX/公开提供。
近期,大规模视觉-语言模型(VLMs)发展迅猛。这些模型在学术基准测试中展现了令人瞩目的成果,主要集中在广泛使用的语言上,但在低资源语言和多元文化背景下的表现则显不足。为应对这些局限,我们推出了Maya,一个开源的多语言视觉-语言模型。我们的贡献包括:1)基于LLaVA预训练数据集构建的八种语言的多语言图文预训练数据集;2)支持这些语言的多语言图文模型,旨在提升视觉-语言任务中的文化与语言理解能力。代码已发布于https://github.com/nahidalam/maya。
回答诸如“哪些红色家具可用于坐?”这类复杂的视觉问题,需要进行多步骤推理,包括物体识别、属性筛选和关系理解。近期研究通过将任务分解为子任务程序,提升了多模态大语言模型(MLLMs)的可解释性,但这些方法因对目标数据适应性差而计算成本高且准确性较低。为解决这一问题,我们提出了VISTAR(视觉可解释子任务感知推理模型),这是一个子任务驱动的训练框架,通过在MLLMs内部生成文本和视觉解释,同时增强了可解释性和推理能力。VISTAR不依赖外部模型,而是微调MLLMs以生成结构化的“子任务思维”推理链(逐步推理序列)。在两个基准测试上的实验表明,VISTAR在保持可解释性的同时,持续提升了推理准确性。我们的代码和数据集将发布于https://github.com/ChengJade/VISTAR。
三维高斯泼溅(3DGS)作为一种强大的技术,在实时高分辨率新视角合成领域崭露头角。通过将场景表示为高斯基元的混合体,3DGS利用GPU光栅化管线实现高效的渲染与重建。为了优化场景覆盖并捕捉精细细节,3DGS采用了一种密集化算法来生成额外点云。然而,这一过程常导致点云冗余,引发内存占用过高、性能下降及存储需求激增等问题,对资源受限设备的部署构成了重大挑战。针对这一局限,我们提出了一套理论框架,旨在阐明并改进3DGS中的密度控制机制。我们的分析表明,分裂操作对于逃离鞍点至关重要。通过优化理论方法,我们确立了密集化的必要条件,确定了最小子代高斯数量,找出了最优参数更新方向,并提供了子代不透明度归一化的解析解。基于这些洞见,我们引入了SteepGS,它融入了最陡密度控制这一原则性策略,在保持点云紧凑的同时最小化损失。SteepGS实现了约50%的高斯点减少,且不牺牲渲染质量,显著提升了效率与可扩展性。