每日精选AI研究论文及翻译
PaliGemma 2 是基于 Gemma 2 语言模型系列的 PaliGemma 开放式视觉-语言模型(VLM)的升级版。我们将 SigLIP-So400m 视觉编码器与 PaliGemma 同样使用的整个 Gemma 2 模型系列结合起来,从 2B 模型一直到 27B 模型。我们在三种分辨率(224px、448px 和 896px)上多阶段训练这些模型,为它们提供广泛的知识,以便通过微调进行迁移学习。由此产生的基础模型系列涵盖不同的模型大小和分辨率,使我们能够研究影响迁移性能的因素(如学习率),并分析任务类型、模型大小和分辨率之间的相互作用。我们进一步增加了超出 PaliGemma 范围的迁移任务数量和广度,包括不同的光学字符识别相关任务,如表结构识别、分子结构识别、乐谱识别,以及长文本描述和放射学报告生成等任务,在这些任务上,PaliGemma 2 获得了最先进的结果。
最近的研究方法在将多步文本到图像扩散模型提炼为一步模型方面取得了令人期待的结果。最先进的高效提炼技术,即SwiftBrushv2(SBv2),甚至在资源有限的情况下超越了教师模型的性能。然而,我们的研究揭示了由于在变分分数提炼(VSD)损失中使用固定的引导尺度,处理不同扩散模型骨干时其不稳定性。现有一步扩散模型的另一个弱点是缺乏对负向提示引导的支持,在实际图像生成中至关重要。本文提出了SNOOPI,这是一个旨在通过增强一步扩散模型中的引导来解决这些限制的新颖框架,既在训练过程中又在推断过程中。首先,我们通过Proper Guidance-SwiftBrush(PG-SB)有效增强了训练稳定性,该方法采用了随机尺度、无需分类器的引导方法。通过改变教师模型的引导尺度,我们扩展了它们的输出分布,从而产生更稳健的VSD损失,使SB能够在各种骨干上有效地执行,同时保持竞争性能。其次,我们提出了一种无需训练的方法,称为Negative-Away Steer Attention(NASA),通过交叉注意力将负向提示整合到一步扩散模型中,以抑制生成图像中的不良元素。我们的实验结果表明,我们提出的方法在各种指标上显著改善了基线模型。值得注意的是,我们实现了31.08的HPSv2分数,为一步扩散模型设立了一个新的最先进基准。
我们提出了TokenFlow,这是一种新颖的统一图像标记器,弥合了多模态理解和生成之间长期存在的差距。先前的研究尝试使用单一的面向重建的向量量化(VQ)编码器来统一这两个任务。我们观察到,理解和生成需要根本不同粒度的视觉信息。这导致了一个关键的权衡,特别是在多模态理解任务中牺牲了性能。TokenFlow通过创新的双码书架构来解决这一挑战,该架构解耦了语义和像素级特征学习,同时通过共享映射机制保持它们的对齐。这种设计通过共享索引,实现了对理解任务至关重要的高级语义表示和对生成至关重要的细粒度视觉特征的直接访问。我们广泛的实验证明了TokenFlow在多个维度上的优越性。利用TokenFlow,我们首次展示了离散视觉输入可以在理解性能上超越LLaVA-1.5 13B,实现了7.2%的平均改进。对于图像重建,我们在384*384分辨率下实现了强劲的FID得分为0.63。此外,TokenFlow在自回归图像生成方面表现出了最先进的性能,256*256分辨率下的GenEval得分为0.55,实现了与SDXL可比较的结果。
360°视频提供了一种超级沉浸式体验,允许观众从完整的360度探索动态场景。为了在360°视频格式中实现更加用户友好和个性化的内容创作,我们致力于将标准透视视频转换为360°等距投影视频。为此,我们引入了Imagine360,这是第一个透视到360°视频生成框架,可以从视频锚点创建具有丰富和多样运动模式的高质量360°视频。Imagine360从有限的360°视频数据中学习细粒度的球面视觉和运动模式,具有几个关键设计。1) 首先,我们采用双分支设计,包括透视和全景视频去噪分支,为360°视频生成提供局部和全局约束,运动模块和空间LoRA层在扩展网络360°视频上进行了微调。2) 另外,设计了一个对极掩模来捕获长距离运动依赖关系,增强了跨半球的对极像素之间的反向相机运动。3) 为了处理多样的透视视频输入,我们提出了高程感知设计,适应由于帧间高程变化而产生的不同视频掩模。大量实验证明Imagine360在图形质量和运动连贯性方面优于现有360°视频生成方法。我们相信Imagine360有望推动个性化、沉浸式360°视频创作的发展。
由于扩散模型具有强大的训练稳定性和高完成质量,因此已将其应用于3D LiDAR场景补全。然而,由于自动驾驶车辆需要对周围环境进行高效感知,扩散模型的缓慢采样速度限制了基于扩散的场景补全模型的实际应用。本文提出了一种针对3D LiDAR场景补全模型量身定制的新型蒸馏方法,名为ScoreLiDAR,实现了高效且高质量的场景补全。ScoreLiDAR使经过蒸馏的模型在蒸馏后能够在更少的步骤中进行采样。为了提高补全质量,我们还引入了一种新颖的结构损失,鼓励经过蒸馏的模型捕捉3D LiDAR场景的几何结构。该损失包含一个约束整体结构的场景项和一个约束关键地标点及其相对配置的点项。大量实验证明,ScoreLiDAR将SemanticKITTI上每帧的完成时间从30.55秒加速到5.37秒(>5倍),并且相较于最先进的3D LiDAR场景补全模型,取得了更优越的性能。我们的代码可在https://github.com/happyw1nd/ScoreLiDAR 上公开获取。
最近在视频大型多模型(LMMs)方面取得的进展显著提高了它们对视频理解和推理能力。然而,在训练数据中代表性不足的分布外(OOD)任务上,它们的性能会下降。传统方法,如在OOD数据集上微调,由于高计算成本而不切实际。尽管在语言任务和图像语言任务中,基于示范示例的上下文学习(ICL)显示出了有希望的泛化性能,但将ICL应用于视频语言任务面临挑战,因为视频需要更长的标记长度。为了解决这些问题,我们提出了VideoICL,这是一种新颖的视频上下文学习框架,用于OOD任务,引入了基于相似性的相关示例选择策略和基于置信度的迭代推理方法。这允许选择最相关的示例并根据相似性对它们进行排名,用于推理。如果生成的响应置信度较低,我们的框架会选择新的示例,并再次进行推理,迭代地优化结果,直到获得高置信度的响应。这种方法通过扩展有效上下文长度而不产生高成本,提高了OOD视频理解性能。在多个基准测试上的实验结果显示了显著的性能提升,特别是在特定领域的场景中,为更广泛的视频理解应用奠定了基础。代码将在https://github.com/KangsanKim07/VideoICL 上发布。
构建逼真且可动画化的化身仍然需要几分钟的多视角或单目自旋视频,而大多数方法缺乏对手势和表情的精确控制。为了突破这一界限,我们解决了从单个图像构建全身说话化身的挑战。我们提出了一种新颖的流程,解决了两个关键问题:1)复杂的动态建模和2)对新手势和表情的泛化。为了实现无缝泛化,我们利用最近的姿势引导图像到视频扩散模型,生成不完美的视频帧作为伪标签。为了克服由不一致和嘈杂的伪视频引起的动态建模挑战,我们引入了紧密耦合的3DGS-网格混合化身表示,并应用了几个关键的正则化方法,以减轻由不完美标签引起的不一致性。对多样主题进行的大量实验表明,我们的方法能够从单个图像创建出逼真、精确可动画化且富有表现力的全身说话化身。
本文介绍了一种开源的韩英视觉语言模型(VLM),名为VARCO-VISION。我们采用了一种分阶段训练策略,使模型能够学习语言和视觉信息,同时保留骨干模型的知识。与相似规模的模型相比,我们的模型在需要双语图像文本理解和生成能力的多样化环境中表现出色。VARCO-VISION还能够进行定位、指代和OCR,扩展了其在现实场景中的使用和潜在应用。除了模型之外,我们还发布了五个韩文评估数据集,包括四个封闭集和一个开放集的基准测试。我们期待我们的里程碑将为旨在训练VLM的AI研究人员拓宽机会。VARCO-VISION可在https://huggingface.co/NCSOFT/VARCO-VISION-14B 上获得。
本文介绍了一种名为MIDI的新型范式,用于从单个图像生成三维场景。与依赖重建或检索技术的现有方法或利用多阶段逐个对象生成的最近方法不同,MIDI将预训练的图像到三维对象生成模型扩展到多实例扩散模型,实现了同时生成多个具有准确空间关系和高泛化能力的三维实例。在核心部分,MIDI包含一种新颖的多实例注意机制,能够在生成过程中有效捕获对象间的相互作用和空间一致性,无需复杂的多步骤过程。该方法利用部分对象图像和全局场景上下文作为输入,在三维生成过程中直接建模对象完成。在训练过程中,我们通过有限量的场景级数据有效监督三维实例之间的交互作用,同时将单个对象数据用于正则化,从而保持预训练的泛化能力。MIDI在图像到场景生成方面表现出最先进的性能,通过对合成数据、真实世界场景数据以及由文本到图像扩散模型生成的风格化场景图像的评估进行验证。
最近生成模型的进展显著提高了从多视角数据进行新视图合成(NVS)的能力。然而,现有方法依赖于外部多视角对齐过程,如明确的姿态估计或预重建,这限制了它们的灵活性和可访问性,特别是当由于视角之间的重叠不足或遮挡而导致对齐不稳定时。在本文中,我们提出了NVComposer,一种新颖的方法,消除了对明确外部对齐的需求。NVComposer通过引入两个关键组件使生成模型能够隐式推断多个条件视图之间的空间和几何关系:1)图像-姿态双流扩散模型,同时生成目标新视图和条件相机姿态;2)几何感知特征对齐模块,在训练过程中从密集立体模型中提取几何先验。大量实验证明,NVComposer在生成多视角NVS任务中实现了最先进的性能,消除了对外部对齐的依赖,从而提高了模型的可访问性。我们的方法在合成质量方面显示出显著改进,随着未定位输入视图数量的增加,突显了其对更灵活和可访问的生成NVS系统的潜力。
我们介绍了NitroFusion,这是一种根本不同的单步扩散方法,通过动态对抗框架实现高质量生成。虽然一步方法具有明显的速度优势,但通常与多步方法相比存在质量下降的问题。就像一组艺术评论家通过专门从事构图、色彩和技术等不同方面提供全面反馈一样,我们的方法保持了一个大型的专门鉴别器头部池,共同引导生成过程。每个鉴别器组在不同噪声水平上针对特定质量方面发展专业知识,提供多样化反馈,实现高保真度的一步生成。我们的框架结合了:(i)具有专门鉴别器组的动态鉴别器池,以提高生成质量,(ii)策略性刷新机制以防止鉴别器过拟合,以及(iii)用于多尺度质量评估的全局-局部鉴别器头部,以及无条件/有条件训练以实现平衡生成。此外,我们的框架独特地支持通过自下而上的细化灵活部署,允许用户在直接质量-速度权衡中动态选择1-4个去噪步骤使用相同模型。通过全面实验,我们展示了NitroFusion在多个评估指标上明显优于现有的单步方法,特别擅长保留细节和全局一致性。
多模态大型语言模型(MLLMs)的快速发展显著影响了各种多模态任务。然而,这些模型在需要对3D环境内的空间理解的任务中面临挑战。已经做出了增强MLLMs的努力,例如整合点云特征,但模型学习表示与3D场景固有复杂性之间仍存在相当大的差距。这种差距主要源于MLLMs在主要是2D数据上的训练,这限制了它们在理解3D空间方面的有效性。为了解决这个问题,在本文中,我们提出了一种新颖的通用模型,即Video-3D LLM,用于3D场景理解。通过将3D场景视为动态视频,并将3D位置编码纳入这些表示中,我们的Video-3D LLM能够更准确地将视频表示与现实世界的空间背景相匹配。此外,我们实施了一种最大覆盖采样技术,以优化计算成本和性能效率之间的平衡。大量实验证明,我们的模型在几个3D场景理解基准测试中取得了最先进的性能,包括ScanRefer、Multi3DRefer、Scan2Cap、ScanQA和SQA3D。
目前对LLM的数学技能评估存在局限性,因为现有的基准要么规模相对较小,主要关注初中和高中问题,要么在主题上缺乏多样性。此外,在任务中包含视觉元素的做法仍然大多未被充分探讨。 为了解决这些缺口,我们引入了U-MATH,这是一个新颖的基准,包含1,100个未发表的开放式大学级问题,这些问题来自教材。它在六个核心学科上平衡,其中20%是多模态问题。鉴于U-MATH问题的开放性质,我们使用LLM来判断生成的解决方案的正确性。为此,我们发布了mu-MATH,这是一个用于评估LLM在判断解决方案能力的数据集。 对通用领域、数学特定领域和多模态LLM的评估突显了U-MATH所带来的挑战。我们的研究结果显示,LLM在基于文本的任务上仅能达到最高63%的准确率,甚至在视觉问题上只有45%的准确率。对LLM来说,解决方案评估是具有挑战性的,最佳LLM评判者在mu-MATH上的F1分数为80%。
利用大型语言模型进行合成数据生成是一种有前途的范式,可用于增加几乎无限范围的任务的自然数据。鉴于这种多样性,合成数据生成算法之间的直接比较很少,这使得难以理解改进来自何处以及存在哪些瓶颈。我们建议通过每个算法生成的合成数据的数据质量、多样性和复杂性来评估算法。我们选择这三个特征是因为它们在开放式过程中的重要性以及它们对下游模型能力的影响。我们发现质量对于分布内模型泛化至关重要,多样性对于分布外泛化至关重要,而复杂性对两者都有益。此外,我们强调在训练数据中存在质量-多样性的权衡以及对模型性能的下游影响。然后,我们检查合成数据管道中各个组件对每个数据特征的影响。这种检查使我们能够通过它们利用的组件以及对数据QDC组成产生的影响来对合成数据生成算法进行分类和比较。这种分析延伸到对在合成数据中平衡QDC对于高效强化学习和自我改进算法的重要性的讨论。类似于训练数据中的QD权衡,通常存在模型输出质量和输出多样性之间的权衡,这些权衡影响合成数据的组成。我们观察到目前许多模型仅被评估和优化为输出质量,从而限制了输出多样性和自我改进的潜力。我们认为平衡这些权衡对于未来自我改进算法的发展至关重要,并强调一些在这方向取得进展的工作。
最近,大规模预训练扩散模型的内部特征已被确认为广泛下游任务中强大的语义描述符。使用这些特征的作品通常需要在将图像通过模型传递以获得语义特征之前向图像添加噪声,因为当给定几乎没有噪声的图像时,模型并不提供最有用的特征。我们表明,这种噪声对这些特征的有用性具有关键影响,无法通过与不同随机噪声集成来解决。我们通过引入一种轻量级的无监督微调方法来解决这个问题,使扩散骨干能够提供高质量、无噪声的语义特征。我们展示这些特征在各种提取设置和下游任务中迅速超越以往的扩散特征,甚至在成本的一小部分下比基于集成的方法表现更好。
将异构开源LLM(Large Language Models)与不同架构和大小进行融合,有可能整合不同模型的优势,但现有的融合方法面临着重大挑战,如词汇对齐和合并分布矩阵。这些过程不仅复杂,而且容易引入噪音和错误。本文提出了一种隐式融合方法,称为加权奖励偏好优化(WRPO),利用源LLM和目标LLM之间的偏好优化来有效地转移它们的能力。WRPO消除了词汇对齐和矩阵融合的需要,并且可以高效扩展以适应各种LLM。为了解决源LLM和目标LLM之间的分布偏差,WRPO引入了一种渐进适应策略,逐渐将依赖于目标LLM的优选示例转移到源LLM。在MT-Bench、AlpacaEval-2和Arena-Hard基准测试上进行的大量实验表明,WRPO始终优于现有的知识融合方法和各种微调基线。将其应用于目标模型LLaMA3-8B-Instruct时,WRPO在AlpacaEval-2上以55.9%的长度控制胜率击败了GPT-4-Preview-1106,在Arena-Hard上以46.2%的胜率击败了GPT-4-0314。我们的代码可在https://github.com/SLIT-AI/WRPO找到。
文本在视频生成中起着关键的控制信号作用,这是由于其叙事性质。为了将文本描述渲染成视频片段,当前的视频扩散模型借鉴了文本编码器的特征,但在文本理解方面存在局限性。大型语言模型(LLMs)的最新成功展示了仅解码器变压器的强大能力,为文本到视频(T2V)生成提供了三个明显的好处,即由于卓越的可扩展性而产生的精确文本理解能力,通过下一个标记预测实现的超越输入文本的想象力,以及通过指令调整灵活地优先考虑用户兴趣。然而,由于两种不同的文本建模范式产生的特征分布差异,阻碍了LLMs在已建立的T2V模型中的直接使用。本文通过Mimir解决了这一挑战,Mimir是一个端到端训练框架,具有精心设计的标记融合器,用于协调文本编码器和LLMs的输出。这样的设计使得T2V模型能够充分利用学习到的视频先验知识,同时又能充分利用LLMs的与文本相关的能力。广泛的定量和定性结果展示了Mimir在生成具有出色文本理解能力的高质量视频方面的有效性,特别是在处理短标题和管理变化运动时。项目页面:https://lucaria-academy.github.io/Mimir/
随着指导调整技术的进步,大型多模态模型(LMMs)取得了重大突破。然而,尽管现有模型可以在整体层面上理解图像和视频,但仍然在需要更加细致的理解和对齐的实例级理解方面遇到困难。实例级理解至关重要,因为它侧重于我们最感兴趣的具体元素。令人振奋的是,现有研究发现,最先进的LMMs在提供明确的视觉线索时表现出强大的实例理解能力。受此启发,我们引入了一个由GPT-4o辅助的自动注释流程,通过明确的视觉提示来从图像和视频中提取实例级信息以进行实例指导。在这一流程基础上,我们提出了Inst-IT,这是一个通过明确的视觉提示指导调整来增强LMMs在实例理解方面的解决方案。Inst-IT包括一个用于诊断多模态实例级理解的基准测试、一个大规模指导调整数据集,以及一个连续的指导调整训练范式,以有效增强现有LMMs的时空实例理解能力。实验结果显示,在Inst-IT的推动下,我们的模型不仅在Inst-IT基准测试上取得了出色的表现,而且在各种通用图像和视频理解基准测试中也展现出显著的改进。这突显了我们的数据集不仅提升了实例级理解,还增强了通用图像和视频理解的整体能力。
我们介绍了 LumiNet,这是一种利用生成模型和潜在内在表示进行有效光照转移的新型架构。给定源图像和目标光照图像,LumiNet 合成源场景的重新照明版本,捕捉目标光照。我们的方法有两个关键贡献:一种基于 StyleGAN 的重新照明模型的数据策略用于我们的训练,以及一个修改的基于扩散的 ControlNet,处理源图像的潜在内在属性和目标图像的潜在外在属性。我们通过一个学习的适配器(MLP)进一步改进光照转移,该适配器通过交叉注意力和微调注入目标的潜在外在属性。 与传统的 ControlNet 不同,后者从单个场景生成带有条件映射的图像,LumiNet 处理来自两个不同图像的潜在表示 - 保留源图像的几何和反照率,同时从目标图像转移光照特性。实验证明,我们的方法成功地在仅使用图像作为输入的情况下,在具有挑战性的室内场景上转移复杂的光照现象,包括镜面高光和间接照明,超越了现有方法。