每日精选AI研究论文及翻译
随着大型语言模型(LLMs)近来的流行,人们开始尝试将其扩展到视觉领域。从拥有能够引导我们穿越陌生环境的视觉助手,到使用仅高层文本描述生成图像的生成模型,视觉语言模型(VLM)的应用将显著影响我们与技术的关系。然而,有许多挑战需要解决,以提高这些模型的可靠性。语言是离散的,而视觉则存在于一个更高维度的空间中,其中概念并非总是容易离散化。为了更好地理解将视觉映射到语言背后的机制,我们提出了这篇介绍VLMs的文章,希望能帮助任何希望进入该领域的人。首先,我们介绍了VLMs是什么,它们如何工作以及如何训练它们。然后,我们提出并讨论了评估VLMs的方法。虽然这项工作主要集中在将图像映射到语言上,但我们也讨论了将VLMs扩展到视频的可能性。
Transformer 在算术任务上表现不佳,这在很大程度上是因为它们无法准确跟踪大量数字中每个数字的确切位置。我们通过为每个数字添加一个嵌入来解决这个问题,该嵌入编码了数字相对于数字开头的位置。除了这些嵌入本身提供的增益外,我们展示了这一修复使得架构修改如输入注入和循环层能够进一步提高性能。 有了位置信息,我们可以研究 Transformer 的逻辑推断能力。它们能否解决比训练数据中更大更复杂的算术问题?我们发现,仅使用单个 GPU 在一天内训练 20 位数字,我们就可以达到最先进的性能,对 100 位数字加法问题的准确率高达 99%。 最后,我们展示这些在数字能力上的提升也带来了其他多步推理任务的改进,包括排序和乘法。
大型多模态模型(LMMs)如LLaVA在视觉-语言推理中表现出色。这些模型首先将图像嵌入固定数量的视觉令牌中,然后将它们馈送到大型语言模型(LLM)中。然而,这种设计会导致在密集视觉场景(如高分辨率图像和视频)中出现过多的令牌,从而导致效率低下。虽然存在令牌修剪/合并方法,但它们为每个图像生成单一长度的输出,无法在信息密度与效率之间提供灵活性。受毛里俊卡娃娃概念启发,我们提出M3:毛里俊卡多模态模型,它学习将视觉内容表示为捕获多个粗粒度到细粒度信息的嵌套视觉令牌集。我们的方法为LMMs提供了几个独特的优势:(1)可以在推理过程中明确控制每个测试实例的视觉粒度,例如,根据内容的预期复杂性或简单性调整用于表示图像的令牌数量;(2)M3为分析现有数据集所需的粒度提供了一个框架,在这里我们发现,类似COCO的基准只需要大约9个视觉令牌就能获得与使用全部576个令牌相似的准确性;(3)我们的方法为在样本级别探索性能和视觉令牌长度之间的最佳权衡提供了基础,我们的调查显示,神谕上界和当前固定尺度表示之间存在很大差距。
在这份技术报告中,我们介绍了Zamba,这是一种新颖的7B SSM-Transformer混合模型,能够在可比规模下与领先的开放权重模型竞争。Zamba是在公开可用数据集中训练的,涵盖了1T个标记,并且是在这一规模下表现最佳的非Transformer模型。Zamba开创了一种独特的架构,将Mamba骨干与单个共享注意力模块相结合,从而以最小的参数成本获得注意力的好处。由于其架构,Zamba在推理速度上明显快于可比的Transformer模型,并且在生成长序列时需要的内存大大减少。Zamba的预训练分为两个阶段:第一阶段基于现有网络数据集,而第二阶段包括对模型进行高质量指导和合成数据集的退火,其特点是快速学习率衰减。我们通过开源方式提供了Zamba的权重和所有检查点,涵盖了第一阶段和退火阶段。
基于仅解码器的大型语言模型(LLM)嵌入模型开始在一般文本嵌入任务中表现优于基于BERT或T5的嵌入模型,包括基于密集向量的检索。在这项工作中,我们引入了NV-Embed模型,采用各种架构设计和训练程序,显著提升LLM作为多功能嵌入模型的性能,同时保持其简单性和可复现性。对于模型架构,我们提出了一个潜在的注意力层来获取汇总嵌入,与从LLM中使用平均池化或最后的<EOS>标记嵌入相比,这一方法始终改善了检索和下游任务的准确性。为了增强表示学习,我们在对比训练期间移除了LLM的因果注意力掩码。对于模型训练,我们引入了一个两阶段对比指导调整方法。首先,它在检索数据集上应用带有指导的对比训练,利用批内负例和策划的困难负例。在第二阶段,它将各种非检索数据集融合到指导调整中,这不仅提高了非检索任务的准确性,还改善了检索性能。结合这些技术,我们的NV-Embed模型仅使用公开可用数据,在2024年5月24日取得了69.32的最高分,排名Massive Text Embedding Benchmark(MTEB)第一(截至2024年5月24日),涵盖了56个任务,包括检索、重新排序、分类、聚类和语义文本相似性任务。值得注意的是,我们的模型还在MTEB基准测试中的15个检索任务中获得了59.36的最高分(也称为BEIR)。我们将在以下网址开源该模型:https://huggingface.co/nvidia/NV-Embed-v1。
扩散模型卓越的生成能力激发了图像和视频编辑方面的广泛研究。与视频编辑在时间维度上面临额外挑战相比,图像编辑已经见证了更多样化、高质量方法的发展,以及诸如Photoshop等更强大的软件。鉴此差距,我们提出了一种新颖且通用的解决方案,通过使用预训练的图像到视频模型,将编辑从单帧传播到整个视频,从而将图像编辑工具的适用性扩展到视频领域。我们的方法名为I2VEdit,根据编辑的程度,能够自适应地保留源视频的视觉和运动完整性,有效处理全局编辑、局部编辑和适度形状变化,这是现有方法无法完全实现的。我们方法的核心包括两个主要过程:粗糙运动提取,用于将基本运动模式与原始视频对齐,以及外观细化,通过细粒度的注意力匹配进行精确调整。我们还采用了跳跃间隔策略,以减轻由于跨多个视频片段的自回归生成而导致的质量下降。实验结果展示了我们框架在细粒度视频编辑方面的卓越表现,证明了其能够产生高质量、时间上连贯的输出。
我们提出了一种新颖的方法,用于从单个图像在任意视角下生成高质量、时空连贯的人类视频。我们的框架结合了U-Net的准确条件注入和扩散Transformer捕获全局视角和时间相关性的优势。核心是级联的4D Transformer架构,将注意力在视角、时间和空间维度上进行因式分解,实现对4D空间的高效建模。通过将人类身份、摄像机参数和时间信号精确注入到相应的Transformer中,实现了精确的条件设定。为了训练这个模型,我们整理了一个跨越图像、视频、多视角数据和3D/4D扫描的多维数据集,以及一个多维训练策略。我们的方法克服了基于GAN或基于UNet扩散模型的先前方法的局限性,这些方法在处理复杂运动和视角变化时存在困难。通过大量实验,我们展示了我们的方法能够合成逼真、连贯且自由视角的人类视频,为虚拟现实和动画等领域的先进多媒体应用铺平了道路。我们的项目网站是https://human4dit.github.io。
低秩适配器(LoRA)及其变体是流行的参数高效微调(PEFT)技术,可以在仅需要少量额外参数的情况下实现与完整模型微调性能相近。这些额外的LoRA参数是特定于正在适配的基础模型的。当需要废弃基础模型并用新模型替换时,所有相关的LoRA模块都需要重新训练。这种重新训练需要访问用于训练原始基础模型LoRA的数据。这对于商业云应用尤其具有问题,因为LoRA模块和基础模型由服务提供商托管,可能不允许托管专有客户任务数据。为解决这一挑战,我们提出Trans-LoRA -- 一种新颖的方法,可在基础模型之间实现无损、几乎无需数据的LoRA转移。我们的方法依赖于合成数据来转移LoRA模块。利用大型语言模型,我们设计了一个合成数据生成器,以近似观察任务数据子集的生成过程。在生成的合成数据集上训练,将LoRA模块转移到新模型。我们展示了我们的方法在LLama和Gemma模型系列上的有效性。我们的方法在各种任务上实现了在模型内部和跨不同基础模型系列之间,甚至在不同PEFT方法之间的无损(大多数改进)LoRA转移。
本文介绍了StreamV2V,这是一个实现实时流视频到视频(V2V)翻译的扩散模型,用户可以提供提示。与先前使用批处理处理有限帧的V2V方法不同,我们选择以流式方式处理帧,以支持无限帧。StreamV2V的核心是一个将当前与过去相关联的向后看原则。这是通过维护一个特征库来实现的,该库存档了来自过去帧的信息。对于传入的帧,StreamV2V将自注意力扩展到包括存储的键和值,并将类似的过去特征直接融合到输出中。特征库通过合并存储的和新的特征不断更新,使其既紧凑又信息丰富。StreamV2V以其适应性和效率脱颖而出,可以无需微调即与图像扩散模型无缝集成。它可以在一个A100 GPU上以20 FPS运行,比FlowVid、CoDeF、Rerender和TokenFlow分别快15倍、46倍、108倍和158倍。定量指标和用户研究证实了StreamV2V在保持时间一致性方面的卓越能力。
最近视频生成的研究取得了巨大进展,使得可以从文本提示或图像生成高质量视频。为视频生成过程添加控制是未来的重要目标,最近的方法在视频生成模型上加入摄像机轨迹条件取得了进展。然而,从多个不同摄像机轨迹生成同一场景的视频仍然具有挑战性。解决这个多视频生成问题可以实现大规模的可编辑摄像机轨迹的3D场景生成,以及其他应用。我们引入了协作视频扩散(CVD)作为实现这一愿景的重要一步。CVD框架包括一个新颖的跨视频同步模块,通过一个极线注意机制促进从不同摄像机姿势渲染的同一视频对应帧之间的一致性。在基于最先进的摄像机控制模块进行视频生成的基础上训练,CVD生成了从不同摄像机轨迹渲染的多个视频,其一致性明显优于基线,如广泛实验证明。项目页面:https://collaborativevideodiffusion.github.io/。
最近,扩散模型的出现为单视图重建开辟了新的机遇。然而,所有现有方法都将目标对象表示为一个缺乏任何结构信息的封闭网格,因此忽略了对重建形状的许多下游应用至关重要的基于部件的结构。此外,生成的网格通常存在大量噪音、不平滑的表面和模糊的纹理,使得使用3D分割技术获得满意的部分分割变得具有挑战性。在本文中,我们提出了Part123,这是一个从单视图图像进行部分感知3D重建的新框架。我们首先使用扩散模型从给定图像生成多视图一致的图像,然后利用“任意分割模型”(SAM),该模型展示了对任意对象具有强大泛化能力,生成多视图分割掩模。为了有效地将2D基于部件的信息纳入3D重建并处理不一致性,我们将对比学习引入到神经渲染框架中,基于多视图分割掩模学习部分感知特征空间。还开发了基于聚类的算法,可以自动从重建模型中导出3D部分分割结果。实验证明,我们的方法能够在各种对象上生成具有高质量分割部分的3D模型。与现有的非结构化重建方法相比,我们方法生成的部分感知3D模型有利于一些重要应用,包括特征保留重建、基本拟合和3D形状编辑。
虽然扩散模型可以学习复杂的分布,但抽样需要进行计算昂贵的迭代过程。现有的蒸馏方法可以实现高效的抽样,但存在一些明显的局限,比如在非常少的抽样步骤下性能下降、依赖训练数据访问,或者寻找模式的优化可能无法捕捉到完整的分布。我们提出了EM蒸馏(EMD),这是一种基于最大似然的方法,将扩散模型蒸馏为一个一步生成器模型,而且在感知质量最小损失的情况下。我们的方法是通过期望最大化(EM)的视角推导出来的,其中生成器参数是使用来自扩散教师先验和推断生成器潜变量的联合分布的样本进行更新的。我们开发了一种重新参数化的抽样方案和一个噪声抵消技术,共同稳定了蒸馏过程。我们进一步揭示了我们的方法与现有的最小化寻找模式KL的方法之间的有趣联系。在ImageNet-64和ImageNet-128上,EMD在FID分数方面优于现有的一步生成方法,并且与先前在蒸馏文本到图像扩散模型方面的工作相比表现出色。
视频生成模型因其生成逼真且富有想象力的帧而受到特别关注。此外,这些模型还被观察到表现出强大的三维一致性,显著增强了它们作为世界模拟器的潜力。在这项工作中,我们提出了Vidu4D,这是一种在准确重建4D(即连续3D)表示方面表现出色的重建模型,解决了与非刚性和帧失真相关的挑战。这种能力对于创建保持空间和时间连贯性的高保真虚拟内容至关重要。Vidu4D的核心是我们提出的动态高斯曲面元(DGS)技术。DGS优化了时变的变形函数,将高斯曲面元(表面元素)从静态状态转换为动态变形状态。这种转换实现了对时间内运动和变形的精确描述。为了保持与表面对齐的高斯曲面元的结构完整性,我们设计了基于连续变形场的变形状态几何正则化,用于估计法线。此外,我们学习了高斯曲面元的旋转和缩放参数的改进,极大地减轻了在变形过程中的纹理闪烁,并增强了对细粒度外观细节的捕捉。Vidu4D还包含一种新颖的初始化状态,为DGS中的变形场提供了适当的起点。将现有视频生成模型与Vidu4D配备,整体框架展示了在外观和几何上实现高保真文本到4D生成的能力。
深度学习模型的良好初始化至关重要,因为它可以帮助模型更好地、更快地收敛。然而,对许多研究人员来说,预训练大型模型是难以承受的,这使得如今对初始参数的期望预测变得更加必要。图形超网络(GHNs)是一种预测模型参数的方法,最近在初始化大型视觉模型方面表现出强大性能。然而,预测非常宽网络的参数依赖于多次复制小块参数,并且需要极其庞大的参数数量来支持完整预测,这严重阻碍了其在实践中的采用。为了解决这一局限性,我们提出了LoGAH(低秩图形超网络),这是一个带有低秩参数解码器的GHN,可以扩展到更宽的网络,而无需像以前那样过度增加参数。LoGAH使我们能够以内存高效的方式预测774百万规模的大型神经网络的参数。我们展示了使用LoGAH初始化的视觉和语言模型(即ViT和GPT-2)比随机初始化或使用现有超网络获得了更好的性能。此外,我们展示了关于在小数据集上训练LoGAH并使用预测参数初始化更大任务的有希望的迁移学习结果。我们在 https://github.com/Blackzxy/LoGAH 提供了代码。
我们解决了一个长期存在的问题,即如何在规模上学习有效的基于像素的图像扩散模型,引入了一种非常简单的贪婪增长方法,用于稳定训练大规模、高分辨率模型,无需级联超分辨率组件。关键洞察力源自对核心组件的精心预训练,即负责文本到图像对齐和高分辨率渲染的组件。我们首先展示了扩展 Shallow UNet 的好处,没有下(上)采样的编码(解码)器。扩展其深层核心层被证明可以改善对齐、对象结构和组合。基于这个核心模型,我们提出了一种贪婪算法,将架构扩展到高分辨率端到端模型,同时保持预训练表示的完整性,稳定训练,并减少对大型高分辨率数据集的需求。这使得能够生成高分辨率图像的单阶段模型无需超分辨率级联。我们的关键结果依赖于公共数据集,并显示我们能够训练高达 80 亿参数的非级联模型,无需进一步的正则化方案。Vermeer,我们的完整流水线模型经过内部数据集训练,能够生成 1024x1024 图像,无级联,被 44.0% 的人类评估者优先于 SDXL 的 21.4%。