每日精选AI研究论文及翻译
大型语言模型(LLMs)是现代自然语言处理的核心,在各种任务中表现出色。然而,它们的计算和内存需求巨大,尤其对于内存容量有限的设备而言存在挑战。本文解决了运行超出可用DRAM容量的LLMs的高效性挑战,方法是将模型参数存储在闪存中,按需将其调入DRAM。我们的方法涉及构建一个与闪存行为协调的推理成本模型,指导我们在两个关键领域进行优化:减少从闪存传输的数据量,并以更大、更连续的块读取数据。在这个以闪存为基础的框架内,我们引入了两种主要技术。首先,“窗口化”策略性地减少数据传输,通过重复使用先前激活的神经元,其次,“行列捆绑”根据闪存的顺序数据访问优势,增加了从闪存读取的数据块大小。这些方法共同使模型能够在可用DRAM大小的两倍范围内运行,在CPU和GPU中,推理速度相比于朴素加载方法分别提高了4-5倍和20-25倍。我们整合了稀疏感知、上下文自适应加载和面向硬件的设计,为在内存有限的设备上有效推理LLMs铺平了道路。
可伸缩矢量图形(SVG)由于其分辨率的无限可扩展性、多功能性和编辑能力,在现代图像渲染应用中变得至关重要。SVG在网页开发和图形设计领域特别受欢迎。现有的使用深度学习进行SVG建模的方法通常难以生成复杂的SVG,并且局限于需要大量处理和简化的简单SVG。本文介绍了StarVector,一种多模态SVG生成模型,有效地整合了代码生成大型语言模型(CodeLLMs)和视觉模型。我们的方法利用CLIP图像编码器从基于像素的图像中提取视觉表示,然后通过适配器模块将其转换为视觉标记。这些视觉标记被预置到SVG标记嵌入中,然后通过StarCoder模型对序列进行建模,使用下一个标记预测,有效地学习对齐视觉和代码标记。这使得StarVector能够生成准确表示像素图像的不受限制的SVG。为了评估StarVector的性能,我们提出了SVG-Bench,这是一个用于评估SVG方法的全面基准,涵盖多个数据集和相关指标。在这个基准中,我们引入了包括SVG-Stack在内的新颖数据集,这是一个大规模的真实世界SVG示例数据集,并将其用于预训练StarVector作为SVG的大型基础模型。我们的结果显示,与当前方法相比,在视觉质量和复杂性处理方面取得了显著的提升,标志着SVG生成技术的显著进步。代码和模型:https://github.com/joanrod/star-vector
从二维地标中提取三维结构和相机是整个计算机视觉学科的基石。传统方法局限于特定的刚性物体,比如透视n点(PnP)问题,但深度学习扩展了我们重建各种对象类别(例如C3PDO和PAUL)的能力,对噪声、遮挡和透视失真具有韧性。然而,所有这些技术都受制于建立3D训练数据之间对应关系的基本需求,极大地限制了它们在需要大量“不对应”3D数据的应用中的实用性。我们的方法利用变换器的固有置换等变性来处理每个3D数据实例中不同数量的点,抵抗遮挡,并推广到未见类别。我们展示了在2D-3D提取任务基准测试中的最先进性能。由于我们的方法可以跨越如此广泛的结构类别进行训练,我们简称它为三维提取基础模型(3D-LFM)-- 这是首创的。
大型语言模型(LLMs)处理视觉输入的能力催生了通用视觉系统,通过指导微调统一各种视觉-语言(VL)任务。然而,由于视觉领域输入输出格式的巨大多样性,现有的通用模型未能成功将分割和多图像输入与粗粒度任务整合到一个框架中。在这项工作中,我们介绍了VistaLLM,一个强大的视觉系统,利用统一框架处理单个和多个输入图像上的粗粒度和细粒度VL任务。VistaLLM利用指导图像标记器,通过任务描述筛选全局嵌入,从众多图像中提取压缩和精炼特征。此外,VistaLLM采用梯度感知自适应采样技术,将二进制分割掩模表示为序列,显著改善了先前使用的均匀采样。为了增强VistaLLM的期望能力,我们精心策划了CoinIt,一个包含680万样本的全面粗粒度到细粒度指导微调数据集。我们还通过引入一项新任务AttCoSeg(属性级联合分割)来解决缺乏多图像基准数据集的问题,这有助于提升模型在多个输入图像上的推理和基准能力。在广泛的V-和VL任务上进行的大量实验表明,VistaLLM的有效性,通过在所有下游任务中稳定超越强基线,取得了一致的最新性能。我们的项目页面位于https://shramanpramanick.github.io/VistaLLM/。
我们提出了HAAR,这是一种基于发束的新型三维人类发型生成模型。具体来说,基于文本输入,HAAR生成可用作现代计算机图形引擎中生产级资产的三维发型。当前基于人工智能的生成模型利用强大的二维先验来重建以点云、网格或体积函数形式呈现的三维内容。然而,通过使用二维先验,它们固有地仅限于恢复视觉部分。高度遮挡的发型结构无法用这些方法重建,它们仅模拟“外壳”,这不适用于基于物理的渲染或仿真流程。相比之下,我们提出了一种首个文本引导的生成方法,它使用三维发束作为基础表示。利用二维视觉问答(VQA)系统,我们自动注释从一小组艺术家创建的发型中生成的合成发型模型。这使我们能够训练在常见发型UV空间中运行的潜在扩散模型。通过定性和定量研究,我们展示了所提出模型的能力,并将其与现有发型生成方法进行了比较。
Amodal感知是一种能力,即从部分可见性中理解完整物体结构,即使对婴儿而言也是一项基本技能。其重要性延伸至应用领域,如自动驾驶,在这些应用中,对于严重遮挡的物体有清晰的理解是至关重要的。然而,现代检测和跟踪算法通常忽视了这一关键能力,也许是因为大多数数据集中普遍存在模态注释。为解决amodal数据的稀缺性,我们引入了TAO-Amodal基准,其中包含数千个视频序列中的880个不同类别。我们的数据集包括可见和被遮挡物体的amodal和modal边界框,包括部分超出画面范围的物体。为了通过数据增强在几百个视频序列上微调,利用轻量级插件模块amodal扩展器来增强amodal跟踪的物体恒常性。我们在TAO-Amodal上实现了检测和跟踪被遮挡物体的3.3%和1.6%的改进。在人员评估时,与最先进的模态基线相比,我们的方法实现了2倍的显著改进。
神经辐射场(NeRF)已成为新视角合成的领先技术,因其令人印象深刻的逼真重建和渲染能力而闻名。然而,在大规模场景中实现实时NeRF渲染存在挑战,通常需要采用要么复杂的烘焙网格表示,要么资源密集的烘焙表示中的光线行进,我们挑战这些传统,观察到高质量几何,用大量三角形表示的网格并非实现逼真渲染质量所必需。因此,我们提出了MixRT,一种新颖的NeRF表示,包括低质量网格、视角相关位移图和压缩的NeRF模型。这种设计有效地利用了现有图形硬件的能力,从而实现了边缘设备上的实时NeRF渲染。利用高度优化的基于WebGL的渲染框架,我们提出的MixRT在边缘设备上实现了实时渲染速度(在MacBook M1 Pro笔记本上以1280 x 720分辨率超过30 FPS),更好的渲染质量(在Unbounded-360数据集的室内场景中高出0.2 PSNR),以及更小的存储空间(与最先进方法相比少于80%)。
最近,超分辨率(SR)技术已被提出,用于提升神经辐射场(NeRF)的输出并生成具有增强推理速度的高质量图像。然而,现有的NeRF+SR方法通过使用额外的输入特征、损失函数和/或昂贵的训练程序(如知识蒸馏)增加了训练开销。本文旨在利用SR实现效率提升,而无需昂贵的训练或架构更改。具体而言,我们构建了一个简单的NeRF+SR流程,直接结合现有模块,并提出了一种轻量级的增强技术,即随机补丁采样,用于训练。与现有的NeRF+SR方法相比,我们的流程减少了SR计算开销,并且训练速度最多可提高23倍,使其能够在消费者设备(如苹果MacBook)上运行。实验证明,我们的流程可以将NeRF的输出提升2-4倍,同时保持高质量,在NVIDIA V100 GPU上推理速度最多提高18倍,在M1 Pro芯片上提高12.8倍。我们得出结论,SR可以是一种简单但有效的技术,用于提高NeRF模型在消费者设备上的效率。
本文提出了一种新颖的两阶段方法,充分利用参考图像提供的信息,为图像到三维生成建立定制化知识先验。之前的方法主要依赖于通用扩散先验,难以与参考图像产生一致的结果,我们提出了一种主体特定和多模态扩散模型。该模型不仅通过考虑阴影模式来帮助 NeRF 优化以改善几何结构,还从粗糙结果中增强纹理以实现卓越的细化。这两个方面有助于将三维内容与主体忠实地对齐。大量实验证明了我们的方法 Custom-It-3D 的优越性,远远超过以往的工作。它生成了具有令人印象深刻视觉质量的忠实360度重建,非常适用于各种应用,包括文本到三维创建。
视频是高度冗余的数据源,通常只需识别一些关键时刻即可解决任何给定任务。本文介绍了一种文本条件视频重采样(TCR)模块,该模块使用预训练且冻结的视觉编码器和大型语言模型(LLM)来处理长视频序列以完成任务。TCR根据文本条件定位视频中相关的视觉特征,并将其提供给LLM生成文本响应。由于其轻量级设计和使用交叉注意力,TCR可以一次处理超过100帧,使模型能够使用比先前作品更长的视频块。我们的贡献如下:(i)设计了基于Transformer的采样架构,可以根据任务处理长视频,结合训练方法使其能够连接预训练的视觉和语言模型;(ii)在各种评估任务上进行了实证验证,同时在NextQA、EgoSchema和EGO4D-LTA挑战赛上树立了新的最先进水平;(iii)确定需要更长视频上下文的任务,因此可以有效地用于长距离视频模型的进一步评估。
基于文本驱动的扩散模型在各种图像编辑任务中变得越来越受欢迎,包括修补、风格化和对象替换。然而,将这种语言-视觉范式应用于更精细级别的图像处理任务,如去噪、超分辨率、去模糊和压缩伪影去除,仍然是一个开放的研究问题。在本文中,我们开发了TIP,一个文本驱动的图像处理框架,利用自然语言作为用户友好的界面来控制图像恢复过程。我们考虑文本信息在两个维度上的作用。首先,我们使用与内容相关的提示来增强语义对齐,有效减轻恢复结果中的身份模糊。其次,我们的方法是第一个支持通过基于语言的定量规范来进行精细级别指导的框架,无需明确的任务特定设计。此外,我们引入了一种新颖的融合机制,通过学习重新调整生成先验来增强现有的ControlNet架构,从而实现更好的恢复保真度。我们广泛的实验证明了TIP相对于现有技术的卓越恢复性能,同时提供了基于文本的控制恢复效果的灵活性。
本文介绍了一种新颖的主题建模方法,利用向量量化变分自动编码器(VQ-VAE)中的潜在码书,离散地封装了预训练嵌入(如预训练语言模型)的丰富信息。通过将潜在码书和嵌入解释为概念词袋的新颖方式,我们提出了一种名为主题-VQ-VAE(TVQ-VAE)的新生成主题模型,该模型可以反向生成与相应潜在码书相关的原始文档。TVQ-VAE可以可视化具有各种生成分布的主题,包括传统的词袋分布和自回归图像生成。我们在文档分析和图像生成方面的实验结果表明,TVQ-VAE有效捕捉了揭示数据集潜在结构并支持灵活文档生成形式的主题上下文。提出的TVQ-VAE的官方实现可在https://github.com/clovaai/TVQ-VAE找到。