每日精选AI研究论文及翻译
我们介绍了StreamDiffusion,这是一个专为交互式图像生成设计的实时扩散管道。现有的扩散模型擅长根据文本或图像提示创建图像,但它们在实时交互方面往往表现不佳。这种限制在涉及连续输入的场景中尤为明显,比如元宇宙、实时视频流和广播,这些场景中高吞吐量至关重要。为了解决这个问题,我们提出了一种新颖的方法,将原始的顺序去噪转变为批量去噪过程。Stream Batch消除了传统的等待交互方法,并实现了流畅高吞吐量的流程。为了处理数据输入与模型吞吐量之间的频率差异,我们设计了一种新颖的输入输出队列,用于并行化流处理过程。此外,现有的扩散管道使用无分类器引导(CFG),需要额外的U-Net计算。为了减少冗余计算,我们提出了一种新颖的残差无分类器引导(RCFG)算法,将负条件去噪步骤的数量减少到仅为一步甚至零步。此外,我们引入了随机相似性过滤器(SSF)来优化功耗。我们的Stream Batch在不同去噪级别下比顺序去噪方法实现了约1.5倍的加速。所提出的RCFG比传统CFG的速度提高了高达2.05倍。结合所提出的策略和现有成熟的加速工具,使图像生成在一块RTX4090上实现了高达91.07fps的吞吐量,将Diffusers开发的AutoPipline的吞吐量提高了59.56倍以上。此外,我们提出的StreamDiffusion还将能耗在一块RTX3060和一块RTX4090上分别降低了2.39倍和1.99倍。
我们提出了VideoPoet,这是一种能够从各种调节信号中合成高质量视频及匹配音频的语言模型。VideoPoet采用仅解码器的Transformer架构,处理多模态输入,包括图像、视频、文本和音频。训练协议遵循大型语言模型(LLMs)的方式,包括两个阶段:预训练和特定任务适应。在预训练阶段,VideoPoet在自回归Transformer框架中结合多模态生成目标。预训练的LLM作为一个基础,可用于各种视频生成任务的调整。我们提供了实证结果,展示了该模型在零样本视频生成方面的最新能力,特别突出了VideoPoet生成高保真运动的能力。项目页面:http://sites.research.google/videopoet/
本文介绍了PowerInfer,这是一个在个人电脑(PC)上配备单个消费级GPU的高速大型语言模型(LLM)推断引擎。PowerInfer设计的关键基础是利用LLM推断中固有的高局部性,其特征是神经元激活呈幂律分布。这种分布表明,一个被称为热神经元的小子集在各种输入中始终被激活,而大多数冷神经元则根据特定输入而变化。PowerInfer利用这一洞察力设计了一个GPU-CPU混合推断引擎:热激活的神经元预先加载到GPU上以实现快速访问,而冷激活的神经元则在CPU上计算,从而显著减少了GPU内存需求和CPU-GPU数据传输。PowerInfer进一步集成了自适应预测器和神经元感知稀疏运算符,优化神经元激活和计算稀疏性的效率。评估结果显示,PowerInfer在单个NVIDIA RTX 4090 GPU上的各种LLMs(包括OPT-175B)上实现了平均每秒生成13.20个标记的速率,峰值为29.08个标记/秒,仅比顶级服务器级A100 GPU实现的速率低18%。这大大优于llama.cpp高达11.69倍,同时保持模型准确性。
人类能够轻松解决上下文中的多模态任务(即,仅凭少量演示或简单指示),这是当前多模态系统在模仿时往往遇到困难的地方。在这项工作中,我们展示了大型多模态模型的任务不可知上下文学习能力可以通过有效的扩展显著增强。我们引入了Emu2,一个拥有370亿参数的生成式多模态模型,使用统一的自回归目标在大规模多模态序列上进行训练。Emu2展现出强大的多模态上下文学习能力,甚至能够解决需要即时推理的任务,如视觉提示和基于对象的生成。该模型在少样本设置下在多个多模态理解任务上创下了新纪录。当根据特定指示进行调整后,Emu2在挑战性任务上取得了新的最先进水平,例如针对大型多模态模型的问答基准测试和开放式主题驱动生成。这些成就表明Emu2可以作为基础模型和多模态任务的通用接口,代码和模型已公开提供以促进未来研究。
从单个肖像图像生成情感对话面孔仍然是一个重要挑战。实现表达丰富的情感对话和准确的嘴唇同步是特别困难的,因为通常会牺牲表现力以换取嘴唇同步的准确性。正如许多先前的研究所广泛采用的那样,LSTM网络通常无法捕捉情感表达的微妙变化。为了解决这些挑战,我们引入了DREAM-Talk,这是一个针对同时生成多样表情和准确嘴唇同步的基于扩散的音频驱动框架。在第一阶段,我们提出了EmoDiff,这是一个新颖的扩散模块,根据音频和参考情感风格生成多样化且高动态的情感表达和头部姿势。鉴于嘴唇运动与音频之间存在很强的相关性,我们利用音频特征和情感风格来提高动态并增强嘴唇同步的准确性。为此,我们部署了一个视频到视频渲染模块,将表情和嘴唇运动从我们的代理3D头像转移到任意肖像中。在量化和定性方面,DREAM-Talk在表现力、嘴唇同步准确性和感知质量方面均优于最先进的方法。
基于扩散的模型展示了在文本到图像生成方面的出色能力,并且被期望用于个性化主题驱动生成的应用,这些应用需要生成具有定制概念的图像,只需一两个参考图像。然而,基于微调的现有方法未能平衡主题学习和维护预训练模型生成能力之间的权衡。此外,利用额外图像编码器的其他方法往往由于编码压缩而丢失主题的重要细节。为了解决这些挑战,我们提出了DreamTurner,这是一种新颖的方法,通过从粗到细注入参考信息,更有效地实现主题驱动的图像生成。DreamTurner引入了一个主题编码器,用于粗略主题身份保留,通过注意力层在视觉文本交叉注意力之前引入压缩的一般主题特征。然后,我们修改了预训练文本到图像模型中的自注意力层,将其改为自主题注意力层,以细化目标主题的细节。生成的图像通过自主题注意力从参考图像和自身中查询详细特征。值得强调的是,自主题注意力是一种有效、优雅且无需训练的方法,用于保持定制主题的详细特征,并且可以在推理过程中作为即插即用的解决方案。最后,通过额外的主题驱动微调,DreamTurner在主题驱动图像生成方面取得了显著的性能,可以通过文本或其他条件(如姿势)进行控制。欲了解更多详情,请访问项目页面https://dreamtuner-diffusion.github.io/。
尽管单目深度估计方法在标准基准测试中取得了显著进展,但零样本度量深度估计仍未解决。挑战包括联合建模室内和室外场景,这些场景通常展现出明显不同的RGB和深度分布,以及由于未知摄像机内参引起的深度尺度歧义。最近的研究提出了专门的多头架构,用于联合建模室内和室外场景。相比之下,我们提倡一种通用的、与任务无关的扩散模型,具有多项先进技术,如对数尺度深度参数化,以实现室内和室外场景的联合建模,以视场(FOV)为条件处理尺度歧义,并在训练过程中通过合成增加FOV以实现对训练数据集中有限摄像机内参的泛化。此外,通过采用比通常更多样化的训练混合物和高效的扩散参数化,我们的方法,DMD(度量深度扩散),在零样本室内数据集上相对误差(REL)减少了25%,在零样本室外数据集上减少了33%,仅使用少量去噪步骤。有关概述,请参阅https://diffusion-vision.github.io/dmd
本文介绍了Fairy,这是一种极简但强大的图像编辑扩散模型改进,专为视频编辑应用而设计。我们的方法围绕基于锚点的跨帧注意力概念展开,这一机制在帧间隐式传播扩散特征,确保了优越的时间连贯性和高保真合成。Fairy不仅解决了先前模型的局限,包括内存和处理速度。它还通过独特的数据增强策略提高了时间一致性。该策略使模型对源图像和目标图像中的仿射变换具有等变性。令人惊叹的是,Fairy仅需14秒即可生成120帧512x384视频(以30 FPS播放的4秒时长),超过先前作品至少44倍。一项涉及1000个生成样本的全面用户研究证实,我们的方法提供了卓越质量,明显优于已建立的方法。
扩散模型已成为视频生成的事实范式。然而,它们对各种质量的大规模网络数据的依赖通常会产生视觉上不吸引人且与文本提示不一致的结果。为了解决这个问题,我们提出了InstructVideo,通过奖励微调用人类反馈指导文本到视频扩散模型。InstructVideo有两个关键要素:1)为了改善通过完整DDIM采样链生成而引起的奖励微调成本,我们将奖励微调重新构建为编辑。通过利用扩散过程来破坏采样视频,InstructVideo仅需要对DDIM采样链进行部分推断,降低微调成本同时提高微调效率。2)为了减轻缺乏专门的视频奖励模型用于人类偏好的问题,我们重新利用已建立的图像奖励模型,例如HPSv2。为此,我们提出了分段视频奖励,一种基于分段稀疏采样提供奖励信号的机制,以及时间衰减奖励,一种在微调过程中减轻时间建模退化的方法。广泛的定性和定量实验证实了在InstructVideo中使用图像奖励模型的实用性和功效,显著提高了生成视频的视觉质量,而不会损害泛化能力。代码和模型将公开提供。
我们介绍了Splatter Image,这是一种在38 FPS运行的单目3D物体重建的超快速方法。Splatter Image基于高斯飞溅技术,该技术最近为多视角重建带来了实时渲染、快速训练和出色的扩展性。我们首次将高斯飞溅技术应用于单目重建设置中。我们的方法是基于学习的,在测试时,重建仅需要神经网络的前向评估。Splatter Image的主要创新在于其惊人简单的设计:它使用2D图像到图像的网络,将输入图像映射到每个像素一个3D高斯。因此得到的高斯具有图像的形式,即Splatter Image。我们进一步扩展了该方法,通过添加跨视图注意力,使其能够处理多于一个图像的输入。由于渲染器的速度(588 FPS)很快,我们可以在训练时仅使用单个GPU,同时在每次迭代中生成整个图像,以优化像LPIPS这样的感知度量。在标准基准测试中,我们不仅展示了快速重建,而且在PSNR、LPIPS和其他指标方面取得了比最近和更昂贵的基线更好的结果。
最近,分割任意模型(Segment Anything Model,SAM)展现出强大的分割能力,在计算机视觉领域引起了极大关注。许多后续研究基于预训练的SAM开发了各种应用,并在下游视觉任务中取得了令人印象深刻的性能。然而,SAM由于庞大的架构和需要大量计算资源,限制了SAM在计算受限边缘设备上的进一步应用。因此,在本文中,我们提出了一个框架,以获得一个微型分割任意模型(TinySAM),同时保持强大的零样本性能。我们首先提出了一种全阶段知识蒸馏方法,结合在线硬提示采样策略,来蒸馏出一个轻量级的学生模型。我们还将后训练量化方法应用于可提示的分割任务,进一步降低计算成本。此外,我们提出了一种分层分割一切策略,通过几乎没有性能降级,将一切推理加速了2倍。通过所有这些提出的方法,我们的TinySAM实现了数量级的计算减少,并推动了高效分割任意任务的发展。对各种零样本迁移任务的大量实验表明,我们的TinySAM在性能上明显优于对应方法。预训练模型和代码将在https://github.com/xinghaochen/TinySAM 和 https://gitee.com/mindspore/models/tree/master/research/cv/TinySAM 上提供。
本文介绍了一种名为缓存Transformer的新型Transformer模型,该模型使用门控循环缓存(GRC)注意力来扩展自注意力机制,具有可微分的记忆令牌缓存。GRC注意力使得模型能够同时关注过去和当前的令牌,增加了注意力的感受野,并允许探索长距离依赖关系。通过利用循环门控单元不断更新缓存,我们的模型在包括语言建模、机器翻译、ListOPs、图像分类、目标检测和实例分割在内的六项语言和视觉任务中取得了显著进展。此外,我们的方法在诸如语言建模等任务中超越了先前基于记忆的技术,并展现了适用于更广泛情境的能力。
为了实现人类水平的灵巧度,机器人必须从多模态感知中推断空间意识,以便推理接触交互。在手中操纵新物体时,这种空间意识涉及估计物体的姿态和形状。目前手中感知的现状主要采用视觉,并限制于跟踪先验已知的物体。此外,在操纵过程中,手中物体的视觉遮挡是不可避免的,这会阻止当前系统在没有遮挡的任务上取得进展。我们结合视觉和触觉传感器在多指手上,以估计在手中操纵过程中物体的姿态和形状。我们的方法,神经触感(NeuralFeels),通过在线学习神经场来编码物体几何形状,并通过优化姿态图问题联合跟踪它。我们在仿真和现实世界中研究多模态手中感知,通过基于本体感知驱动的策略与不同物体进行交互。我们的实验结果显示最终重建的F分数为81%,平均姿态漂移为4.7毫米,进一步降低至2.3毫米,已知CAD模型。此外,我们观察到,在严重视觉遮挡下,与仅使用视觉的方法相比,我们可以实现高达94%的跟踪改进。我们的结果表明,触觉至少可以优化,甚至可以消除在手中操纵过程中的视觉估计的歧义。我们发布了包含70个实验的评估数据集FeelSight,作为在该领域进行基准测试的一步。我们基于多模态感知的神经表示可以作为推进机器人灵巧度的感知基础。视频可在我们的项目网站https://suddhu.github.io/neural-feels/找到。
文本引导扩散模型已经彻底改变了图像和视频生成,并且已成功应用于基于优化的3D物体合成。在这里,我们转而关注未充分探索的文本到4D设置,并使用评分蒸馏方法合成动态、动画的3D物体,其中增加了一个时间维度。与先前的工作相比,我们采用了一种新颖的基于组合生成的方法,结合文本到图像、文本到视频和3D感知多视角扩散模型,在4D物体优化过程中提供反馈,从而同时强化时间一致性、高质量的视觉外观和真实几何形状。我们的方法,称为"对齐您的高斯"(AYG),利用动态3D高斯飞溅与变形场作为4D表示。AYG的关键在于一种新颖的方法,用于正则化移动的3D高斯分布,从而稳定优化并引发运动。我们还提出了一种运动放大机制,以及一种新的自回归合成方案,用于生成和组合多个4D序列,以实现更长时间的生成。这些技术使我们能够合成生动的动态场景,从质量和数量上优于先前的工作,并实现了最先进的文本到4D性能。由于高斯4D表示,不同的4D动画可以无缝组合,正如我们展示的那样。AYG为动画、模拟和数字内容创作以及合成数据生成开辟了有前途的途径。
最近生成式人工智能的进展显著增强了图像和视频编辑,特别是在文本提示控制的背景下。当前最先进的方法主要依赖扩散模型来完成这些任务。然而,基于扩散的方法的计算需求很大,通常需要大规模配对数据集进行训练,因此在实际应用中具有挑战性。本研究通过将基于文本的视频编辑过程分解为两个独立阶段来解决这一挑战。在第一阶段,我们利用现有的文本到图像扩散模型同时编辑一些关键帧而无需额外微调。在第二阶段,我们引入了一种高效的模型称为MaskINT,它基于非自回归蒙版生成变压器构建,专门用于关键帧之间的帧插值,从中间帧提供的结构指导中获益。我们的一系列综合实验展示了与其他基于扩散的方法相比,MaskINT的有效性和效率。这项研究为基于文本的视频编辑提供了实际解决方案,并展示了非自回归蒙版生成变压器在该领域的潜力。
在人工智能研究中,优化大型语言模型(LLMs)仍然是一个重要挑战,对推进该领域的实际应用和可持续性至关重要。本文借鉴了韩颂教授在麻省理工学院实验室的基础工作,介绍了一种通过上下文修剪开发Mini-GPTs的新方法。我们的方法有策略地修剪传统LLMs(如Phi-1.5)的计算架构,侧重保留核心功能,同时大幅减小模型大小。我们将这一技术应用于包括美国法律、医学问答、《上古卷轴》对话、英文-台湾话语翻译和经济文章在内的多样化和复杂数据集上。结果突显了上下文修剪的效率和有效性,不仅仅作为一个理论概念,而且作为开发领域特定、资源高效的LLMs的实用工具。上下文修剪是构建领域特定LLMs的一种有前途的方法,本研究是未来发展的基石,需要更多硬件计算、精细调整和量化。
本文从推理效率的角度全面研究了分类器自由引导(CFG)在文本条件扩散模型中的作用。具体来说,我们放宽了在所有扩散步骤中应用CFG的默认选择,而是寻找高效的引导策略。我们在可微分神经架构搜索框架中制定了发现这种策略的方法。我们的研究表明,CFG提出的去噪步骤越来越与简单的条件步骤一致,这使得CFG的额外神经网络评估在去噪过程的后半部分变得多余。基于这一发现,我们提出了“自适应引导”(AG),这是CFG的一种高效变体,当去噪过程显示收敛时,自适应地省略网络评估。我们的实验表明,AG在减少计算量的同时保持了CFG的图像质量,减少了25%的计算量。因此,AG是Guidance Distillation的即插即用替代方案,实现了后者速度提升的50%,同时无需训练,保留了处理负提示的能力。最后,我们揭示了CFG在扩散过程的前半部分进一步冗余,表明整个神经功能评估可以被过去得分估计的简单仿射变换所取代。这种方法被称为LinearAG,提供了更便宜的推理,但会偏离基线模型。我们的研究结果揭示了条件去噪过程的效率,有助于更实用和快速部署文本条件扩散模型。
神经网络3D场景表示已展现出从2D图像重建3D场景的巨大潜力。然而,重建复杂场景的真实世界捕获仍然是一个挑战。现有的通用3D重建方法通常难以表现精细的几何细节,并且未能充分模拟大规模场景的反射表面。专注于反射表面的技术可以通过更好的反射参数化来模拟复杂和详细的反射。然而,我们观察到这些方法在真实的无界场景中通常不够稳健,因为存在非反射和反射组件。在这项工作中,我们提出了UniSDF,一种通用的3D重建方法,可以重建具有反射的大型复杂场景。我们研究了基于视图和基于反射的颜色预测参数化技术,并发现在3D空间中显式地融合这些表示可以实现更准确的几何表面重建,特别是对于反射表面。我们进一步将这种表示与以粗到细方式训练的多分辨率网格骨干相结合,使得重建速度比先前方法更快。在对象级数据集DTU、Shiny Blender以及无界数据集Mip-NeRF 360和Ref-NeRF real上进行了大量实验,证明我们的方法能够稳健地重建具有精细细节和反射表面的复杂大型场景。请访问我们的项目页面https://fangjinhuawang.github.io/UniSDF。
神经辐射场在建模3D场景外观方面取得了显著的性能。然而,现有方法仍然在处理具有光泽表面的视角相关外观方面存在困难,特别是在室内环境复杂照明下。与通常假设远程照明(如环境贴图)不同,我们提出了可学习的高斯方向编码,以更好地模拟近场照明条件下的视角相关效果。重要的是,我们的新方向编码捕捉了近场照明的空间变化特性,并模拟了预过滤环境贴图的行为。因此,它能够有效评估具有不同粗糙度系数的任何3D位置处的预卷积镜面颜色。我们进一步引入了数据驱动的几何先验,有助于缓解反射建模中的形状辐射歧义。我们展示了我们的高斯方向编码和几何先验显着改善了神经辐射场中具有挑战性的镜面反射建模,有助于将外观分解为更具物理意义的组件。
利用深度神经网络(DNNs)从观测中学习预测模型是许多现实世界规划和控制问题的一种有前途的新方法。然而,常见的DNNs结构过于杂乱,难以有效进行规划,当前的控制方法通常依赖于大量采样或局部梯度下降。在本文中,我们提出了一个新的集成模型学习和预测控制的框架,适用于高效优化算法。具体而言,我们从系统动态的ReLU神经模型开始,通过逐渐稀疏化模型,去除冗余神经元,在最小化预测准确性损失的基础上进行。这种离散稀疏化过程被近似为连续问题,实现了模型架构和权重参数的端到端优化。稀疏化模型随后被混合整数预测控制器使用,该控制器将神经元激活表示为二进制变量,并采用高效的分支定界算法。我们的框架适用于各种DNNs,从简单的多层感知器到复杂的图神经动态。它可以有效处理涉及复杂接触动力学的任务,如推动物体、组合物体排序和可变形物体操纵。数值和硬件实验表明,尽管进行了激进的稀疏化,我们的框架可以提供比现有最先进方法更好的闭环性能。
最近,一种常见的将单张图像转换为3D的方法采用了得分蒸馏采样(SDS)。尽管取得了令人印象深刻的结果,但存在多个缺陷,包括多视角不一致、过度饱和和过度平滑的纹理,以及生成速度慢。为了解决这些问题,我们提出了Repaint123,以减轻多视角偏差以及纹理退化,并加快生成过程。其核心思想是结合2D扩散模型的强大图像生成能力和修复策略的纹理对齐能力,生成具有一致性的高质量多视角图像。我们进一步提出了适用于重叠区域的可见性感知自适应修复强度,以增强修复过程中生成图像的质量。生成的高质量和多视角一致的图像使得可以使用简单的均方误差(MSE)损失进行快速3D内容生成。我们进行了大量实验,并展示了我们的方法能够在2分钟内从头开始生成具有高质量、多视角一致性和精细纹理的3D内容的优越能力。代码位于https://github.com/junwuzhang19/repaint123。
生物医学成像数据集通常规模较小且存在偏见,这意味着预测模型的实际性能可能远低于内部测试所预期的。本研究提出利用生成式图像编辑来模拟数据集转移,并诊断生物医学视觉模型的失败模式;这可在部署前使用以评估准备就绪程度,潜在地降低成本和患者伤害。现有的编辑方法可能会产生不良变化,由于疾病和治疗干预的共同发生而学习到虚假相关性,从而限制了实际适用性。为解决这一问题,我们在多个胸部X射线数据集上训练了一个文本到图像扩散模型,并引入了一种名为RadEdit的新编辑方法,利用多个蒙版(如果存在)来限制变化,并确保编辑后的图像一致性。我们考虑了三种类型的数据集转移:获取转移、表现转移和人口转移,并证明我们的方法可以诊断失败并量化模型的鲁棒性,而无需额外的数据收集,为可解释人工智能提供了更多定性工具的补充。