每日精选AI研究论文及翻译
扩散模型目前在数据驱动图像合成领域占据主导地位,其在大规模数据集上的无与伦比的扩展能力。本文中,我们确定并纠正了流行的ADM扩散模型架构中导致训练不均匀且低效的几个原因,同时没有改变其高级结构。观察到在训练过程中网络激活和权重中出现的不受控制的幅度变化和不平衡,我们重新设计了网络层,以保持期望中的激活、权重和更新幅度。我们发现系统地应用这一理念可以消除观察到的漂移和不平衡,从而在相同的计算复杂度下获得更好的网络。我们的修改将在ImageNet-512合成中的先前记录FID从2.41提高到1.81,采用快速确定性采样实现。 作为独立贡献,我们提出了一种方法来在训练运行完成后设置指数移动平均(EMA)参数,即事后。这允许精确调整EMA长度,而无需进行多次训练运行,同时揭示了EMA与网络架构、训练时间和指导之间的惊人互动。
我们介绍了一种创新的图像提示多视角扩散模型“ImageDream”,用于3D物体生成。与现有的最先进的基于图像的方法相比,“ImageDream”以其生成质量更高的3D模型脱颖而出。我们的方法利用图像中物体的规范相机协调,提高了视觉几何精度。该模型在扩散模型内的每个块中根据输入图像设计了各种控制级别,全局控制塑造整体物体布局,而局部控制微调图像细节。通过使用标准提示列表进行广泛评估展示了“ImageDream”的有效性。欲了解更多信息,请访问我们的项目页面https://Image-Dream.github.io。
重新照明的保真度受几何和外观表示的限制。对于几何来说,无论是网格还是体积方法都难以建模像3D头发几何这样复杂的结构。对于外观来说,现有的重新照明模型在保真度上存在局限,并且通常渲染实时高分辨率连续环境时速度太慢。在这项工作中,我们提出了可重新照明的高保真度头像化编码化身,这是一种构建高保真度可重新照明头像的方法,可以进行动画处理以生成新颖的表情。我们基于3D高斯模型的几何模型可以捕捉动态面部序列上的毫米级细节,如头发细丝和毛孔等3D一致性细节。为了以统一方式支持人类头部的各种材料,如眼睛、皮肤和头发,我们提出了一种基于可学习辐射传输的新颖可重新照明外观模型。结合全局照明感知的球谐函数用于漫反射分量,我们利用球形高斯函数实现了具有空间所有频率反射的实时重新照明。这种外观模型可以在点光源和连续照明下高效地重新照明。我们进一步提高了眼睛反射的保真度,并通过引入可重新照明的显式眼睛模型实现了明确的凝视控制。我们的方法在不影响实时性能的情况下优于现有方法。我们还展示了在连接的消费者VR头显上对化身进行实时重新照明,展示了我们化身的高效性和保真度。
我们引入了X-适配器,这是一个通用的升级器,可以使预训练的即插即用模块(例如ControlNet、LoRA)直接与升级后的文图扩散模型(例如SDXL)配合工作,无需进一步重新训练。我们通过训练额外的网络来控制冻结的升级模型与新的文图数据对。具体来说,X-适配器保留旧模型的冻结副本,以保留不同插件的连接器。此外,X-适配器添加了可训练的映射层,用于连接不同版本模型的解码器进行特征重映射。重映射后的特征将用作升级模型的指导。为了增强X-适配器的指导能力,我们采用了一种空文本训练策略用于升级模型。训练后,我们还引入了一个两阶段去噪策略,以使X-适配器和升级模型的初始潜变量对齐。由于我们的策略,X-适配器展示了与各种插件的通用兼容性,并且还使不同版本的插件能够共同工作,从而扩展了扩散社区的功能。为验证所提方法的有效性,我们进行了大量实验,结果表明X-适配器可能有助于在升级后的基础扩散模型中实现更广泛的应用。
由于其强大的多模态理解能力,多模态大型语言模型(MLLMs)受到了广泛关注。然而,现有研究在很大程度上依赖于特定模态的编码器,这些编码器通常在架构上有所不同,并且仅限于常见模态。在本文中,我们提出了OneLLM,这是一种将八种模态与语言对齐的MLLM,采用统一框架实现。我们通过统一的多模态编码器和渐进式多模态对齐流程来实现这一目标。具体而言,我们首先训练一个图像投影模块,将视觉编码器与LLM连接起来。然后,我们通过混合多个图像投影模块和动态路由构建了一个通用投影模块(UPM)。最后,我们使用UPM逐步将更多模态与LLM对齐。为充分发挥OneLLM在遵循指令方面的潜力,我们还精心策划了一个包括来自图像、音频、视频、点云、深度/法线图、IMU和fMRI脑活动的综合多模态指令数据集,共包括200万条数据。OneLLM在25个不同的基准测试中进行了评估,涵盖了多模态字幕生成、问答和推理等任务,在这些任务中表现出色。代码、数据、模型和在线演示可在https://github.com/csuhan/OneLLM 上找到。
扩散模型最近在图像合成领域引起了革命,因为它们能够生成逼真的图像。然而,扩散模型的一个主要缺点是图像生成过程昂贵。需要多次应用大型图像到图像网络,以从随机噪声逐步优化图像。虽然许多最近的研究提出了减少所需步骤数量的技术,但它们通常将底层去噪网络视为黑匣子。在这项工作中,我们研究了网络内部层的行为,并发现:1)层的输出随时间平滑变化,2)层显示出不同的变化模式,3)从一步到另一步的变化通常非常小。我们假设去噪网络中许多层计算是多余的。利用这一点,我们引入了块缓存,通过重复使用先前步骤的层块输出来加快推断速度。此外,我们提出了一种基于每个块在时间步上的变化来自动确定缓存计划的技术。在我们的实验中,通过FID、人类评估和定性分析,我们展示了块缓存能够以相同的计算成本生成视觉质量更高的图像。我们针对不同的最先进模型(LDM和EMU)和求解器(DDIM和DPM)进行了演示。
我们提出了LooseControl,以实现扩展的深度条件控制,用于基于扩散的图像生成。ControlNet,作为深度条件图像生成的最先进技术,产生了显著的结果,但依赖于对详细深度图的访问以进行引导。在许多情况下,创建这样精确的深度图是具有挑战性的。本文介绍了深度条件的通用版本,使许多新的内容创建工作流变得可能。具体而言,我们允许(C1)场景边界控制,用于仅通过边界条件粗略指定场景,以及(C2)3D框控制,用于指定目标对象的布局位置,而不是对象的确切形状和外观。使用LooseControl,结合文本指导,用户可以通过仅指定场景边界和主要对象的位置来创建复杂环境(例如房间、街景等)。此外,我们提供了两种编辑机制来优化结果:(E1)3D框编辑使用户能够通过更改、添加或删除框来优化图像,同时保持图像的风格不变。这会产生除由编辑的框引起的更改之外的最小更改。(E2)属性编辑提出了可能的编辑方向,以更改场景的某个特定方面,如整体对象密度或特定对象。通过广泛的测试和与基线的比较,证明了我们方法的通用性。我们相信LooseControl可以成为一个重要的设计工具,用于轻松创建复杂环境,并可以扩展到其他形式的引导通道。代码和更多信息可在https://shariqfarooq123.github.io/loose-control/ 上找到。
文本到图像模型的定制技术为以前无法实现的广泛应用铺平了道路,实现了在不同背景和风格下生成特定概念的可能。尽管现有方法可以为个别概念或有限预定义集合提供高保真度的定制,但它们在实现可扩展性方面存在不足,即单个模型能够无缝渲染无数概念。本文针对一个名为模块化定制的新问题,旨在有效地合并为个别概念独立微调的定制模型。这使得合并模型能够共同合成一幅图像中的概念,而不会影响保真度或增加额外的计算成本。 为解决这一问题,我们引入正交适应方法,旨在鼓励在微调期间互不访问的定制模型具有正交残差权重。这确保在推断时,定制模型可以最小干扰地相加。 我们提出的方法既简单又多才多艺,适用于模型架构中几乎所有可优化的权重。通过一系列定量和定性评估,我们的方法始终在效率和身份保留方面优于相关基线,展示了朝着扩展扩散模型定制化的显著进步。
在视频中编辑视觉内容仍然是一个巨大的挑战,主要问题有两个:1)直接且易于用户控制以产生2)在改变形状、表情和布局后不会出现难看的失真和伪影的自然编辑结果。受DragGAN启发,这是一种最近基于图像的拖拽式编辑技术,我们通过提出DragVideo来解决上述问题,其中采用类似的拖拽式用户交互来编辑视频内容,同时保持时间上的一致性。借助最近的扩散模型,如DragDiffusion,DragVideo包含了新颖的Drag-on-Video U-Net(DoVe)编辑方法,该方法通过优化视频U-Net生成的扩散视频潜变量来实现所需的控制。具体来说,我们使用样本特定的LoRA微调和相互自注意力控制,以确保从DoVe方法中忠实地重建视频。我们还提供了一系列拖拽式视频编辑的测试示例,并在各种具有挑战性的编辑任务中进行了广泛的实验,如运动编辑、骨架编辑等,突显了DragVideo的多功能性和普适性。我们将发布包括DragVideo网络用户界面在内的代码。
在当今时代,大型语言模型和文本到图像模型的成功可以归因于大规模数据集的推动力。然而,在3D视觉领域,虽然在大规模合成和真实捕获的物体数据集(如Objaverse和MVImgNet)上取得了显著进展,但在以人为中心的任务领域,由于缺乏大规模人类数据集,类似水平的进展尚未观察到。由于获取大规模高质量3D人类数据存在重大挑战,现有的高保真3D人体捕获数据集仍然规模中等。为了弥合这一差距,我们提出了MVHumanNet,这是一个包含4,500个人类身份的多视角人体动作序列数据集。我们的工作主要集中在收集具有大量不同身份和日常服装的人类数据,使用多视角人体捕获系统,这有助于轻松扩展数据收集。我们的数据集包含9,000套日常服装、60,000个运动序列和6.45亿帧,具有广泛的注释,包括人体蒙版、摄像机参数、2D和3D关键点、SMPL/SMPLX参数以及相应的文本描述。为了探索MVHumanNet在各种2D和3D视觉任务中的潜力,我们进行了关于视角一致动作识别、人体NeRF重建、文本驱动的视角无约束人体图像生成,以及2D视角无约束人体图像和3D头像生成的试点研究。大量实验表明,MVHumanNet提供的规模带来了性能改进和有效应用。作为当前最大规模的3D人类数据集,我们希望MVHumanNet数据的发布和注释能够促进在规模上进一步创新3D以人为中心任务领域。
基于代理的建模已经存在几十年,并被广泛应用于社会科学和自然科学领域。随着大型语言模型(LLM)提供的新功能,这种研究方法的范围有望得到显著扩大。生成式基于代理的模型(GABM)不仅仅是经典的基于代理的模型(ABM),其中代理相互交流。相反,GABM是利用LLM构建的,以将常识应用于情境,表现“合理”,回忆常见的语义知识,生成API调用以控制应用等数字技术,并在模拟内部和对外部观察的研究人员之间进行通信。在这里,我们介绍了Concordia,这是一个旨在促进构建和处理GABM的库。Concordia使得构建基于语言的模拟物理或数字环境变得容易。Concordia代理使用灵活的组件系统产生其行为,该系统在LLM调用和联想记忆检索之间进行调解。一种名为游戏主持人(GM)的特殊代理受桌面角色扮演游戏的启发,负责模拟代理相互作用的环境。代理通过用自然语言描述他们想要做的事情来采取行动。然后,GM将他们的行动转化为适当的实施。在模拟的物理世界中,GM检查代理行动的物理合理性并描述其效果。在模拟应用程序和服务等技术的数字环境中,GM可能处理API调用以与外部工具集成,例如通用人工智能助手(例如Bard,ChatGPT)和数字应用程序(例如日历,电子邮件,搜索等)。Concordia旨在支持各种科学研究应用以及通过模拟用户和/或生成合成数据来评估真实数字服务的性能。
诸如神经辐射场(NeRFs)之类的三维重建方法擅长渲染复杂场景的逼真新视图。然而,恢复高质量的NeRF通常需要数十到数百张输入图像,导致耗时的捕捉过程。我们提出了ReconFusion,利用仅有少量照片重建现实场景。我们的方法利用扩散先验进行新视图合成,该先验在合成和多视角数据集上进行训练,对超出输入图像集所捕捉的新相机姿势的基于NeRF的三维重建流程进行正则化。我们的方法在不受约束的区域合成逼真的几何和纹理,同时保留观察区域的外观。我们在各种真实世界数据集上进行了广泛评估,包括前向和360度场景,展示了相较于先前的少视角NeRF重建方法的显著性能改进。
我们提出了一种方法,用于控制真实图像中物体的材质属性,如粗糙度、金属感、反照率和透明度。我们的方法利用了文本到图像模型的生成先验,该模型以逼真效果著称,利用标量值和指令来改变低级材质属性。针对缺乏具有受控材质属性的数据集的问题,我们生成了一个以物体为中心的合成数据集,其中包含基于物理的材质。通过在这个合成数据集上微调修改后的预训练文本到图像模型,我们能够编辑真实世界图像中的材质属性,同时保留所有其他属性。我们展示了我们的模型在编辑材质的 NeRFs 中的潜在应用。
最近,在基于文本的动作生成方面取得了显著进展,实现了能够生成符合文本描述的多样化且高质量的人类动作。然而,由于缺乏详细文本描述的数据集,生成精细化或风格化动作仍然具有挑战性。通过采用分而治之的策略,我们提出了一种名为细粒度人体运动扩散模型(FG-MDM)的新框架用于人体运动生成。具体而言,我们首先通过利用大型语言模型(GPT-3.5)将先前模糊的文本注释解析为不同身体部位的细粒度描述。然后,我们使用这些细粒度描述来指导基于Transformer的扩散模型。FG-MDM能够生成细粒度且风格化的动作,甚至在训练数据分布之外。我们的实验结果表明了FG-MDM相对于先前方法的优越性,尤其是强大的泛化能力。我们将发布我们的细粒度文本注释用于HumanML3D和KIT。
我们对视觉世界的理解围绕着各种概念轴展开,这些轴刻画了视觉实体的不同方面。虽然可以通过语言轻松地指定不同的概念轴,例如颜色,但沿着每个轴的确切视觉细微差别常常超出了语言表达的限制,例如特定的绘画风格。在这项工作中,我们的目标是通过简单地提炼大型预训练的视觉-语言模型,学习一种以语言为基础的视觉概念表示。具体而言,我们训练一组概念编码器来编码与一组以语言为基础的概念轴相关的信息,其目标是通过预训练的文本到图像(T2I)模型复现输入图像。为了促进不同概念编码器的更好解缠,我们将概念嵌入锚定到从预训练的视觉问答(VQA)模型中获得的一组文本嵌入。在推断时,模型从新的测试图像中提取沿着各种轴的概念嵌入,这些嵌入可以混合生成具有视觉概念新组合的图像。通过一种轻量级的测试时微调程序,它还可以推广到训练中未见过的新概念。
与虚拟助手的互动通常始于一个触发短语,然后是一个命令。在这项工作中,我们探讨通过消除触发短语的需求来使这些互动更加自然的可能性。我们的目标是通过从设备麦克风录制的流式音频获取的信号来确定用户是否在与虚拟助手交流。我们通过将来自自动语音识别系统的1-best假设和解码器信号与音频编码器的声学表示结合作为大型语言模型(LLM)的输入特征来解决这一任务。特别地,我们对仅需要少量训练数据并且可以在仅有一个冻结的LLM的设备上运行的数据和资源高效系统感兴趣。因此,我们的模型是通过使用低秩适应和前缀调整的组合在80k或更少的多模态数据示例上进行训练的。我们将提出的系统与单模基准进行比较,并表明多模态方法实现了更低的等误差率(EERs),同时仅使用训练数据的一小部分。我们还表明,低维度的专门音频表示导致比高维度的一般音频表示更低的EERs。