每日精选AI研究论文及翻译
在这项工作中,我们提出了MagicDance,这是一个基于扩散的模型,用于在具有挑战性的人类舞蹈视频中进行二维人体动作和面部表情转移。具体来说,我们旨在生成任何目标身份的人类舞蹈视频,由新颖的姿势序列驱动,同时保持身份不变。为此,我们提出了一个两阶段训练策略,以解开人类动作和外观(例如面部表情、肤色和着装),包括对同一数据集的人类舞蹈姿势进行外观控制块的预训练,以及对外观-姿势-关节控制块进行微调。我们的新设计实现了对外观的强大控制,具有时间上一致的上半身、面部属性,甚至背景。该模型还能够很好地泛化到未见过的人类身份和复杂动作序列,无需通过利用图像扩散模型的先验知识,通过额外数据进行任何微调以适应具有多样人类属性的情况。此外,所提出的模型易于使用,可被视为Stable Diffusion的插件模块/扩展。我们还展示了该模型在零样本2D动画生成方面的能力,不仅实现了从一个身份到另一个身份的外观转移,还允许仅通过姿势输入进行类似卡通的风格化。大量实验证明了我们在TikTok数据集上的卓越表现。
基于大型语言模型(LLM)的语音合成已被广泛应用于零样本语音合成。然而,它们需要大规模数据,并且具有与先前自回归语音模型相同的局限性,包括推理速度慢和缺乏鲁棒性。本文提出了HierSpeech++,一种快速而强大的零样本语音合成器,用于文本转语音(TTS)和语音转换(VC)。我们验证了分层语音合成框架可以显著提高合成语音的鲁棒性和表现力。此外,我们在零样本语音合成场景中显著提高了合成语音的自然度和说话者相似性。对于文本转语音,我们采用文本到向量框架,该框架基于文本表示和语调提示生成自监督语音表示和一个基于文本表示和语调提示的F0表示。然后,HierSpeech++从生成的向量、F0和语音提示生成语音。我们进一步引入了一个从16 kHz到48 kHz的高效语音超分辨率框架。实验结果表明,分层变分自动编码器可以成为一个强大的零样本语音合成器,因为它优于基于LLM和扩散的模型。此外,我们实现了首个人类水平质量的零样本语音合成。音频样本和源代码可在https://github.com/sh-lee-prml/HierSpeechpp 上找到。
我们提出了一种方法,允许从三维高斯飞溅中精确且极快地提取网格。高斯飞溅最近变得非常流行,因为它在训练速度上比神经辐射场(NeRFs)快得多,并且能产生逼真的渲染效果。然而,从数百万个微小的三维高斯中提取网格是具有挑战性的,因为这些高斯在优化后往往是无序的,迄今为止还没有提出有效的方法。我们的第一个关键贡献是引入了一个正则化项,鼓励高斯与场景表面良好对齐。然后,我们介绍了一种利用这种对齐性的方法,通过泊松重建从高斯中提取网格,这种方法快速、可扩展,并且保留细节,与通常用于从神经SDF中提取网格的Marching Cubes算法形成对比。最后,我们引入了一个可选的细化策略,将高斯绑定到网格表面,并通过高斯飞溅渲染同时优化这些高斯和网格。这使得通过操纵网格而不是高斯本身,可以使用传统软件轻松编辑、雕刻、绑定、动画制作、合成和重新照明高斯。通过我们的方法,获取用于逼真渲染的可编辑网格仅需几分钟,而使用神经SDF的最先进方法可能需要数小时,同时提供更好的渲染质量。
尽管最近文本到图像扩散模型取得了令人印象深刻的进展,但要获得高质量图像通常需要人类迅速进行工程处理,这些人类已经在使用中积累了专业知识。在这项工作中,我们提出了NeuroPrompts,这是一个自适应框架,可以自动增强用户的提示,以改善文本到图像模型生成的质量。我们的框架利用受限文本解码与经过训练的语言模型,该模型已经适应生成类似于人类提示工程师生成的提示。这种方法实现了更高质量的文本到图像生成,并通过约束集规范提供用户对风格特征的控制。我们通过创建一个基于Stable Diffusion的交互式应用程序来展示我们框架的实用性。此外,我们利用大量人类设计的提示数据集进行实验,并展示我们的方法自动产生的增强提示会导致更优质的图像质量。我们将我们的代码、一个屏幕录像演示视频和NeuroPrompts的实时演示实例公开提供。
我们提出了一种方法,用于创建可解释的概念滑块,从扩散模型中实现图像生成属性的精确控制。我们的方法确定了与一个概念对应的低秩参数方向,同时最小化与其他属性的干扰。通过使用一小组提示或示例图像创建滑块,因此可以为文本或视觉概念创建滑块方向。概念滑块是即插即用的:它们可以高效地组合和连续调节,实现对图像生成的精确控制。在与先前的编辑技术进行定量实验比较中,我们的滑块展示出更强的目标编辑效果,并且干扰更少。我们展示了用于天气、年龄、风格和表情的滑块,以及滑块组合。我们展示了滑块如何从StyleGAN转移潜在空间,以直观编辑文本描述困难的视觉概念。我们还发现我们的方法可以帮助解决Stable Diffusion XL中持续存在的质量问题,包括修复物体变形和修复扭曲的手部。我们的代码、数据和训练好的滑块可在https://sliders.baulab.info/ 上获得。
我们介绍了PhysGaussian,这是一种新方法,无缝地将基于物理的牛顿动力学与3D高斯函数相结合,实现高质量的新颖运动合成。采用自定义的材料点方法(MPM),我们的方法利用具有物理意义的运动变形和机械应力属性丰富了3D高斯函数核,所有这些属性都遵循连续力学原理。我们方法的一个显著特征是物理模拟和视觉渲染之间的无缝集成:两个组件都使用相同的3D高斯函数核作为它们的离散表示。这消除了三角形/四面体网格、Marching Cubes、“cage meshes”或任何其他几何嵌入的必要性,突显了“所见即所模拟(WS^2)”原则。我们的方法展示了在各种材料上的卓越多功能性,包括弹性实体、金属、非牛顿流体和颗粒材料,展示了其在创建具有新视角和运动的多样视觉内容方面的强大能力。我们的项目页面位于:https://xpandora.github.io/PhysGaussian/
我们提出了一种无姿态大型重建模型(PF-LRM),用于从少量未定位图像中重建3D对象,即使视觉重叠很少,同时在单个A100 GPU上以约1.3秒的速度估计相对相机姿态。PF-LRM是一种高度可扩展的方法,利用自注意力模块在3D对象令牌和2D图像令牌之间交换信息;我们为每个视图预测粗略点云,然后使用可微分的透视-多点(PnP)求解器获得相机姿态。在大约100万个对象的大量多视角定位数据上训练时,PF-LRM表现出强大的跨数据集泛化能力,并在各种未见评估数据集上在姿态预测准确性和3D重建质量方面大幅优于基线方法。我们还展示了我们模型在下游文本/图像到3D任务中具有快速前馈推断的适用性。我们的项目网站位于:https://totoro97.github.io/pf-lrm。
最近在文本到视频生成领域取得的进展已经利用扩散模型的能力,创作出在文本提示条件下引人入胜的视觉内容。然而,它们通常面临高计算成本,并经常难以生成具有连贯物理运动的视频。为了解决这些问题,我们提出了GPT4Motion,这是一个无需训练的框架,利用了大型语言模型(如GPT)的规划能力、Blender的物理模拟强度,以及文本到图像扩散模型的出色图像生成能力,以增强视频合成的质量。具体而言,GPT4Motion利用GPT-4根据用户的文本提示生成Blender脚本,该脚本指挥Blender内置的物理引擎制作包含跨帧连贯物理运动的基本场景组件。然后,这些组件被输入到稳定扩散模型中,生成与文本提示相一致的视频。在三种基本物理运动场景(包括刚性物体下落和碰撞、布料垂挂和摆动以及液体流动)上的实验结果表明,GPT4Motion能够高效生成高质量视频,保持运动连贯性和实体一致性。GPT4Motion为文本到视频研究提供了新的见解,提升了其质量,并拓宽了未来探索的视野。