每日精选AI研究论文及翻译
本文提出了一种可控文本到视频(T2V)扩散模型,命名为Video-ControlNet,它能够根据一系列控制信号(如边缘或深度图)生成视频。Video-ControlNet基于一个预训练的有条件文本到图像(T2I)扩散模型,通过引入空间-时间自注意机制和可训练的时间层进行跨帧建模,实现了高效的视频生成。提出了一种首帧调节策略,有助于模型以自回归方式生成从图像领域转换而来的视频以及任意长度的视频。此外,Video-ControlNet采用了一种基于残差的噪声初始化策略,从输入视频中引入运动先验,生成更连贯的视频。通过所提出的架构和策略,Video-ControlNet能够实现资源高效的收敛,并生成具有精细控制的高质量和一致性视频。大量实验证明了其在各种视频生成任务中的成功,如视频编辑和视频风格转移,在一致性和质量方面优于先前的方法。项目页面:https://controlavideo.github.io/
最近的文本到图像生成模型展示了生成与文本对齐的高保真图像的令人印象深刻的能力。然而,生成用户输入图像提供的新概念的图像仍然是一项具有挑战性的任务。为了解决这一问题,研究人员一直在探索各种方法来定制预训练的文本到图像生成模型。目前,大多数现有的定制预训练文本到图像生成模型的方法涉及使用正则化技术来防止过拟合。虽然正则化可以减轻定制化的挑战并实现成功地根据文本指导进行内容创作,但它可能会限制模型的能力,导致详细信息的丢失和性能下降。在这项工作中,我们提出了一种新颖的框架,用于定制文本到图像生成,而无需使用正则化。具体来说,我们提出的框架包括一个编码器网络和一种新颖的采样方法,可以解决过拟合问题,而无需使用正则化。通过我们提出的框架,我们能够在单个GPU上的半分钟内定制一个大规模的文本到图像生成模型,仅需用户提供一张图像。我们在实验中展示,我们提出的框架优于现有方法,并保留了更多的细节信息。