Control-A-Video : Génération contrôlée de vidéos à partir de texte avec des modèles de diffusion
Control-A-Video: Controllable Text-to-Video Generation with Diffusion Models
May 23, 2023
Auteurs: Weifeng Chen, Jie Wu, Pan Xie, Hefeng Wu, Jiashi Li, Xin Xia, Xuefeng Xiao, Liang Lin
cs.AI
Résumé
Cet article présente un modèle de diffusion texte-vidéo (T2V) contrôlable, nommé Video-ControlNet, qui génère des vidéos conditionnées par une séquence de signaux de contrôle, tels que des cartes de contours ou de profondeur. Video-ControlNet est construit sur un modèle de diffusion texte-image (T2I) conditionnel pré-entraîné, en intégrant un mécanisme d'auto-attention spatio-temporelle et des couches temporelles entraînables pour une modélisation inter-images efficace. Une stratégie de conditionnement sur la première image est proposée pour permettre au modèle de générer des vidéos transférées depuis le domaine de l'image ainsi que des vidéos de longueur arbitraire de manière auto-régressive. De plus, Video-ControlNet utilise une nouvelle stratégie d'initialisation du bruit basée sur les résidus pour introduire un mouvement prioritaire à partir d'une vidéo d'entrée, produisant ainsi des vidéos plus cohérentes. Grâce à l'architecture et aux stratégies proposées, Video-ControlNet peut atteindre une convergence efficace en termes de ressources et générer des vidéos de qualité supérieure et cohérentes avec un contrôle fin. Des expériences approfondies démontrent son succès dans diverses tâches de génération vidéo, telles que l'édition vidéo et le transfert de style vidéo, surpassant les méthodes précédentes en termes de cohérence et de qualité. Page du projet : https://controlavideo.github.io/
English
This paper presents a controllable text-to-video (T2V) diffusion model, named
Video-ControlNet, that generates videos conditioned on a sequence of control
signals, such as edge or depth maps. Video-ControlNet is built on a pre-trained
conditional text-to-image (T2I) diffusion model by incorporating a
spatial-temporal self-attention mechanism and trainable temporal layers for
efficient cross-frame modeling. A first-frame conditioning strategy is proposed
to facilitate the model to generate videos transferred from the image domain as
well as arbitrary-length videos in an auto-regressive manner. Moreover,
Video-ControlNet employs a novel residual-based noise initialization strategy
to introduce motion prior from an input video, producing more coherent videos.
With the proposed architecture and strategies, Video-ControlNet can achieve
resource-efficient convergence and generate superior quality and consistent
videos with fine-grained control. Extensive experiments demonstrate its success
in various video generative tasks such as video editing and video style
transfer, outperforming previous methods in terms of consistency and quality.
Project Page: https://controlavideo.github.io/