Control-A-Video: Generación Controlable de Vídeo a partir de Texto con Modelos de Difusión
Control-A-Video: Controllable Text-to-Video Generation with Diffusion Models
May 23, 2023
Autores: Weifeng Chen, Jie Wu, Pan Xie, Hefeng Wu, Jiashi Li, Xin Xia, Xuefeng Xiao, Liang Lin
cs.AI
Resumen
Este artículo presenta un modelo de difusión controlable de texto a video (T2V), denominado Video-ControlNet, que genera videos condicionados por una secuencia de señales de control, como mapas de bordes o de profundidad. Video-ControlNet se construye sobre un modelo preentrenado de difusión condicional de texto a imagen (T2I), incorporando un mecanismo de autoatención espacio-temporal y capas temporales entrenables para un modelado eficiente entre fotogramas. Se propone una estrategia de condicionamiento del primer fotograma para facilitar que el modelo genere videos transferidos desde el dominio de la imagen, así como videos de longitud arbitraria de manera autorregresiva. Además, Video-ControlNet emplea una novedosa estrategia de inicialización de ruido basada en residuos para introducir un previo de movimiento a partir de un video de entrada, produciendo videos más coherentes. Con la arquitectura y estrategias propuestas, Video-ControlNet puede lograr una convergencia eficiente en recursos y generar videos de calidad superior y consistentes con un control de grano fino. Experimentos exhaustivos demuestran su éxito en diversas tareas generativas de video, como la edición de videos y la transferencia de estilo en videos, superando a métodos anteriores en términos de consistencia y calidad. Página del proyecto: https://controlavideo.github.io/
English
This paper presents a controllable text-to-video (T2V) diffusion model, named
Video-ControlNet, that generates videos conditioned on a sequence of control
signals, such as edge or depth maps. Video-ControlNet is built on a pre-trained
conditional text-to-image (T2I) diffusion model by incorporating a
spatial-temporal self-attention mechanism and trainable temporal layers for
efficient cross-frame modeling. A first-frame conditioning strategy is proposed
to facilitate the model to generate videos transferred from the image domain as
well as arbitrary-length videos in an auto-regressive manner. Moreover,
Video-ControlNet employs a novel residual-based noise initialization strategy
to introduce motion prior from an input video, producing more coherent videos.
With the proposed architecture and strategies, Video-ControlNet can achieve
resource-efficient convergence and generate superior quality and consistent
videos with fine-grained control. Extensive experiments demonstrate its success
in various video generative tasks such as video editing and video style
transfer, outperforming previous methods in terms of consistency and quality.
Project Page: https://controlavideo.github.io/