Control-A-Video: Geração Controlável de Vídeo a partir de Texto com Modelos de Difusão
Control-A-Video: Controllable Text-to-Video Generation with Diffusion Models
May 23, 2023
Autores: Weifeng Chen, Jie Wu, Pan Xie, Hefeng Wu, Jiashi Li, Xin Xia, Xuefeng Xiao, Liang Lin
cs.AI
Resumo
Este artigo apresenta um modelo de difusão controlável de texto para vídeo (T2V), denominado Video-ControlNet, que gera vídeos condicionados a uma sequência de sinais de controle, como mapas de borda ou profundidade. O Video-ControlNet é construído sobre um modelo de difusão condicional de texto para imagem (T2I) pré-treinado, incorporando um mecanismo de auto-atenção espaço-temporal e camadas temporais treináveis para modelagem eficiente entre quadros. Uma estratégia de condicionamento do primeiro quadro é proposta para facilitar a geração de vídeos transferidos do domínio da imagem, bem como vídeos de comprimento arbitrário de maneira auto-regressiva. Além disso, o Video-ControlNet emprega uma nova estratégia de inicialização de ruído baseada em resíduos para introduzir um prior de movimento a partir de um vídeo de entrada, produzindo vídeos mais coerentes. Com a arquitetura e estratégias propostas, o Video-ControlNet pode alcançar convergência eficiente em termos de recursos e gerar vídeos de qualidade superior e consistentes com controle refinado. Experimentos extensivos demonstram seu sucesso em várias tarefas de geração de vídeos, como edição de vídeo e transferência de estilo de vídeo, superando métodos anteriores em termos de consistência e qualidade. Página do Projeto: https://controlavideo.github.io/
English
This paper presents a controllable text-to-video (T2V) diffusion model, named
Video-ControlNet, that generates videos conditioned on a sequence of control
signals, such as edge or depth maps. Video-ControlNet is built on a pre-trained
conditional text-to-image (T2I) diffusion model by incorporating a
spatial-temporal self-attention mechanism and trainable temporal layers for
efficient cross-frame modeling. A first-frame conditioning strategy is proposed
to facilitate the model to generate videos transferred from the image domain as
well as arbitrary-length videos in an auto-regressive manner. Moreover,
Video-ControlNet employs a novel residual-based noise initialization strategy
to introduce motion prior from an input video, producing more coherent videos.
With the proposed architecture and strategies, Video-ControlNet can achieve
resource-efficient convergence and generate superior quality and consistent
videos with fine-grained control. Extensive experiments demonstrate its success
in various video generative tasks such as video editing and video style
transfer, outperforming previous methods in terms of consistency and quality.
Project Page: https://controlavideo.github.io/