Control-A-Video: Generazione Controllabile di Video da Testo con Modelli di Diffusione
Control-A-Video: Controllable Text-to-Video Generation with Diffusion Models
May 23, 2023
Autori: Weifeng Chen, Jie Wu, Pan Xie, Hefeng Wu, Jiashi Li, Xin Xia, Xuefeng Xiao, Liang Lin
cs.AI
Abstract
Questo articolo presenta un modello di diffusione controllabile da testo a video (T2V), denominato Video-ControlNet, che genera video condizionati da una sequenza di segnali di controllo, come mappe di bordi o di profondità. Video-ControlNet è costruito su un modello pre-addestrato di diffusione condizionale da testo a immagine (T2I), incorporando un meccanismo di auto-attenzione spazio-temporale e strati temporali addestrabili per una modellizzazione efficiente tra frame. Viene proposta una strategia di condizionamento sul primo frame per facilitare la generazione di video trasferiti dal dominio delle immagini, nonché video di lunghezza arbitraria in modo auto-regressivo. Inoltre, Video-ControlNet utilizza una nuova strategia di inizializzazione del rumore basata su residui per introdurre un precedente di movimento da un video di input, producendo video più coerenti. Con l'architettura e le strategie proposte, Video-ControlNet può raggiungere una convergenza efficiente in termini di risorse e generare video di qualità superiore e coerenti con un controllo fine-granulare. Esperimenti estensivi dimostrano il suo successo in varie attività generative di video, come l'editing video e il trasferimento di stile video, superando i metodi precedenti in termini di coerenza e qualità. Pagina del progetto: https://controlavideo.github.io/
English
This paper presents a controllable text-to-video (T2V) diffusion model, named
Video-ControlNet, that generates videos conditioned on a sequence of control
signals, such as edge or depth maps. Video-ControlNet is built on a pre-trained
conditional text-to-image (T2I) diffusion model by incorporating a
spatial-temporal self-attention mechanism and trainable temporal layers for
efficient cross-frame modeling. A first-frame conditioning strategy is proposed
to facilitate the model to generate videos transferred from the image domain as
well as arbitrary-length videos in an auto-regressive manner. Moreover,
Video-ControlNet employs a novel residual-based noise initialization strategy
to introduce motion prior from an input video, producing more coherent videos.
With the proposed architecture and strategies, Video-ControlNet can achieve
resource-efficient convergence and generate superior quality and consistent
videos with fine-grained control. Extensive experiments demonstrate its success
in various video generative tasks such as video editing and video style
transfer, outperforming previous methods in terms of consistency and quality.
Project Page: https://controlavideo.github.io/