Control-A-Video: Generazione Controllabile di Video da Testo con Modelli di Diffusione

Abstract

Questo articolo presenta un modello di diffusione controllabile da testo a video (T2V), denominato Video-ControlNet, che genera video condizionati da una sequenza di segnali di controllo, come mappe di bordi o di profondità. Video-ControlNet è costruito su un modello pre-addestrato di diffusione condizionale da testo a immagine (T2I), incorporando un meccanismo di auto-attenzione spazio-temporale e strati temporali addestrabili per una modellizzazione efficiente tra frame. Viene proposta una strategia di condizionamento sul primo frame per facilitare la generazione di video trasferiti dal dominio delle immagini, nonché video di lunghezza arbitraria in modo auto-regressivo. Inoltre, Video-ControlNet utilizza una nuova strategia di inizializzazione del rumore basata su residui per introdurre un precedente di movimento da un video di input, producendo video più coerenti. Con l'architettura e le strategie proposte, Video-ControlNet può raggiungere una convergenza efficiente in termini di risorse e generare video di qualità superiore e coerenti con un controllo fine-granulare. Esperimenti estensivi dimostrano il suo successo in varie attività generative di video, come l'editing video e il trasferimento di stile video, superando i metodi precedenti in termini di coerenza e qualità. Pagina del progetto: https://controlavideo.github.io/

English

This paper presents a controllable text-to-video (T2V) diffusion model, named Video-ControlNet, that generates videos conditioned on a sequence of control signals, such as edge or depth maps. Video-ControlNet is built on a pre-trained conditional text-to-image (T2I) diffusion model by incorporating a spatial-temporal self-attention mechanism and trainable temporal layers for efficient cross-frame modeling. A first-frame conditioning strategy is proposed to facilitate the model to generate videos transferred from the image domain as well as arbitrary-length videos in an auto-regressive manner. Moreover, Video-ControlNet employs a novel residual-based noise initialization strategy to introduce motion prior from an input video, producing more coherent videos. With the proposed architecture and strategies, Video-ControlNet can achieve resource-efficient convergence and generate superior quality and consistent videos with fine-grained control. Extensive experiments demonstrate its success in various video generative tasks such as video editing and video style transfer, outperforming previous methods in terms of consistency and quality. Project Page: https://controlavideo.github.io/

Control-A-Video: Generazione Controllabile di Video da Testo con Modelli di Diffusione

Control-A-Video: Controllable Text-to-Video Generation with Diffusion Models

Abstract

Support