Control-A-Video: Steuerbare Text-zu-Video-Generierung mit Diffusionsmodellen
Control-A-Video: Controllable Text-to-Video Generation with Diffusion Models
May 23, 2023
Autoren: Weifeng Chen, Jie Wu, Pan Xie, Hefeng Wu, Jiashi Li, Xin Xia, Xuefeng Xiao, Liang Lin
cs.AI
Zusammenfassung
Dieses Papier stellt ein steuerbares Text-zu-Video (T2V) Diffusionsmodell vor, das den Namen Video-ControlNet trägt und Videos auf der Grundlage einer Sequenz von Steuersignalen, wie Kanten- oder Tiefenkarten, generiert. Video-ControlNet basiert auf einem vortrainierten bedingten Text-zu-Bild (T2I) Diffusionsmodell, indem es einen räumlich-zeitlichen Selbstaufmerksamkeitsmechanismus und trainierbare zeitliche Schichten für eine effiziente modellübergreifende Rahmenverarbeitung integriert. Eine First-Frame-Konditionierungsstrategie wird vorgeschlagen, um das Modell zu befähigen, Videos aus dem Bildbereich zu übertragen sowie Videos beliebiger Länge in einer autoregressiven Weise zu generieren. Darüber hinaus verwendet Video-ControlNet eine neuartige, auf Residuen basierende Rauschinitialisierungsstrategie, um Bewegungsvorinformationen aus einem Eingabevideo einzuführen, wodurch kohärentere Videos erzeugt werden. Mit der vorgeschlagenen Architektur und den Strategien kann Video-ControlNet eine ressourceneffiziente Konvergenz erreichen und Videos von überlegener Qualität und Konsistenz mit feinkörniger Steuerung generieren. Umfangreiche Experimente demonstrieren seinen Erfolg in verschiedenen videogenerativen Aufgaben wie Video-Bearbeitung und Video-Stil-Transfer, wobei es frühere Methoden in Bezug auf Konsistenz und Qualität übertrifft. Projektseite: https://controlavideo.github.io/
English
This paper presents a controllable text-to-video (T2V) diffusion model, named
Video-ControlNet, that generates videos conditioned on a sequence of control
signals, such as edge or depth maps. Video-ControlNet is built on a pre-trained
conditional text-to-image (T2I) diffusion model by incorporating a
spatial-temporal self-attention mechanism and trainable temporal layers for
efficient cross-frame modeling. A first-frame conditioning strategy is proposed
to facilitate the model to generate videos transferred from the image domain as
well as arbitrary-length videos in an auto-regressive manner. Moreover,
Video-ControlNet employs a novel residual-based noise initialization strategy
to introduce motion prior from an input video, producing more coherent videos.
With the proposed architecture and strategies, Video-ControlNet can achieve
resource-efficient convergence and generate superior quality and consistent
videos with fine-grained control. Extensive experiments demonstrate its success
in various video generative tasks such as video editing and video style
transfer, outperforming previous methods in terms of consistency and quality.
Project Page: https://controlavideo.github.io/