Control-A-Video: Beheersbare Tekst-naar-Video Generatie met Diffusiemodellen
Control-A-Video: Controllable Text-to-Video Generation with Diffusion Models
May 23, 2023
Auteurs: Weifeng Chen, Jie Wu, Pan Xie, Hefeng Wu, Jiashi Li, Xin Xia, Xuefeng Xiao, Liang Lin
cs.AI
Samenvatting
Dit artikel presenteert een controleerbaar tekst-naar-video (T2V) diffusiemodel, genaamd Video-ControlNet, dat video's genereert die zijn geconditioneerd op een reeks controlesignalen, zoals rand- of dieptekaarten. Video-ControlNet is gebouwd op een vooraf getraind conditioneel tekst-naar-beeld (T2I) diffusiemodel door het integreren van een ruimtelijk-temporeel zelf-attentiemechanisme en trainbare temporele lagen voor efficiënte kruis-frame modellering. Een eerste-frame conditioneringstrategie wordt voorgesteld om het model te faciliteren bij het genereren van video's die zijn overgedragen vanuit het beelddomein, evenals video's van willekeurige lengte op een autoregressieve manier. Bovendien maakt Video-ControlNet gebruik van een nieuwe op residuen gebaseerde ruisinitialisatiestrategie om een bewegingsprior van een invoervideo te introduceren, wat resulteert in meer samenhangende video's. Met de voorgestelde architectuur en strategieën kan Video-ControlNet een resource-efficiënte convergentie bereiken en video's van superieure kwaliteit en consistentie genereren met fijnmazige controle. Uitgebreide experimenten tonen het succes aan in diverse videogeneratieve taken, zoals videobewerking en videostijloverdracht, waarbij het eerdere methoden overtreft in termen van consistentie en kwaliteit. Projectpagina: https://controlavideo.github.io/
English
This paper presents a controllable text-to-video (T2V) diffusion model, named
Video-ControlNet, that generates videos conditioned on a sequence of control
signals, such as edge or depth maps. Video-ControlNet is built on a pre-trained
conditional text-to-image (T2I) diffusion model by incorporating a
spatial-temporal self-attention mechanism and trainable temporal layers for
efficient cross-frame modeling. A first-frame conditioning strategy is proposed
to facilitate the model to generate videos transferred from the image domain as
well as arbitrary-length videos in an auto-regressive manner. Moreover,
Video-ControlNet employs a novel residual-based noise initialization strategy
to introduce motion prior from an input video, producing more coherent videos.
With the proposed architecture and strategies, Video-ControlNet can achieve
resource-efficient convergence and generate superior quality and consistent
videos with fine-grained control. Extensive experiments demonstrate its success
in various video generative tasks such as video editing and video style
transfer, outperforming previous methods in terms of consistency and quality.
Project Page: https://controlavideo.github.io/