VideoGen: Ein referenzgeführtes latentes Diffusionsverfahren für die hochauflösende Text-zu-Video-Generierung
VideoGen: A Reference-Guided Latent Diffusion Approach for High Definition Text-to-Video Generation
September 1, 2023
Autoren: Xin Li, Wenqing Chu, Ye Wu, Weihang Yuan, Fanglong Liu, Qi Zhang, Fu Li, Haocheng Feng, Errui Ding, Jingdong Wang
cs.AI
Zusammenfassung
In diesem Artikel präsentieren wir VideoGen, einen Text-zu-Video-Generierungsansatz, der mithilfe von referenzgesteuerter latenter Diffusion ein hochauflösendes Video mit hoher Bildqualität und starker zeitlicher Konsistenz erzeugen kann. Wir nutzen ein verfügbares Text-zu-Bild-Generierungsmodell, z.B. Stable Diffusion, um ein Bild mit hoher inhaltlicher Qualität aus dem Textprompt zu generieren, das als Referenzbild zur Steuerung der Videogenerierung dient. Anschließend führen wir ein effizientes kaskadiertes latentes Diffusionsmodul ein, das sowohl auf dem Referenzbild als auch auf dem Textprompt basiert, um latente Videodarstellungen zu erzeugen, gefolgt von einem flussbasierten zeitlichen Upsampling-Schritt, um die zeitliche Auflösung zu verbessern. Schließlich werden die latenten Videodarstellungen durch einen verbesserten Video-Decoder in ein hochauflösendes Video umgewandelt. Während des Trainings verwenden wir den ersten Frame eines Ground-Truth-Videos als Referenzbild, um das kaskadierte latente Diffusionsmodul zu trainieren. Die Hauptmerkmale unseres Ansatzes umfassen: das durch das Text-zu-Bild-Modell generierte Referenzbild verbessert die visuelle Qualität; seine Verwendung als Bedingung ermöglicht es dem Diffusionsmodul, sich stärker auf das Erlernen der Videodynamik zu konzentrieren; und der Video-Decoder wird mit ungelabelten Videodaten trainiert, wodurch er von hochwertigen, leicht verfügbaren Videos profitiert. VideoGen setzt neue Maßstäbe in der Text-zu-Video-Generierung sowohl in qualitativer als auch in quantitativer Hinsicht.
English
In this paper, we present VideoGen, a text-to-video generation approach,
which can generate a high-definition video with high frame fidelity and strong
temporal consistency using reference-guided latent diffusion. We leverage an
off-the-shelf text-to-image generation model, e.g., Stable Diffusion, to
generate an image with high content quality from the text prompt, as a
reference image to guide video generation. Then, we introduce an efficient
cascaded latent diffusion module conditioned on both the reference image and
the text prompt, for generating latent video representations, followed by a
flow-based temporal upsampling step to improve the temporal resolution.
Finally, we map latent video representations into a high-definition video
through an enhanced video decoder. During training, we use the first frame of a
ground-truth video as the reference image for training the cascaded latent
diffusion module. The main characterises of our approach include: the reference
image generated by the text-to-image model improves the visual fidelity; using
it as the condition makes the diffusion model focus more on learning the video
dynamics; and the video decoder is trained over unlabeled video data, thus
benefiting from high-quality easily-available videos. VideoGen sets a new
state-of-the-art in text-to-video generation in terms of both qualitative and
quantitative evaluation.