Fotorealistische Videogenerierung mit Diffusionsmodellen
Photorealistic Video Generation with Diffusion Models
December 11, 2023
Autoren: Agrim Gupta, Lijun Yu, Kihyuk Sohn, Xiuye Gu, Meera Hahn, Li Fei-Fei, Irfan Essa, Lu Jiang, José Lezama
cs.AI
Zusammenfassung
Wir präsentieren W.A.L.T, einen Transformer-basierten Ansatz für die fotorealistische Videogenerierung mittels Diffusionsmodellierung. Unser Ansatz umfasst zwei zentrale Designentscheidungen. Erstens verwenden wir einen kausalen Encoder, um Bilder und Videos gemeinsam in einem einheitlichen latenten Raum zu komprimieren, was das Training und die Generierung über verschiedene Modalitäten hinweg ermöglicht. Zweitens nutzen wir für Speicher- und Trainingseffizienz eine Window-Attention-Architektur, die speziell für die gemeinsame räumliche und raumzeitliche generative Modellierung entwickelt wurde. Zusammengenommen ermöglichen uns diese Designentscheidungen, state-of-the-art Leistungen auf etablierten Benchmarks für die Videogenerierung (UCF-101 und Kinetics-600) und die Bildgenerierung (ImageNet) zu erzielen, ohne dabei auf Classifier-Free Guidance zurückzugreifen. Schließlich trainieren wir auch eine Kaskade von drei Modellen für die Aufgabe der Text-zu-Video-Generierung, bestehend aus einem Basis-Latent-Video-Diffusionsmodell und zwei Video-Super-Resolution-Diffusionsmodellen, um Videos mit einer Auflösung von 512 mal 896 bei 8 Bildern pro Sekunde zu erzeugen.
English
We present W.A.L.T, a transformer-based approach for photorealistic video
generation via diffusion modeling. Our approach has two key design decisions.
First, we use a causal encoder to jointly compress images and videos within a
unified latent space, enabling training and generation across modalities.
Second, for memory and training efficiency, we use a window attention
architecture tailored for joint spatial and spatiotemporal generative modeling.
Taken together these design decisions enable us to achieve state-of-the-art
performance on established video (UCF-101 and Kinetics-600) and image
(ImageNet) generation benchmarks without using classifier free guidance.
Finally, we also train a cascade of three models for the task of text-to-video
generation consisting of a base latent video diffusion model, and two video
super-resolution diffusion models to generate videos of 512 times 896
resolution at 8 frames per second.