Lumiere: Ein Raum-Zeit-Diffusionsmodell zur Videogenerierung
Lumiere: A Space-Time Diffusion Model for Video Generation
January 23, 2024
Autoren: Omer Bar-Tal, Hila Chefer, Omer Tov, Charles Herrmann, Roni Paiss, Shiran Zada, Ariel Ephrat, Junhwa Hur, Yuanzhen Li, Tomer Michaeli, Oliver Wang, Deqing Sun, Tali Dekel, Inbar Mosseri
cs.AI
Zusammenfassung
Wir stellen Lumiere vor – ein Text-zu-Video-Diffusionsmodell, das entwickelt wurde, um Videos mit realistischer, vielfältiger und kohärenter Bewegung zu synthetisieren – eine zentrale Herausforderung in der Videosynthese. Zu diesem Zweck führen wir eine Space-Time-U-Net-Architektur ein, die die gesamte zeitliche Dauer des Videos in einem einzigen Durchlauf durch das Modell erzeugt. Dies steht im Gegensatz zu bestehenden Videomodellen, die entfernte Keyframes synthetisieren, gefolgt von temporaler Super-Resolution – ein Ansatz, der die globale zeitliche Konsistenz von Natur aus schwer zu erreichen macht. Durch den Einsatz von sowohl räumlichem als auch (insbesondere) zeitlichem Down- und Up-Sampling sowie die Nutzung eines vortrainierten Text-zu-Bild-Diffusionsmodells lernt unser Modell, direkt ein Video mit voller Bildrate und niedriger Auflösung zu erzeugen, indem es dieses in mehreren Raum-Zeit-Skalen verarbeitet. Wir demonstrieren state-of-the-art Ergebnisse in der Text-zu-Video-Generierung und zeigen, dass unser Entwurf eine breite Palette von Content-Erstellungstasks und Video-Bearbeitungsanwendungen leicht ermöglicht, einschließlich Bild-zu-Video, Video-Inpainting und stilisierten Generierungen.
English
We introduce Lumiere -- a text-to-video diffusion model designed for
synthesizing videos that portray realistic, diverse and coherent motion -- a
pivotal challenge in video synthesis. To this end, we introduce a Space-Time
U-Net architecture that generates the entire temporal duration of the video at
once, through a single pass in the model. This is in contrast to existing video
models which synthesize distant keyframes followed by temporal super-resolution
-- an approach that inherently makes global temporal consistency difficult to
achieve. By deploying both spatial and (importantly) temporal down- and
up-sampling and leveraging a pre-trained text-to-image diffusion model, our
model learns to directly generate a full-frame-rate, low-resolution video by
processing it in multiple space-time scales. We demonstrate state-of-the-art
text-to-video generation results, and show that our design easily facilitates a
wide range of content creation tasks and video editing applications, including
image-to-video, video inpainting, and stylized generation.