ChatPaper.aiChatPaper

Lumiere: Ein Raum-Zeit-Diffusionsmodell zur Videogenerierung

Lumiere: A Space-Time Diffusion Model for Video Generation

January 23, 2024
Autoren: Omer Bar-Tal, Hila Chefer, Omer Tov, Charles Herrmann, Roni Paiss, Shiran Zada, Ariel Ephrat, Junhwa Hur, Yuanzhen Li, Tomer Michaeli, Oliver Wang, Deqing Sun, Tali Dekel, Inbar Mosseri
cs.AI

Zusammenfassung

Wir stellen Lumiere vor – ein Text-zu-Video-Diffusionsmodell, das entwickelt wurde, um Videos mit realistischer, vielfältiger und kohärenter Bewegung zu synthetisieren – eine zentrale Herausforderung in der Videosynthese. Zu diesem Zweck führen wir eine Space-Time-U-Net-Architektur ein, die die gesamte zeitliche Dauer des Videos in einem einzigen Durchlauf durch das Modell erzeugt. Dies steht im Gegensatz zu bestehenden Videomodellen, die entfernte Keyframes synthetisieren, gefolgt von temporaler Super-Resolution – ein Ansatz, der die globale zeitliche Konsistenz von Natur aus schwer zu erreichen macht. Durch den Einsatz von sowohl räumlichem als auch (insbesondere) zeitlichem Down- und Up-Sampling sowie die Nutzung eines vortrainierten Text-zu-Bild-Diffusionsmodells lernt unser Modell, direkt ein Video mit voller Bildrate und niedriger Auflösung zu erzeugen, indem es dieses in mehreren Raum-Zeit-Skalen verarbeitet. Wir demonstrieren state-of-the-art Ergebnisse in der Text-zu-Video-Generierung und zeigen, dass unser Entwurf eine breite Palette von Content-Erstellungstasks und Video-Bearbeitungsanwendungen leicht ermöglicht, einschließlich Bild-zu-Video, Video-Inpainting und stilisierten Generierungen.
English
We introduce Lumiere -- a text-to-video diffusion model designed for synthesizing videos that portray realistic, diverse and coherent motion -- a pivotal challenge in video synthesis. To this end, we introduce a Space-Time U-Net architecture that generates the entire temporal duration of the video at once, through a single pass in the model. This is in contrast to existing video models which synthesize distant keyframes followed by temporal super-resolution -- an approach that inherently makes global temporal consistency difficult to achieve. By deploying both spatial and (importantly) temporal down- and up-sampling and leveraging a pre-trained text-to-image diffusion model, our model learns to directly generate a full-frame-rate, low-resolution video by processing it in multiple space-time scales. We demonstrate state-of-the-art text-to-video generation results, and show that our design easily facilitates a wide range of content creation tasks and video editing applications, including image-to-video, video inpainting, and stylized generation.
PDF8610December 15, 2024