Lumiere: Un Modello di Diffusione Spazio-Temporale per la Generazione di Video
Lumiere: A Space-Time Diffusion Model for Video Generation
January 23, 2024
Autori: Omer Bar-Tal, Hila Chefer, Omer Tov, Charles Herrmann, Roni Paiss, Shiran Zada, Ariel Ephrat, Junhwa Hur, Yuanzhen Li, Tomer Michaeli, Oliver Wang, Deqing Sun, Tali Dekel, Inbar Mosseri
cs.AI
Abstract
Presentiamo Lumiere -- un modello di diffusione testo-video progettato per sintetizzare video che rappresentano movimenti realistici, diversificati e coerenti -- una sfida cruciale nella sintesi video. A tal fine, introduciamo un'architettura Space-Time U-Net che genera l'intera durata temporale del video in un'unica passata attraverso il modello. Questo approccio si distingue dai modelli video esistenti, che sintetizzano fotogrammi chiave distanti seguiti da una super-risoluzione temporale -- una metodologia che rende intrinsecamente difficile ottenere una coerenza temporale globale. Implementando sia il campionamento spaziale che (soprattutto) temporale in riduzione e aumento, e sfruttando un modello di diffusione testo-immagine pre-addestrato, il nostro modello impara a generare direttamente un video a bassa risoluzione con frame rate completo, elaborandolo su più scale spazio-temporali. Dimostriamo risultati all'avanguardia nella generazione testo-video e mostriamo che il nostro design facilita facilmente un'ampia gamma di attività di creazione di contenuti e applicazioni di editing video, tra cui immagine-video, inpainting video e generazione stilizzata.
English
We introduce Lumiere -- a text-to-video diffusion model designed for
synthesizing videos that portray realistic, diverse and coherent motion -- a
pivotal challenge in video synthesis. To this end, we introduce a Space-Time
U-Net architecture that generates the entire temporal duration of the video at
once, through a single pass in the model. This is in contrast to existing video
models which synthesize distant keyframes followed by temporal super-resolution
-- an approach that inherently makes global temporal consistency difficult to
achieve. By deploying both spatial and (importantly) temporal down- and
up-sampling and leveraging a pre-trained text-to-image diffusion model, our
model learns to directly generate a full-frame-rate, low-resolution video by
processing it in multiple space-time scales. We demonstrate state-of-the-art
text-to-video generation results, and show that our design easily facilitates a
wide range of content creation tasks and video editing applications, including
image-to-video, video inpainting, and stylized generation.