ChatPaper.aiChatPaper

Lumiere: Un Modello di Diffusione Spazio-Temporale per la Generazione di Video

Lumiere: A Space-Time Diffusion Model for Video Generation

January 23, 2024
Autori: Omer Bar-Tal, Hila Chefer, Omer Tov, Charles Herrmann, Roni Paiss, Shiran Zada, Ariel Ephrat, Junhwa Hur, Yuanzhen Li, Tomer Michaeli, Oliver Wang, Deqing Sun, Tali Dekel, Inbar Mosseri
cs.AI

Abstract

Presentiamo Lumiere -- un modello di diffusione testo-video progettato per sintetizzare video che rappresentano movimenti realistici, diversificati e coerenti -- una sfida cruciale nella sintesi video. A tal fine, introduciamo un'architettura Space-Time U-Net che genera l'intera durata temporale del video in un'unica passata attraverso il modello. Questo approccio si distingue dai modelli video esistenti, che sintetizzano fotogrammi chiave distanti seguiti da una super-risoluzione temporale -- una metodologia che rende intrinsecamente difficile ottenere una coerenza temporale globale. Implementando sia il campionamento spaziale che (soprattutto) temporale in riduzione e aumento, e sfruttando un modello di diffusione testo-immagine pre-addestrato, il nostro modello impara a generare direttamente un video a bassa risoluzione con frame rate completo, elaborandolo su più scale spazio-temporali. Dimostriamo risultati all'avanguardia nella generazione testo-video e mostriamo che il nostro design facilita facilmente un'ampia gamma di attività di creazione di contenuti e applicazioni di editing video, tra cui immagine-video, inpainting video e generazione stilizzata.
English
We introduce Lumiere -- a text-to-video diffusion model designed for synthesizing videos that portray realistic, diverse and coherent motion -- a pivotal challenge in video synthesis. To this end, we introduce a Space-Time U-Net architecture that generates the entire temporal duration of the video at once, through a single pass in the model. This is in contrast to existing video models which synthesize distant keyframes followed by temporal super-resolution -- an approach that inherently makes global temporal consistency difficult to achieve. By deploying both spatial and (importantly) temporal down- and up-sampling and leveraging a pre-trained text-to-image diffusion model, our model learns to directly generate a full-frame-rate, low-resolution video by processing it in multiple space-time scales. We demonstrate state-of-the-art text-to-video generation results, and show that our design easily facilitates a wide range of content creation tasks and video editing applications, including image-to-video, video inpainting, and stylized generation.
PDF8710February 8, 2026