ChatPaper.aiChatPaper

Lumiere: Un Modelo de Difusión Espacio-Temporal para la Generación de Videos

Lumiere: A Space-Time Diffusion Model for Video Generation

January 23, 2024
Autores: Omer Bar-Tal, Hila Chefer, Omer Tov, Charles Herrmann, Roni Paiss, Shiran Zada, Ariel Ephrat, Junhwa Hur, Yuanzhen Li, Tomer Michaeli, Oliver Wang, Deqing Sun, Tali Dekel, Inbar Mosseri
cs.AI

Resumen

Presentamos Lumiere -- un modelo de difusión de texto a video diseñado para sintetizar videos que representan movimientos realistas, diversos y coherentes -- un desafío fundamental en la síntesis de video. Para ello, introducimos una arquitectura Space-Time U-Net que genera la duración temporal completa del video de una sola vez, mediante un único paso en el modelo. Esto contrasta con los modelos de video existentes, que sintetizan fotogramas clave distantes seguidos de super-resolución temporal -- un enfoque que inherentemente dificulta lograr una coherencia temporal global. Al implementar muestreo ascendente y descendente tanto espacial como (crucialmente) temporal, y aprovechar un modelo de difusión de texto a imagen preentrenado, nuestro modelo aprende a generar directamente un video de baja resolución a velocidad de fotograma completa procesándolo en múltiples escalas espacio-temporales. Demostramos resultados de última generación en generación de texto a video, y mostramos que nuestro diseño facilita fácilmente una amplia gama de tareas de creación de contenido y aplicaciones de edición de video, incluyendo imagen a video, inpaint de video y generación estilizada.
English
We introduce Lumiere -- a text-to-video diffusion model designed for synthesizing videos that portray realistic, diverse and coherent motion -- a pivotal challenge in video synthesis. To this end, we introduce a Space-Time U-Net architecture that generates the entire temporal duration of the video at once, through a single pass in the model. This is in contrast to existing video models which synthesize distant keyframes followed by temporal super-resolution -- an approach that inherently makes global temporal consistency difficult to achieve. By deploying both spatial and (importantly) temporal down- and up-sampling and leveraging a pre-trained text-to-image diffusion model, our model learns to directly generate a full-frame-rate, low-resolution video by processing it in multiple space-time scales. We demonstrate state-of-the-art text-to-video generation results, and show that our design easily facilitates a wide range of content creation tasks and video editing applications, including image-to-video, video inpainting, and stylized generation.
PDF8610December 15, 2024