Lumiere: Um Modelo de Difusão Espaço-Temporal para Geração de Vídeos
Lumiere: A Space-Time Diffusion Model for Video Generation
January 23, 2024
Autores: Omer Bar-Tal, Hila Chefer, Omer Tov, Charles Herrmann, Roni Paiss, Shiran Zada, Ariel Ephrat, Junhwa Hur, Yuanzhen Li, Tomer Michaeli, Oliver Wang, Deqing Sun, Tali Dekel, Inbar Mosseri
cs.AI
Resumo
Apresentamos o Lumiere -- um modelo de difusão texto-para-vídeo projetado para sintetizar vídeos que retratam movimentos realistas, diversos e coerentes -- um desafio fundamental na síntese de vídeos. Para isso, introduzimos uma arquitetura Space-Time U-Net que gera toda a duração temporal do vídeo de uma só vez, em um único passo no modelo. Isso contrasta com os modelos de vídeo existentes, que sintetizam quadros-chave distantes seguidos de super-resolução temporal -- uma abordagem que, por natureza, dificulta a consistência temporal global. Ao empregar tanto o down-sampling quanto o up-sampling espacial e (crucialmente) temporal, e aproveitando um modelo de difusão texto-para-imagem pré-treinado, nosso modelo aprende a gerar diretamente um vídeo de baixa resolução com taxa de quadros completa, processando-o em múltiplas escalas espaço-temporais. Demonstramos resultados de última geração na geração de vídeos a partir de texto e mostramos que nosso design facilita uma ampla gama de tarefas de criação de conteúdo e aplicações de edição de vídeo, incluindo imagem-para-vídeo, preenchimento de vídeo e geração estilizada.
English
We introduce Lumiere -- a text-to-video diffusion model designed for
synthesizing videos that portray realistic, diverse and coherent motion -- a
pivotal challenge in video synthesis. To this end, we introduce a Space-Time
U-Net architecture that generates the entire temporal duration of the video at
once, through a single pass in the model. This is in contrast to existing video
models which synthesize distant keyframes followed by temporal super-resolution
-- an approach that inherently makes global temporal consistency difficult to
achieve. By deploying both spatial and (importantly) temporal down- and
up-sampling and leveraging a pre-trained text-to-image diffusion model, our
model learns to directly generate a full-frame-rate, low-resolution video by
processing it in multiple space-time scales. We demonstrate state-of-the-art
text-to-video generation results, and show that our design easily facilitates a
wide range of content creation tasks and video editing applications, including
image-to-video, video inpainting, and stylized generation.