Geração de Vídeos Foto-realísticos com Modelos de Difusão
Photorealistic Video Generation with Diffusion Models
December 11, 2023
Autores: Agrim Gupta, Lijun Yu, Kihyuk Sohn, Xiuye Gu, Meera Hahn, Li Fei-Fei, Irfan Essa, Lu Jiang, José Lezama
cs.AI
Resumo
Apresentamos o W.A.L.T, uma abordagem baseada em transformers para geração de vídeos fotorrealistas por meio de modelagem de difusão. Nossa abordagem possui duas decisões de projeto fundamentais. Primeiro, utilizamos um codificador causal para comprimir imagens e vídeos conjuntamente em um espaço latente unificado, permitindo treinamento e geração entre modalidades. Segundo, para eficiência de memória e treinamento, empregamos uma arquitetura de atenção por janela (window attention) projetada especificamente para modelagem generativa conjunta espacial e espaço-temporal. Juntas, essas decisões de projeto nos permitem alcançar desempenho de ponta em benchmarks estabelecidos de geração de vídeos (UCF-101 e Kinetics-600) e imagens (ImageNet) sem utilizar orientação livre de classificador (classifier free guidance). Por fim, também treinamos uma cascata de três modelos para a tarefa de geração de texto para vídeo, composta por um modelo base de difusão latente de vídeo e dois modelos de difusão para super-resolução de vídeo, capazes de gerar vídeos com resolução de 512x896 a 8 quadros por segundo.
English
We present W.A.L.T, a transformer-based approach for photorealistic video
generation via diffusion modeling. Our approach has two key design decisions.
First, we use a causal encoder to jointly compress images and videos within a
unified latent space, enabling training and generation across modalities.
Second, for memory and training efficiency, we use a window attention
architecture tailored for joint spatial and spatiotemporal generative modeling.
Taken together these design decisions enable us to achieve state-of-the-art
performance on established video (UCF-101 and Kinetics-600) and image
(ImageNet) generation benchmarks without using classifier free guidance.
Finally, we also train a cascade of three models for the task of text-to-video
generation consisting of a base latent video diffusion model, and two video
super-resolution diffusion models to generate videos of 512 times 896
resolution at 8 frames per second.