ChatPaper.aiChatPaper

Generación de Videos Fotorealísticos con Modelos de Difusión

Photorealistic Video Generation with Diffusion Models

December 11, 2023
Autores: Agrim Gupta, Lijun Yu, Kihyuk Sohn, Xiuye Gu, Meera Hahn, Li Fei-Fei, Irfan Essa, Lu Jiang, José Lezama
cs.AI

Resumen

Presentamos W.A.L.T, un enfoque basado en transformadores para la generación de videos fotorrealistas mediante modelado de difusión. Nuestro enfoque tiene dos decisiones clave de diseño. Primero, utilizamos un codificador causal para comprimir conjuntamente imágenes y videos dentro de un espacio latente unificado, lo que permite el entrenamiento y la generación a través de modalidades. Segundo, para la eficiencia de memoria y entrenamiento, utilizamos una arquitectura de atención por ventanas diseñada específicamente para el modelado generativo conjunto espacial y espacio-temporal. En conjunto, estas decisiones de diseño nos permiten alcanzar un rendimiento de vanguardia en los benchmarks establecidos de generación de videos (UCF-101 y Kinetics-600) e imágenes (ImageNet) sin utilizar guía libre de clasificador. Finalmente, también entrenamos una cascada de tres modelos para la tarea de generación de texto a video, que consiste en un modelo base de difusión latente de video y dos modelos de difusión de super-resolución de video para generar videos de 512 por 896 píxeles de resolución a 8 fotogramas por segundo.
English
We present W.A.L.T, a transformer-based approach for photorealistic video generation via diffusion modeling. Our approach has two key design decisions. First, we use a causal encoder to jointly compress images and videos within a unified latent space, enabling training and generation across modalities. Second, for memory and training efficiency, we use a window attention architecture tailored for joint spatial and spatiotemporal generative modeling. Taken together these design decisions enable us to achieve state-of-the-art performance on established video (UCF-101 and Kinetics-600) and image (ImageNet) generation benchmarks without using classifier free guidance. Finally, we also train a cascade of three models for the task of text-to-video generation consisting of a base latent video diffusion model, and two video super-resolution diffusion models to generate videos of 512 times 896 resolution at 8 frames per second.
PDF242December 15, 2024