ChatPaper.aiChatPaper

Génération de vidéos photoréalistes avec des modèles de diffusion

Photorealistic Video Generation with Diffusion Models

December 11, 2023
Auteurs: Agrim Gupta, Lijun Yu, Kihyuk Sohn, Xiuye Gu, Meera Hahn, Li Fei-Fei, Irfan Essa, Lu Jiang, José Lezama
cs.AI

Résumé

Nous présentons W.A.L.T, une approche basée sur les transformers pour la génération de vidéos photoréalistes via la modélisation par diffusion. Notre approche repose sur deux décisions clés de conception. Premièrement, nous utilisons un encodeur causal pour compresser conjointement les images et les vidéos dans un espace latent unifié, permettant ainsi l'entraînement et la génération à travers différentes modalités. Deuxièmement, pour optimiser la mémoire et l'efficacité de l'entraînement, nous employons une architecture d'attention par fenêtre spécialement conçue pour la modélisation générative conjointe dans les domaines spatial et spatio-temporel. Ces choix de conception nous permettent d'atteindre des performances de pointe sur des benchmarks établis pour la génération de vidéos (UCF-101 et Kinetics-600) et d'images (ImageNet) sans recourir à l'orientation sans classifieur. Enfin, nous entraînons également une cascade de trois modèles pour la tâche de génération de texte-à-vidéo, comprenant un modèle de base de diffusion latente pour les vidéos, ainsi que deux modèles de diffusion pour la super-résolution vidéo, permettant de générer des vidéos d'une résolution de 512 fois 896 à 8 images par seconde.
English
We present W.A.L.T, a transformer-based approach for photorealistic video generation via diffusion modeling. Our approach has two key design decisions. First, we use a causal encoder to jointly compress images and videos within a unified latent space, enabling training and generation across modalities. Second, for memory and training efficiency, we use a window attention architecture tailored for joint spatial and spatiotemporal generative modeling. Taken together these design decisions enable us to achieve state-of-the-art performance on established video (UCF-101 and Kinetics-600) and image (ImageNet) generation benchmarks without using classifier free guidance. Finally, we also train a cascade of three models for the task of text-to-video generation consisting of a base latent video diffusion model, and two video super-resolution diffusion models to generate videos of 512 times 896 resolution at 8 frames per second.
PDF242December 15, 2024