ChatPaper.aiChatPaper

Generazione di Video Fotorealistici con Modelli di Diffusione

Photorealistic Video Generation with Diffusion Models

December 11, 2023
Autori: Agrim Gupta, Lijun Yu, Kihyuk Sohn, Xiuye Gu, Meera Hahn, Li Fei-Fei, Irfan Essa, Lu Jiang, José Lezama
cs.AI

Abstract

Presentiamo W.A.L.T, un approccio basato su transformer per la generazione di video fotorealistici tramite modellazione a diffusione. Il nostro approccio si basa su due decisioni progettuali chiave. In primo luogo, utilizziamo un encoder causale per comprimere congiuntamente immagini e video all'interno di uno spazio latente unificato, consentendo l'addestramento e la generazione attraverso diverse modalità. In secondo luogo, per ottimizzare memoria ed efficienza durante l'addestramento, adottiamo un'architettura di attenzione a finestra specificamente progettata per la modellazione generativa congiunta spaziale e spaziotemporale. Queste scelte progettuali ci permettono di raggiungere prestazioni all'avanguardia su benchmark consolidati per la generazione di video (UCF-101 e Kinetics-600) e immagini (ImageNet) senza l'utilizzo di guida priva di classificatore. Infine, addestriamo anche una cascata di tre modelli per il compito di generazione di video da testo, composta da un modello base di diffusione latente per video e due modelli di diffusione per la super-risoluzione video, in grado di generare video con risoluzione 512x896 a 8 fotogrammi al secondo.
English
We present W.A.L.T, a transformer-based approach for photorealistic video generation via diffusion modeling. Our approach has two key design decisions. First, we use a causal encoder to jointly compress images and videos within a unified latent space, enabling training and generation across modalities. Second, for memory and training efficiency, we use a window attention architecture tailored for joint spatial and spatiotemporal generative modeling. Taken together these design decisions enable us to achieve state-of-the-art performance on established video (UCF-101 and Kinetics-600) and image (ImageNet) generation benchmarks without using classifier free guidance. Finally, we also train a cascade of three models for the task of text-to-video generation consisting of a base latent video diffusion model, and two video super-resolution diffusion models to generate videos of 512 times 896 resolution at 8 frames per second.
PDF242February 8, 2026