ChatPaper.aiChatPaper

Fotorealistische Videogeneratie met Diffusiemodellen

Photorealistic Video Generation with Diffusion Models

December 11, 2023
Auteurs: Agrim Gupta, Lijun Yu, Kihyuk Sohn, Xiuye Gu, Meera Hahn, Li Fei-Fei, Irfan Essa, Lu Jiang, José Lezama
cs.AI

Samenvatting

We presenteren W.A.L.T, een transformer-gebaseerde aanpak voor fotorealistische videogeneratie via diffusiemodellering. Onze aanpak omvat twee belangrijke ontwerpbeslissingen. Ten eerste gebruiken we een causale encoder om afbeeldingen en video’s gezamenlijk te comprimeren binnen een uniforme latente ruimte, wat training en generatie over verschillende modaliteiten mogelijk maakt. Ten tweede gebruiken we, voor geheugen- en trainings efficiëntie, een window attention-architectuur die is afgestemd op gezamenlijke ruimtelijke en spatiotemporele generatieve modellering. Samen stellen deze ontwerpbeslissingen ons in staat om state-of-the-art prestaties te behalen op gevestigde benchmarks voor videogeneratie (UCF-101 en Kinetics-600) en afbeeldingsgeneratie (ImageNet) zonder gebruik te maken van classifier-free guidance. Tot slot trainen we ook een cascade van drie modellen voor de taak van tekst-naar-video generatie, bestaande uit een basis latent video diffusiemodel en twee video super-resolutie diffusiemodellen om video’s te genereren met een resolutie van 512 bij 896 pixels en 8 frames per seconde.
English
We present W.A.L.T, a transformer-based approach for photorealistic video generation via diffusion modeling. Our approach has two key design decisions. First, we use a causal encoder to jointly compress images and videos within a unified latent space, enabling training and generation across modalities. Second, for memory and training efficiency, we use a window attention architecture tailored for joint spatial and spatiotemporal generative modeling. Taken together these design decisions enable us to achieve state-of-the-art performance on established video (UCF-101 and Kinetics-600) and image (ImageNet) generation benchmarks without using classifier free guidance. Finally, we also train a cascade of three models for the task of text-to-video generation consisting of a base latent video diffusion model, and two video super-resolution diffusion models to generate videos of 512 times 896 resolution at 8 frames per second.
PDF242February 8, 2026