Progressieve Autoregressieve Video Diffusie Modellen
Progressive Autoregressive Video Diffusion Models
October 10, 2024
Auteurs: Desai Xie, Zhan Xu, Yicong Hong, Hao Tan, Difan Liu, Feng Liu, Arie Kaufman, Yang Zhou
cs.AI
Samenvatting
Huidige modellen voor video diffusie aan de voorste linie hebben opmerkelijke resultaten laten zien bij het genereren van hoogwaardige video's. Echter, ze kunnen alleen korte videoclips genereren, meestal rond de 10 seconden of 240 frames, vanwege berekeningsbeperkingen tijdens training. In dit werk laten we zien dat bestaande modellen op natuurlijke wijze kunnen worden uitgebreid naar autoregressieve video diffusie modellen zonder de architecturen te veranderen. Ons belangrijkste idee is om de latente frames toe te wijzen met progressief toenemende ruisniveaus in plaats van een enkel ruisniveau, wat zorgt voor fijnmazige conditie tussen de latenten en grote overlappingen tussen de aandachtsvensters. Een dergelijke progressieve video denoising stelt onze modellen in staat om autoregressief videoframes te genereren zonder kwaliteitsverlies of abrupte scènewisselingen. We presenteren state-of-the-art resultaten voor het genereren van lange video's van 1 minuut (1440 frames bij 24 FPS). Video's van dit artikel zijn beschikbaar op https://desaixie.github.io/pa-vdm/.
English
Current frontier video diffusion models have demonstrated remarkable results
at generating high-quality videos. However, they can only generate short video
clips, normally around 10 seconds or 240 frames, due to computation limitations
during training. In this work, we show that existing models can be naturally
extended to autoregressive video diffusion models without changing the
architectures. Our key idea is to assign the latent frames with progressively
increasing noise levels rather than a single noise level, which allows for
fine-grained condition among the latents and large overlaps between the
attention windows. Such progressive video denoising allows our models to
autoregressively generate video frames without quality degradation or abrupt
scene changes. We present state-of-the-art results on long video generation at
1 minute (1440 frames at 24 FPS). Videos from this paper are available at
https://desaixie.github.io/pa-vdm/.