VideoAR: Generazione Video Autoregressiva tramite Predizione del Frame e Scala Successivi

Abstract

I recenti progressi nella generazione video sono stati dominati da modelli di diffusione e flow-matching, che producono risultati di alta qualità ma rimangono computazionalmente intensivi e difficili da scalare. In questo lavoro, introduciamo VideoAR, il primo framework Visual Autoregressivo (VAR) su larga scala per la generazione video che combina la predizione multi-scala del frame successivo con la modellazione autoregressiva. VideoAR districa le dipendenze spaziali e temporali integrando la modellazione VAR intra-frame con la predizione causale del frame successivo, supportata da un tokenizer 3D multi-scala che codifica efficientemente le dinamiche spazio-temporali. Per migliorare la coerenza a lungo termine, proponiamo il Multi-scale Temporal RoPE, la Correzione degli Errori Cross-Frame e il Mascheramento Casuale dei Frame, tecniche che mitigano collettivamente la propagazione degli errori e stabilizzano la coerenza temporale. La nostra pipeline di pre-addestramento multi-stadio allinea progressivamente l'apprendimento spaziale e temporale attraverso risoluzioni e durate crescenti. Empiricamente, VideoAR raggiunge nuovi risultati state-of-the-art tra i modelli autoregressivi, migliorando l'FVD su UCF-101 da 99.5 a 88.6 riducendo al contempo i passi di inferenza di oltre 10 volte, e raggiungendo un punteggio VBench di 81.74, competitivo con modelli basati su diffusione di un ordine di grandezza più grandi. Questi risultati dimostrano che VideoAR riduce il divario prestazionale tra i paradigmi autoregressivo e di diffusione, offrendo una base scalabile, efficiente e temporalmente coerente per la futura ricerca sulla generazione video.

English

Recent advances in video generation have been dominated by diffusion and flow-matching models, which produce high-quality results but remain computationally intensive and difficult to scale. In this work, we introduce VideoAR, the first large-scale Visual Autoregressive (VAR) framework for video generation that combines multi-scale next-frame prediction with autoregressive modeling. VideoAR disentangles spatial and temporal dependencies by integrating intra-frame VAR modeling with causal next-frame prediction, supported by a 3D multi-scale tokenizer that efficiently encodes spatio-temporal dynamics. To improve long-term consistency, we propose Multi-scale Temporal RoPE, Cross-Frame Error Correction, and Random Frame Mask, which collectively mitigate error propagation and stabilize temporal coherence. Our multi-stage pretraining pipeline progressively aligns spatial and temporal learning across increasing resolutions and durations. Empirically, VideoAR achieves new state-of-the-art results among autoregressive models, improving FVD on UCF-101 from 99.5 to 88.6 while reducing inference steps by over 10x, and reaching a VBench score of 81.74-competitive with diffusion-based models an order of magnitude larger. These results demonstrate that VideoAR narrows the performance gap between autoregressive and diffusion paradigms, offering a scalable, efficient, and temporally consistent foundation for future video generation research.

VideoAR: Generazione Video Autoregressiva tramite Predizione del Frame e Scala Successivi

VideoAR: Autoregressive Video Generation via Next-Frame & Scale Prediction

Abstract

Support