VideoAR : Génération vidéo autorégressive par prédiction d'image suivante et d'échelle
VideoAR: Autoregressive Video Generation via Next-Frame & Scale Prediction
January 9, 2026
papers.authors: Longbin Ji, Xiaoxiong Liu, Junyuan Shang, Shuohuan Wang, Yu Sun, Hua Wu, Haifeng Wang
cs.AI
papers.abstract
Les progrès récents en génération vidéo ont été dominés par les modèles de diffusion et d'appariement de flux, qui produisent des résultats de haute qualité mais restent intensifs en calcul et difficiles à mettre à l'échelle. Dans ce travail, nous présentons VideoAR, le premier cadre autoregressif visuel (VAR) à grande échelle pour la génération vidéo, qui combine une prédiction d'image suivante multi-échelle avec une modélisation autoregressive. VideoAR dissocie les dépendances spatiales et temporelles en intégrant une modélisation VAR intra-image avec une prédiction causale d'image suivante, soutenue par un tokeniseur 3D multi-échelle qui encode efficacement la dynamique spatio-temporelle. Pour améliorer la cohérence à long terme, nous proposons le RoPE temporel multi-échelle, la correction d'erreur inter-images et le masquage aléatoire d'images, qui atténuent collectivement la propagation des erreurs et stabilisent la cohérence temporelle. Notre pipeline de pré-entraînement multi-étapes aligne progressivement l'apprentissage spatial et temporel sur des résolutions et durées croissantes. Empiriquement, VideoAR établit de nouveaux records parmi les modèles autoregressifs, améliorant le FVD sur UCF-101 de 99,5 à 88,6 tout en réduisant les étapes d'inférence de plus de 10 fois, et atteignant un score VBench de 81,74 – compétitif avec des modèles basés sur la diffusion d'un ordre de grandeur plus grands. Ces résultats démontrent que VideoAR réduit l'écart de performance entre les paradigmes autoregressif et diffusionnel, offrant une base évolutive, efficace et temporellement cohérente pour la recherche future en génération vidéo.
English
Recent advances in video generation have been dominated by diffusion and flow-matching models, which produce high-quality results but remain computationally intensive and difficult to scale. In this work, we introduce VideoAR, the first large-scale Visual Autoregressive (VAR) framework for video generation that combines multi-scale next-frame prediction with autoregressive modeling. VideoAR disentangles spatial and temporal dependencies by integrating intra-frame VAR modeling with causal next-frame prediction, supported by a 3D multi-scale tokenizer that efficiently encodes spatio-temporal dynamics. To improve long-term consistency, we propose Multi-scale Temporal RoPE, Cross-Frame Error Correction, and Random Frame Mask, which collectively mitigate error propagation and stabilize temporal coherence. Our multi-stage pretraining pipeline progressively aligns spatial and temporal learning across increasing resolutions and durations. Empirically, VideoAR achieves new state-of-the-art results among autoregressive models, improving FVD on UCF-101 from 99.5 to 88.6 while reducing inference steps by over 10x, and reaching a VBench score of 81.74-competitive with diffusion-based models an order of magnitude larger. These results demonstrate that VideoAR narrows the performance gap between autoregressive and diffusion paradigms, offering a scalable, efficient, and temporally consistent foundation for future video generation research.