VideoAR: Generación de vídeo autorregresiva mediante predicción de siguiente fotograma y escala
VideoAR: Autoregressive Video Generation via Next-Frame & Scale Prediction
January 9, 2026
Autores: Longbin Ji, Xiaoxiong Liu, Junyuan Shang, Shuohuan Wang, Yu Sun, Hua Wu, Haifeng Wang
cs.AI
Resumen
Los recientes avances en generación de vídeo han estado dominados por modelos de difusión y flow-matching, que producen resultados de alta calidad pero siguen siendo computacionalmente intensivos y difíciles de escalar. En este trabajo, presentamos VideoAR, el primer marco de trabajo de Visual Autoregresivo (VAR) a gran escala para generación de vídeo que combina la predicción de siguiente fotograma multiescala con el modelado autoregresivo. VideoAR desentrelaza las dependencias espaciales y temporales mediante la integración del modelado VAR intra-fotograma con la predicción causal de siguiente fotograma, respaldado por un tokenizador 3D multiescala que codifica eficientemente la dinámica espacio-temporal. Para mejorar la consistencia a largo plazo, proponemos RoPE Temporal Multiescala, Corrección de Errores Inter-fotograma y Enmascaramiento Aleatorio de Fotogramas, que mitigan colectivamente la propagación de errores y estabilizan la coherencia temporal. Nuestra canalización de preentrenamiento multietapa alinea progresivamente el aprendizaje espacial y temporal a través de resoluciones y duraciones crecientes. Empíricamente, VideoAR logra nuevos resultados state-of-the-art entre los modelos autoregresivos, mejorando el FVD en UCF-101 de 99.5 a 88.6 mientras reduce los pasos de inferencia en más de 10x, y alcanza una puntuación VBench de 81.74, competitiva con modelos basados en difusión un orden de magnitud más grandes. Estos resultados demuestran que VideoAR reduce la brecha de rendimiento entre los paradigmas autoregresivo y de difusión, ofreciendo una base escalable, eficiente y temporalmente consistente para la futura investigación en generación de vídeo.
English
Recent advances in video generation have been dominated by diffusion and flow-matching models, which produce high-quality results but remain computationally intensive and difficult to scale. In this work, we introduce VideoAR, the first large-scale Visual Autoregressive (VAR) framework for video generation that combines multi-scale next-frame prediction with autoregressive modeling. VideoAR disentangles spatial and temporal dependencies by integrating intra-frame VAR modeling with causal next-frame prediction, supported by a 3D multi-scale tokenizer that efficiently encodes spatio-temporal dynamics. To improve long-term consistency, we propose Multi-scale Temporal RoPE, Cross-Frame Error Correction, and Random Frame Mask, which collectively mitigate error propagation and stabilize temporal coherence. Our multi-stage pretraining pipeline progressively aligns spatial and temporal learning across increasing resolutions and durations. Empirically, VideoAR achieves new state-of-the-art results among autoregressive models, improving FVD on UCF-101 from 99.5 to 88.6 while reducing inference steps by over 10x, and reaching a VBench score of 81.74-competitive with diffusion-based models an order of magnitude larger. These results demonstrate that VideoAR narrows the performance gap between autoregressive and diffusion paradigms, offering a scalable, efficient, and temporally consistent foundation for future video generation research.