VideoAR: Авторегрессионное генерирование видео через предсказание следующего кадра и масштаба
VideoAR: Autoregressive Video Generation via Next-Frame & Scale Prediction
January 9, 2026
Авторы: Longbin Ji, Xiaoxiong Liu, Junyuan Shang, Shuohuan Wang, Yu Sun, Hua Wu, Haifeng Wang
cs.AI
Аннотация
Последние достижения в области генерации видео в основном связаны с диффузионными моделями и моделями flow-matching, которые обеспечивают высокое качество результатов, но остаются вычислительно сложными и трудно масштабируемыми. В данной работе мы представляем VideoAR — первую крупномасштабную визуальную авторегрессионную (VAR) модель для генерации видео, сочетающую многоуровневое предсказание следующего кадра с авторегрессионным моделированием. VideoAR разделяет пространственные и временные зависимости за счёт интеграции внутрикадрового VAR-моделирования с каузальным предсказанием следующего кадра, поддерживаемого 3D многоуровневым токенизатором, эффективно кодирующим пространственно-временную динамику. Для повышения долговременной согласованности мы предлагаем методы Multi-scale Temporal RoPE, Cross-Frame Error Correction и Random Frame Mask, которые совместно снижают распространение ошибок и стабилизируют временную когерентность. Наш многоэтапный конвейер предварительного обучения прогрессивно выравнивает пространственное и временное обучение при увеличении разрешения и длительности. Экспериментально VideoAR устанавливает новые рекорды среди авторегрессионных моделей, улучшая FVD на UCF-101 с 99.5 до 88.6 при сокращении шагов вывода более чем в 10 раз и достигая показателя VBench 81.74, что сравнимо с диффузионными моделями на порядок большего размера. Эти результаты демонстрируют, что VideoAR сокращает разрыв в производительности между авторегрессионной и диффузионной парадигмами, предлагая масштабируемую, эффективную и временно согласованную основу для будущих исследований в области генерации видео.
English
Recent advances in video generation have been dominated by diffusion and flow-matching models, which produce high-quality results but remain computationally intensive and difficult to scale. In this work, we introduce VideoAR, the first large-scale Visual Autoregressive (VAR) framework for video generation that combines multi-scale next-frame prediction with autoregressive modeling. VideoAR disentangles spatial and temporal dependencies by integrating intra-frame VAR modeling with causal next-frame prediction, supported by a 3D multi-scale tokenizer that efficiently encodes spatio-temporal dynamics. To improve long-term consistency, we propose Multi-scale Temporal RoPE, Cross-Frame Error Correction, and Random Frame Mask, which collectively mitigate error propagation and stabilize temporal coherence. Our multi-stage pretraining pipeline progressively aligns spatial and temporal learning across increasing resolutions and durations. Empirically, VideoAR achieves new state-of-the-art results among autoregressive models, improving FVD on UCF-101 from 99.5 to 88.6 while reducing inference steps by over 10x, and reaching a VBench score of 81.74-competitive with diffusion-based models an order of magnitude larger. These results demonstrate that VideoAR narrows the performance gap between autoregressive and diffusion paradigms, offering a scalable, efficient, and temporally consistent foundation for future video generation research.