ChatPaper.aiChatPaper

VideoAR: Autoregressive Videogenerierung durch Next-Frame- und Skalenprädiktion

VideoAR: Autoregressive Video Generation via Next-Frame & Scale Prediction

January 9, 2026
papers.authors: Longbin Ji, Xiaoxiong Liu, Junyuan Shang, Shuohuan Wang, Yu Sun, Hua Wu, Haifeng Wang
cs.AI

papers.abstract

Jüngste Fortschritte in der Videogenerierung wurden von Diffusions- und Flow-Matching-Modellen dominiert, die hochwertige Ergebnisse liefern, aber rechenintensiv und schwer zu skalieren bleiben. In dieser Arbeit stellen wir VideoAR vor, den ersten groß angelegten visuell-autoregressiven (VAR) Rahmen für die Videogenerierung, der Multi-Skalen-Nächster-Frame-Vorhersage mit autoregressiver Modellierung kombiniert. VideoAR entwirrt räumliche und zeitliche Abhängigkeiten durch die Integration von intra-frame VAR-Modellierung mit kausaler Nächster-Frame-Vorhersage, unterstützt durch einen 3D-Multi-Skalen-Tokenizer, der räumlich-zeitliche Dynamiken effizient kodiert. Um die Langzeitkonsistenz zu verbessern, schlagen wir Multi-Skalen Temporal RoPE, Cross-Frame-Fehlerkorrektur und Random Frame Mask vor, die gemeinsam die Fehlerfortpflanzung reduzieren und die zeitliche Kohärenz stabilisieren. Unsere mehrstufige Vor-Trainings-Pipeline richtet räumliches und zeitliches Lernen progressiv über steigende Auflösungen und Zeitdauern aus. Empirisch erzielt VideoAR neue state-of-the-art Ergebnisse unter autoregressiven Modellen, verbessert den FVD auf UCF-101 von 99,5 auf 88,6 bei gleichzeitiger Reduzierung der Inferenzschritte um über das 10-fache und erreicht einen VBench-Score von 81,74 – vergleichbar mit diffusionsbasierten Modellen, die eine Größenordnung größer sind. Diese Ergebnisse zeigen, dass VideoAR die Leistungslücke zwischen autoregressiven und Diffusions-Paradigmen verkleinert und eine skalierbare, effiziente und zeitlich konsistente Grundlage für die zukünftige Videogenerierungsforschung bietet.
English
Recent advances in video generation have been dominated by diffusion and flow-matching models, which produce high-quality results but remain computationally intensive and difficult to scale. In this work, we introduce VideoAR, the first large-scale Visual Autoregressive (VAR) framework for video generation that combines multi-scale next-frame prediction with autoregressive modeling. VideoAR disentangles spatial and temporal dependencies by integrating intra-frame VAR modeling with causal next-frame prediction, supported by a 3D multi-scale tokenizer that efficiently encodes spatio-temporal dynamics. To improve long-term consistency, we propose Multi-scale Temporal RoPE, Cross-Frame Error Correction, and Random Frame Mask, which collectively mitigate error propagation and stabilize temporal coherence. Our multi-stage pretraining pipeline progressively aligns spatial and temporal learning across increasing resolutions and durations. Empirically, VideoAR achieves new state-of-the-art results among autoregressive models, improving FVD on UCF-101 from 99.5 to 88.6 while reducing inference steps by over 10x, and reaching a VBench score of 81.74-competitive with diffusion-based models an order of magnitude larger. These results demonstrate that VideoAR narrows the performance gap between autoregressive and diffusion paradigms, offering a scalable, efficient, and temporally consistent foundation for future video generation research.
PDF131January 13, 2026