ChatPaper.aiChatPaper

VideoAR: オートリグレッシブ動画生成による次フレーム&スケール予測

VideoAR: Autoregressive Video Generation via Next-Frame & Scale Prediction

January 9, 2026
著者: Longbin Ji, Xiaoxiong Liu, Junyuan Shang, Shuohuan Wang, Yu Sun, Hua Wu, Haifeng Wang
cs.AI

要旨

近年のビデオ生成技術は、拡散モデルやフローマッチングモデルが主流を占めており、高品質な結果を生成する一方で、計算コストが高くスケーリングが困難な課題を抱えている。本研究では、マルチスケールの次フレーム予測と自己回帰モデリングを組み合わせた、ビデオ生成のための初の大規模視覚的自己回帰(VAR)フレームワーク「VideoAR」を提案する。VideoARは、フレーム内VARモデリングと因果的次フレーム予測を統合し、時空間ダイナミクスを効率的に符号化する3Dマルチスケールトークナイザによって、空間的・時間的依存関係を分離する。長期の一貫性を改善するため、マルチスケール時間的RoPE、クロスフレーム誤り修正、ランダムフレームマスキングを提案し、誤差伝播を軽減し時間的コヒーレンスを安定化させる。当社の多段階事前学習パイプラインは、解像度と持続時間を段階的に増加させながら、空間的・時間的学習を逐次調整する。実験では、VideoARは自己回帰モデルの中で新たなstate-of-the-artを達成し、UCF-101におけるFVDを99.5から88.6に改善するとともに、推論ステップを10分の1以上削減し、VBenchスコア81.74を記録した。これは桁違いに大規模な拡散モデルと競合する性能である。これらの結果は、VideoARが自己回帰モデルと拡散モデルの性能差を縮め、将来のビデオ生成研究に向けたスケーラブルで効率的、かつ時間的に一貫性のある基盤を提供することを示している。
English
Recent advances in video generation have been dominated by diffusion and flow-matching models, which produce high-quality results but remain computationally intensive and difficult to scale. In this work, we introduce VideoAR, the first large-scale Visual Autoregressive (VAR) framework for video generation that combines multi-scale next-frame prediction with autoregressive modeling. VideoAR disentangles spatial and temporal dependencies by integrating intra-frame VAR modeling with causal next-frame prediction, supported by a 3D multi-scale tokenizer that efficiently encodes spatio-temporal dynamics. To improve long-term consistency, we propose Multi-scale Temporal RoPE, Cross-Frame Error Correction, and Random Frame Mask, which collectively mitigate error propagation and stabilize temporal coherence. Our multi-stage pretraining pipeline progressively aligns spatial and temporal learning across increasing resolutions and durations. Empirically, VideoAR achieves new state-of-the-art results among autoregressive models, improving FVD on UCF-101 from 99.5 to 88.6 while reducing inference steps by over 10x, and reaching a VBench score of 81.74-competitive with diffusion-based models an order of magnitude larger. These results demonstrate that VideoAR narrows the performance gap between autoregressive and diffusion paradigms, offering a scalable, efficient, and temporally consistent foundation for future video generation research.
PDF131January 13, 2026