VideoAR: 다음 프레임 및 스케일 예측을 통한 자기회귀적 비디오 생성
VideoAR: Autoregressive Video Generation via Next-Frame & Scale Prediction
January 9, 2026
저자: Longbin Ji, Xiaoxiong Liu, Junyuan Shang, Shuohuan Wang, Yu Sun, Hua Wu, Haifeng Wang
cs.AI
초록
최근 비디오 생성 분야에서는 확산 및 흐름 매칭 모델이 주도적인 발전을 이루며 높은 품질의 결과를 생산하고 있지만, 여전히 계산 비용이 크고 확장이 어렵다는 한계가 있습니다. 본 연구에서는 다중 스케일 다음 프레임 예측과 자기회귀 모델링을 결합한 최초의 대규모 비디오 생성용 시각적 자기회귀(VAR) 프레임워크인 VideoAR을 소개합니다. VideoAR은 시공간 동역학을 효율적으로 인코딩하는 3D 다중 스케일 토크나이저를 기반으로 프레임 내 VAR 모델링과 인과적 다음 프레임 예측을 통합하여 공간적 및 시간적 의존성을 분리합니다. 장기적 일관성을 향상시키기 위해 다중 스케일 시간적 RoPE, 크로스 프레임 오류 수정 및 무작위 프레임 마스킹을 제안하며, 이러한 기법들은 집합적으로 오류 전파를 완화하고 시간적 일관성을 안정화합니다. 우리의 다단계 사전 학습 파이프라인은 해상도와 지속 시간이 증가함에 따라 공간 및 시간 학습을 점진적으로 정렬합니다. 실험적으로 VideoAR은 자기회귀 모델 중 새로운 최첨단 성능을 달성하여 UCF-101에서 FVD를 99.5에서 88.6으로 개선하면서 추론 단계를 10배 이상 줄였으며, 81.74의 VBench 점수로 규모가 한 차원 더 큰 확산 기반 모델들과 경쟁력을 보였습니다. 이러한 결과는 VideoAR이 자기회귀와 확산 패러다임 간의 성능 격차를 좁히며, 향후 비디오 생성 연구를 위한 확장 가능하고 효율적이며 시간적으로 일관된 기반을 제공함을 입증합니다.
English
Recent advances in video generation have been dominated by diffusion and flow-matching models, which produce high-quality results but remain computationally intensive and difficult to scale. In this work, we introduce VideoAR, the first large-scale Visual Autoregressive (VAR) framework for video generation that combines multi-scale next-frame prediction with autoregressive modeling. VideoAR disentangles spatial and temporal dependencies by integrating intra-frame VAR modeling with causal next-frame prediction, supported by a 3D multi-scale tokenizer that efficiently encodes spatio-temporal dynamics. To improve long-term consistency, we propose Multi-scale Temporal RoPE, Cross-Frame Error Correction, and Random Frame Mask, which collectively mitigate error propagation and stabilize temporal coherence. Our multi-stage pretraining pipeline progressively aligns spatial and temporal learning across increasing resolutions and durations. Empirically, VideoAR achieves new state-of-the-art results among autoregressive models, improving FVD on UCF-101 from 99.5 to 88.6 while reducing inference steps by over 10x, and reaching a VBench score of 81.74-competitive with diffusion-based models an order of magnitude larger. These results demonstrate that VideoAR narrows the performance gap between autoregressive and diffusion paradigms, offering a scalable, efficient, and temporally consistent foundation for future video generation research.