VideoAR: Geração Autovídeo Autoregressiva via Predição de Próximo Quadro e Escala

Resumo

Os recentes avanços na geração de vídeo têm sido dominados por modelos de difusão e "flow-matching", que produzem resultados de alta qualidade, mas permanecem computacionalmente intensivos e de difícil escalabilidade. Neste trabalho, introduzimos o VideoAR, o primeiro framework Visual Autorregressivo (VAR) em larga escala para geração de vídeo, que combina a previsão de quadros seguintes em múltiplas escalas com a modelagem autorregressiva. O VideoAR separa as dependências espaciais e temporais através da integração da modelagem VAR intra-quadro com a previsão causal de quadros seguintes, suportada por um tokenizador 3D multi-escala que codifica eficientemente a dinâmica espaço-temporal. Para melhorar a consistência de longo prazo, propomos o Multi-scale Temporal RoPE, a Correção de Erros Trans-Quadros e o Mascaramento Aleatório de Quadros, que mitigam coletivamente a propagação de erros e estabilizam a coerência temporal. Nossa pipeline de pré-treinamento multiestágio alinha progressivamente o aprendizado espacial e temporal através de resoluções e durações crescentes. Empiricamente, o VideoAR alcança novos resultados de estado da arte entre os modelos autorregressivos, melhorando o FVD no UCF-101 de 99,5 para 88,6 enquanto reduz as etapas de inferência em mais de 10 vezes, e atingindo uma pontuação VBench de 81,74 – competitiva com modelos baseados em difusão uma ordem de grandeza maiores. Estes resultados demonstram que o VideoAR reduz a lacuna de desempenho entre os paradigmas autorregressivo e de difusão, oferecendo uma base escalável, eficiente e temporalmente consistente para futuras pesquisas em geração de vídeo.

English

Recent advances in video generation have been dominated by diffusion and flow-matching models, which produce high-quality results but remain computationally intensive and difficult to scale. In this work, we introduce VideoAR, the first large-scale Visual Autoregressive (VAR) framework for video generation that combines multi-scale next-frame prediction with autoregressive modeling. VideoAR disentangles spatial and temporal dependencies by integrating intra-frame VAR modeling with causal next-frame prediction, supported by a 3D multi-scale tokenizer that efficiently encodes spatio-temporal dynamics. To improve long-term consistency, we propose Multi-scale Temporal RoPE, Cross-Frame Error Correction, and Random Frame Mask, which collectively mitigate error propagation and stabilize temporal coherence. Our multi-stage pretraining pipeline progressively aligns spatial and temporal learning across increasing resolutions and durations. Empirically, VideoAR achieves new state-of-the-art results among autoregressive models, improving FVD on UCF-101 from 99.5 to 88.6 while reducing inference steps by over 10x, and reaching a VBench score of 81.74-competitive with diffusion-based models an order of magnitude larger. These results demonstrate that VideoAR narrows the performance gap between autoregressive and diffusion paradigms, offering a scalable, efficient, and temporally consistent foundation for future video generation research.

VideoAR: Geração Autovídeo Autoregressiva via Predição de Próximo Quadro e Escala

VideoAR: Autoregressive Video Generation via Next-Frame & Scale Prediction

Resumo

Support