ChatPaper.aiChatPaper

Génération vidéo autorégressive sans quantification vectorielle

Autoregressive Video Generation without Vector Quantization

December 18, 2024
Auteurs: Haoge Deng, Ting Pan, Haiwen Diao, Zhengxiong Luo, Yufeng Cui, Huchuan Lu, Shiguang Shan, Yonggang Qi, Xinlong Wang
cs.AI

Résumé

Cet article présente une approche novatrice qui permet la génération vidéo autoregressive avec une grande efficacité. Nous proposons de reformuler le problème de génération vidéo en tant que modélisation autoregressive non quantifiée de la prédiction temporelle image par image et de la prédiction spatiale ensemble par ensemble. Contrairement à la prédiction par balayage raster dans les modèles autoregressifs précédents ou à la modélisation de la distribution conjointe de jetons de longueur fixe dans les modèles de diffusion, notre approche conserve la propriété causale des modèles de style GPT pour des capacités flexibles en contexte, tout en exploitant la modélisation bidirectionnelle au sein des images individuelles pour l'efficacité. Avec l'approche proposée, nous entraînons un nouveau modèle vidéo autoregressif sans quantification vectorielle, appelé NOVA. Nos résultats démontrent que NOVA surpasse les modèles vidéo autoregressifs précédents en termes d'efficacité des données, de vitesse d'inférence, de fidélité visuelle et de fluidité vidéo, même avec une capacité de modèle beaucoup plus petite, c'est-à-dire 0,6 milliard de paramètres. NOVA surpasse également les modèles de diffusion d'images de pointe dans les tâches de génération de texte vers image, avec un coût d'entraînement significativement plus faible. De plus, NOVA généralise bien sur des durées vidéo étendues et permet diverses applications zero-shot dans un modèle unifié. Le code et les modèles sont disponibles publiquement sur https://github.com/baaivision/NOVA.
English
This paper presents a novel approach that enables autoregressive video generation with high efficiency. We propose to reformulate the video generation problem as a non-quantized autoregressive modeling of temporal frame-by-frame prediction and spatial set-by-set prediction. Unlike raster-scan prediction in prior autoregressive models or joint distribution modeling of fixed-length tokens in diffusion models, our approach maintains the causal property of GPT-style models for flexible in-context capabilities, while leveraging bidirectional modeling within individual frames for efficiency. With the proposed approach, we train a novel video autoregressive model without vector quantization, termed NOVA. Our results demonstrate that NOVA surpasses prior autoregressive video models in data efficiency, inference speed, visual fidelity, and video fluency, even with a much smaller model capacity, i.e., 0.6B parameters. NOVA also outperforms state-of-the-art image diffusion models in text-to-image generation tasks, with a significantly lower training cost. Additionally, NOVA generalizes well across extended video durations and enables diverse zero-shot applications in one unified model. Code and models are publicly available at https://github.com/baaivision/NOVA.

Summary

AI-Generated Summary

PDF142December 19, 2024