Modélisation Autoregressive Visuelle : Génération d'Images Scalable via la Prédiction à l'Échelle Suivante
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
April 3, 2024
Auteurs: Keyu Tian, Yi Jiang, Zehuan Yuan, Bingyue Peng, Liwei Wang
cs.AI
Résumé
Nous présentons le Visual AutoRegressive modeling (VAR), un nouveau paradigme de génération qui redéfinit l'apprentissage autorégressif sur les images en tant que prédiction "d'échelle suivante" ou "de résolution suivante" du grossier au fin, s'écartant de la prédiction "de token suivant" par balayage raster standard. Cette méthodologie simple et intuitive permet aux transformateurs autorégressifs (AR) d'apprendre rapidement les distributions visuelles et de bien généraliser : VAR permet, pour la première fois, aux modèles AR de surpasser les transformateurs de diffusion en génération d'images. Sur le benchmark ImageNet 256x256, VAR améliore significativement la base de référence AR en améliorant la distance de Fréchet inception (FID) de 18,65 à 1,80, et le score inception (IS) de 80,4 à 356,4, avec une vitesse d'inférence environ 20 fois plus rapide. Il est également vérifié empiriquement que VAR surpasse le Diffusion Transformer (DiT) dans plusieurs dimensions, notamment la qualité de l'image, la vitesse d'inférence, l'efficacité des données et l'évolutivité. La mise à l'échelle des modèles VAR montre des lois d'échelle en puissance claires, similaires à celles observées dans les LLM, avec des coefficients de corrélation linéaire proches de -0,998 comme preuve solide. VAR démontre en outre une capacité de généralisation zero-shot dans des tâches en aval, y compris le remplissage d'image, l'extension d'image et l'édition. Ces résultats suggèrent que VAR a initialement imité les deux propriétés importantes des LLM : les lois d'échelle et la généralisation des tâches en zero-shot. Nous avons publié tous les modèles et codes pour promouvoir l'exploration des modèles AR/VAR pour la génération visuelle et l'apprentissage unifié.
English
We present Visual AutoRegressive modeling (VAR), a new generation paradigm
that redefines the autoregressive learning on images as coarse-to-fine
"next-scale prediction" or "next-resolution prediction", diverging from the
standard raster-scan "next-token prediction". This simple, intuitive
methodology allows autoregressive (AR) transformers to learn visual
distributions fast and generalize well: VAR, for the first time, makes AR
models surpass diffusion transformers in image generation. On ImageNet 256x256
benchmark, VAR significantly improve AR baseline by improving Frechet inception
distance (FID) from 18.65 to 1.80, inception score (IS) from 80.4 to 356.4,
with around 20x faster inference speed. It is also empirically verified that
VAR outperforms the Diffusion Transformer (DiT) in multiple dimensions
including image quality, inference speed, data efficiency, and scalability.
Scaling up VAR models exhibits clear power-law scaling laws similar to those
observed in LLMs, with linear correlation coefficients near -0.998 as solid
evidence. VAR further showcases zero-shot generalization ability in downstream
tasks including image in-painting, out-painting, and editing. These results
suggest VAR has initially emulated the two important properties of LLMs:
Scaling Laws and zero-shot task generalization. We have released all models and
codes to promote the exploration of AR/VAR models for visual generation and
unified learning.Summary
AI-Generated Summary