Modelado Autoregresivo Visual: Generación Escalable de Imágenes mediante Predicción de la Siguiente Escala
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
April 3, 2024
Autores: Keyu Tian, Yi Jiang, Zehuan Yuan, Bingyue Peng, Liwei Wang
cs.AI
Resumen
Presentamos el modelado Visual AutoRegresivo (VAR), un nuevo paradigma generativo que redefine el aprendizaje autorregresivo en imágenes como una predicción "de grueso a fino" o "de siguiente resolución", divergiendo de la predicción estándar "de siguiente token" en escaneo raster. Esta metodología simple e intuitiva permite que los transformadores autorregresivos (AR) aprendan distribuciones visuales rápidamente y generalicen bien: VAR, por primera vez, hace que los modelos AR superen a los transformadores de difusión en la generación de imágenes. En el benchmark de ImageNet 256x256, VAR mejora significativamente la línea base AR al mejorar la distancia de Fréchet Inception (FID) de 18.65 a 1.80 y el puntaje de Inception (IS) de 80.4 a 356.4, con una velocidad de inferencia aproximadamente 20 veces más rápida. También se verifica empíricamente que VAR supera al Transformador de Difusión (DiT) en múltiples dimensiones, incluyendo calidad de imagen, velocidad de inferencia, eficiencia de datos y escalabilidad. Escalar los modelos VAR exhibe claras leyes de escalamiento de ley de potencia similares a las observadas en los LLM, con coeficientes de correlación lineal cercanos a -0.998 como evidencia sólida. VAR además demuestra capacidad de generalización zero-shot en tareas posteriores como in-painting, out-painting y edición de imágenes. Estos resultados sugieren que VAR ha emulado inicialmente las dos propiedades importantes de los LLM: Leyes de Escalamiento y generalización zero-shot de tareas. Hemos liberado todos los modelos y códigos para promover la exploración de modelos AR/VAR para la generación visual y el aprendizaje unificado.
English
We present Visual AutoRegressive modeling (VAR), a new generation paradigm
that redefines the autoregressive learning on images as coarse-to-fine
"next-scale prediction" or "next-resolution prediction", diverging from the
standard raster-scan "next-token prediction". This simple, intuitive
methodology allows autoregressive (AR) transformers to learn visual
distributions fast and generalize well: VAR, for the first time, makes AR
models surpass diffusion transformers in image generation. On ImageNet 256x256
benchmark, VAR significantly improve AR baseline by improving Frechet inception
distance (FID) from 18.65 to 1.80, inception score (IS) from 80.4 to 356.4,
with around 20x faster inference speed. It is also empirically verified that
VAR outperforms the Diffusion Transformer (DiT) in multiple dimensions
including image quality, inference speed, data efficiency, and scalability.
Scaling up VAR models exhibits clear power-law scaling laws similar to those
observed in LLMs, with linear correlation coefficients near -0.998 as solid
evidence. VAR further showcases zero-shot generalization ability in downstream
tasks including image in-painting, out-painting, and editing. These results
suggest VAR has initially emulated the two important properties of LLMs:
Scaling Laws and zero-shot task generalization. We have released all models and
codes to promote the exploration of AR/VAR models for visual generation and
unified learning.Summary
AI-Generated Summary