Modelagem Autoregressiva Visual: Geração Escalável de Imagens via Predição da Próxima Escala
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
April 3, 2024
Autores: Keyu Tian, Yi Jiang, Zehuan Yuan, Bingyue Peng, Liwei Wang
cs.AI
Resumo
Apresentamos a modelagem Visual AutoRegressiva (VAR), um novo paradigma de geração que redefine o aprendizado autoregressivo em imagens como uma "previsão de próxima escala" ou "previsão de próxima resolução" de forma grossa para fina, divergindo da previsão padrão "próximo token" em varredura raster. Essa metodologia simples e intuitiva permite que transformadores autoregressivos (AR) aprendam distribuições visuais rapidamente e generalizem bem: o VAR, pela primeira vez, faz com que modelos AR superem os transformadores de difusão na geração de imagens. No benchmark ImageNet 256x256, o VAR melhora significativamente a linha de base AR, melhorando a distância de Frechet inception (FID) de 18,65 para 1,80 e o score de inception (IS) de 80,4 para 356,4, com uma velocidade de inferência cerca de 20 vezes mais rápida. Também foi empiricamente verificado que o VAR supera o Transformador de Difusão (DiT) em múltiplas dimensões, incluindo qualidade de imagem, velocidade de inferência, eficiência de dados e escalabilidade. A ampliação dos modelos VAR exibe claras leis de escalonamento em lei de potência, semelhantes às observadas em LLMs, com coeficientes de correlação linear próximos a -0,998 como evidência sólida. O VAR ainda demonstra capacidade de generalização zero-shot em tarefas subsequentes, incluindo preenchimento de imagens, extensão de imagens e edição. Esses resultados sugerem que o VAR inicialmente emulou duas propriedades importantes dos LLMs: Leis de Escalonamento e generalização de tarefas zero-shot. Liberamos todos os modelos e códigos para promover a exploração de modelos AR/VAR para geração visual e aprendizado unificado.
English
We present Visual AutoRegressive modeling (VAR), a new generation paradigm
that redefines the autoregressive learning on images as coarse-to-fine
"next-scale prediction" or "next-resolution prediction", diverging from the
standard raster-scan "next-token prediction". This simple, intuitive
methodology allows autoregressive (AR) transformers to learn visual
distributions fast and generalize well: VAR, for the first time, makes AR
models surpass diffusion transformers in image generation. On ImageNet 256x256
benchmark, VAR significantly improve AR baseline by improving Frechet inception
distance (FID) from 18.65 to 1.80, inception score (IS) from 80.4 to 356.4,
with around 20x faster inference speed. It is also empirically verified that
VAR outperforms the Diffusion Transformer (DiT) in multiple dimensions
including image quality, inference speed, data efficiency, and scalability.
Scaling up VAR models exhibits clear power-law scaling laws similar to those
observed in LLMs, with linear correlation coefficients near -0.998 as solid
evidence. VAR further showcases zero-shot generalization ability in downstream
tasks including image in-painting, out-painting, and editing. These results
suggest VAR has initially emulated the two important properties of LLMs:
Scaling Laws and zero-shot task generalization. We have released all models and
codes to promote the exploration of AR/VAR models for visual generation and
unified learning.