Modellazione Autoregressiva Visiva: Generazione Scalabile di Immagini tramite Predizione della Scala Successiva

Abstract

Presentiamo il Visual AutoRegressive modeling (VAR), un nuovo paradigma generativo che ridefinisce l'apprendimento autoregressivo sulle immagini come una "predizione a scala crescente" o "predizione a risoluzione crescente", divergendo dalla classica "predizione del token successivo" basata su scansione raster. Questa metodologia semplice e intuitiva consente ai trasformatori autoregressivi (AR) di apprendere rapidamente le distribuzioni visive e generalizzare efficacemente: VAR, per la prima volta, fa sì che i modelli AR superino i trasformatori diffusivi nella generazione di immagini. Sul benchmark ImageNet 256x256, VAR migliora significativamente la baseline AR, riducendo la distanza di Frechet Inception (FID) da 18.65 a 1.80 e aumentando l'Inception Score (IS) da 80.4 a 356.4, con una velocità di inferenza circa 20 volte più rapida. È stato inoltre verificato empiricamente che VAR supera il Diffusion Transformer (DiT) in molteplici dimensioni, tra cui qualità dell'immagine, velocità di inferenza, efficienza dei dati e scalabilità. Il ridimensionamento dei modelli VAR mostra chiare leggi di scala di tipo power-law, simili a quelle osservate nei LLM, con coefficienti di correlazione lineare vicini a -0.998 come solida evidenza. VAR dimostra inoltre capacità di generalizzazione zero-shot in task downstream come in-painting, out-painting e editing di immagini. Questi risultati suggeriscono che VAR ha inizialmente emulato due importanti proprietà dei LLM: le leggi di scala e la generalizzazione zero-shot su task. Abbiamo rilasciato tutti i modelli e i codici per promuovere l'esplorazione dei modelli AR/VAR per la generazione visiva e l'apprendimento unificato.

English

We present Visual AutoRegressive modeling (VAR), a new generation paradigm that redefines the autoregressive learning on images as coarse-to-fine "next-scale prediction" or "next-resolution prediction", diverging from the standard raster-scan "next-token prediction". This simple, intuitive methodology allows autoregressive (AR) transformers to learn visual distributions fast and generalize well: VAR, for the first time, makes AR models surpass diffusion transformers in image generation. On ImageNet 256x256 benchmark, VAR significantly improve AR baseline by improving Frechet inception distance (FID) from 18.65 to 1.80, inception score (IS) from 80.4 to 356.4, with around 20x faster inference speed. It is also empirically verified that VAR outperforms the Diffusion Transformer (DiT) in multiple dimensions including image quality, inference speed, data efficiency, and scalability. Scaling up VAR models exhibits clear power-law scaling laws similar to those observed in LLMs, with linear correlation coefficients near -0.998 as solid evidence. VAR further showcases zero-shot generalization ability in downstream tasks including image in-painting, out-painting, and editing. These results suggest VAR has initially emulated the two important properties of LLMs: Scaling Laws and zero-shot task generalization. We have released all models and codes to promote the exploration of AR/VAR models for visual generation and unified learning.

Modellazione Autoregressiva Visiva: Generazione Scalabile di Immagini tramite Predizione della Scala Successiva

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

Abstract

Support