Visueel Autoregressief Modelleren: Schaalbare Beeldgeneratie via Volgende-Schaal Voorspelling
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
April 3, 2024
Auteurs: Keyu Tian, Yi Jiang, Zehuan Yuan, Bingyue Peng, Liwei Wang
cs.AI
Samenvatting
We presenteren Visual AutoRegressive modeling (VAR), een nieuwe generatieparadigma dat het autoregressieve leren op afbeeldingen herdefinieert als een grof-naar-fijn "volgende-schaal voorspelling" of "volgende-resolutie voorspelling", wat afwijkt van de standaard raster-scan "volgende-token voorspelling". Deze eenvoudige, intuïtieve methodologie stelt autoregressieve (AR) transformers in staat om visuele distributies snel te leren en goed te generaliseren: VAR maakt het voor het eerst mogelijk dat AR-modellen diffusion transformers overtreffen in beeldgeneratie. Op de ImageNet 256x256 benchmark verbetert VAR de AR-basislijn aanzienlijk door de Frechet inception distance (FID) te verbeteren van 18.65 naar 1.80, en de inception score (IS) van 80.4 naar 356.4, met een ongeveer 20x snellere inferentiesnelheid. Het is ook empirisch geverifieerd dat VAR de Diffusion Transformer (DiT) overtreft op meerdere dimensies, waaronder beeldkwaliteit, inferentiesnelheid, data-efficiëntie en schaalbaarheid. Het opschalen van VAR-modellen vertoont duidelijke power-law schaalwetten, vergelijkbaar met die waargenomen in LLMs, met lineaire correlatiecoëfficiënten van bijna -0.998 als solide bewijs. VAR toont verder een zero-shot generalisatievermogen in downstream taken, waaronder beeldinpainting, outpaint en bewerken. Deze resultaten suggereren dat VAR aanvankelijk de twee belangrijke eigenschappen van LLMs heeft nagebootst: Schaalwetten en zero-shot taakgeneralisatie. We hebben alle modellen en codes vrijgegeven om de verkenning van AR/VAR-modellen voor visuele generatie en geünificeerd leren te bevorderen.
English
We present Visual AutoRegressive modeling (VAR), a new generation paradigm
that redefines the autoregressive learning on images as coarse-to-fine
"next-scale prediction" or "next-resolution prediction", diverging from the
standard raster-scan "next-token prediction". This simple, intuitive
methodology allows autoregressive (AR) transformers to learn visual
distributions fast and generalize well: VAR, for the first time, makes AR
models surpass diffusion transformers in image generation. On ImageNet 256x256
benchmark, VAR significantly improve AR baseline by improving Frechet inception
distance (FID) from 18.65 to 1.80, inception score (IS) from 80.4 to 356.4,
with around 20x faster inference speed. It is also empirically verified that
VAR outperforms the Diffusion Transformer (DiT) in multiple dimensions
including image quality, inference speed, data efficiency, and scalability.
Scaling up VAR models exhibits clear power-law scaling laws similar to those
observed in LLMs, with linear correlation coefficients near -0.998 as solid
evidence. VAR further showcases zero-shot generalization ability in downstream
tasks including image in-painting, out-painting, and editing. These results
suggest VAR has initially emulated the two important properties of LLMs:
Scaling Laws and zero-shot task generalization. We have released all models and
codes to promote the exploration of AR/VAR models for visual generation and
unified learning.