視覚的自己回帰モデリング:次スケール予測によるスケーラブルな画像生成
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
April 3, 2024
著者: Keyu Tian, Yi Jiang, Zehuan Yuan, Bingyue Peng, Liwei Wang
cs.AI
要旨
本論文では、Visual AutoRegressive modeling (VAR) を提案する。これは、従来のラスタースキャン方式の「次トークン予測」から脱却し、画像に対する自己回帰学習を「次スケール予測」または「次解像度予測」という粗から細への生成パラダイムとして再定義する新しいアプローチである。このシンプルで直感的な手法により、自己回帰型(AR)トランスフォーマーは視覚的分布を高速に学習し、優れた汎化性能を発揮する。VARは、ARモデルが初めて拡散トランスフォーマーを画像生成において凌駕することを可能にした。ImageNet 256x256ベンチマークにおいて、VARはARベースラインを大幅に改善し、Frechet Inception Distance (FID) を18.65から1.80へ、Inception Score (IS) を80.4から356.4へ向上させ、推論速度も約20倍高速化した。また、VARがDiffusion Transformer (DiT) を画像品質、推論速度、データ効率、スケーラビリティの複数の次元で上回ることが実験的に確認された。VARモデルのスケールアップは、LLMで観察されるものと同様の明確なべき乗則を示し、線形相関係数が-0.998に近いことがその確かな証拠となっている。VARはさらに、画像のインペインティング、アウトペインティング、編集といった下流タスクにおいてゼロショット汎化能力を発揮する。これらの結果は、VARがLLMの2つの重要な特性、すなわちスケーリング則とゼロショットタスク汎化を初期段階で模倣していることを示唆している。我々は、視覚生成と統一学習のためのAR/VARモデルの探求を促進するため、全てのモデルとコードを公開した。
English
We present Visual AutoRegressive modeling (VAR), a new generation paradigm
that redefines the autoregressive learning on images as coarse-to-fine
"next-scale prediction" or "next-resolution prediction", diverging from the
standard raster-scan "next-token prediction". This simple, intuitive
methodology allows autoregressive (AR) transformers to learn visual
distributions fast and generalize well: VAR, for the first time, makes AR
models surpass diffusion transformers in image generation. On ImageNet 256x256
benchmark, VAR significantly improve AR baseline by improving Frechet inception
distance (FID) from 18.65 to 1.80, inception score (IS) from 80.4 to 356.4,
with around 20x faster inference speed. It is also empirically verified that
VAR outperforms the Diffusion Transformer (DiT) in multiple dimensions
including image quality, inference speed, data efficiency, and scalability.
Scaling up VAR models exhibits clear power-law scaling laws similar to those
observed in LLMs, with linear correlation coefficients near -0.998 as solid
evidence. VAR further showcases zero-shot generalization ability in downstream
tasks including image in-painting, out-painting, and editing. These results
suggest VAR has initially emulated the two important properties of LLMs:
Scaling Laws and zero-shot task generalization. We have released all models and
codes to promote the exploration of AR/VAR models for visual generation and
unified learning.Summary
AI-Generated Summary