ChatPaper.aiChatPaper

Визуальное авторегрессионное моделирование: масштабируемая генерация изображений с помощью предсказания следующего масштаба.

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

April 3, 2024
Авторы: Keyu Tian, Yi Jiang, Zehuan Yuan, Bingyue Peng, Liwei Wang
cs.AI

Аннотация

Мы представляем моделирование визуальной авторегрессии (VAR), новое поколение парадигмы, которое переопределяет авторегрессивное обучение на изображениях как грубое-к-тонкому предсказанию следующего масштаба или следующего разрешения, отклоняясь от стандартного предсказания следующего токена по растровому скану. Этот простой и интуитивный метод позволяет авторегрессивным (AR) трансформерам быстро изучать визуальные распределения и хорошо обобщать: VAR впервые позволяет моделям AR превзойти трансформеры диффузии в генерации изображений. На стандартном наборе данных ImageNet 256x256, VAR значительно улучшает базовую модель AR, улучшая расстояние Фреше-Инцепшн (FID) с 18,65 до 1,80, оценку инцепшн (IS) с 80,4 до 356,4, приблизительно в 20 раз увеличивая скорость вывода. Эмпирически также подтверждено, что VAR превосходит трансформер диффузии (DiT) в нескольких аспектах, включая качество изображения, скорость вывода, эффективность данных и масштабируемость. Увеличение масштаба моделей VAR демонстрирует четкие законы масштабирования степенного закона, аналогичные наблюдаемым в LLM, с линейными коэффициентами корреляции около -0,998 в качестве убедительного доказательства. VAR также демонстрирует способность к обобщению без обучения на примерах в задачах последующего использования, включая заполнение изображения, восстановление изображения и редактирование. Эти результаты указывают на то, что VAR начально эмулирует два важных свойства LLM: законы масштабирования и обобщение задач без обучения на примерах. Мы выпустили все модели и коды для поощрения исследования моделей AR/VAR для визуальной генерации и объединенного обучения.
English
We present Visual AutoRegressive modeling (VAR), a new generation paradigm that redefines the autoregressive learning on images as coarse-to-fine "next-scale prediction" or "next-resolution prediction", diverging from the standard raster-scan "next-token prediction". This simple, intuitive methodology allows autoregressive (AR) transformers to learn visual distributions fast and generalize well: VAR, for the first time, makes AR models surpass diffusion transformers in image generation. On ImageNet 256x256 benchmark, VAR significantly improve AR baseline by improving Frechet inception distance (FID) from 18.65 to 1.80, inception score (IS) from 80.4 to 356.4, with around 20x faster inference speed. It is also empirically verified that VAR outperforms the Diffusion Transformer (DiT) in multiple dimensions including image quality, inference speed, data efficiency, and scalability. Scaling up VAR models exhibits clear power-law scaling laws similar to those observed in LLMs, with linear correlation coefficients near -0.998 as solid evidence. VAR further showcases zero-shot generalization ability in downstream tasks including image in-painting, out-painting, and editing. These results suggest VAR has initially emulated the two important properties of LLMs: Scaling Laws and zero-shot task generalization. We have released all models and codes to promote the exploration of AR/VAR models for visual generation and unified learning.

Summary

AI-Generated Summary

PDF713November 26, 2024