Авторегрессионная модель превосходит диффузию: Llama для масштабируемой генерации изображенийAutoregressive Model Beats Diffusion: Llama for Scalable Image
Generation
Мы представляем LlamaGen - новое семейство моделей генерации изображений, которые применяют оригинальную парадигму "предсказания следующего токена" крупных языковых моделей в области визуальной генерации. Это утвердительный ответ на вопрос о том, могут ли авторегрессивные модели, например, Llama, без индуктивных предвзятостей к визуальным сигналам достичь передовой производительности генерации изображений при правильном масштабировании. Мы пересматриваем пространства проектирования токенизаторов изображений, свойства масштабируемости моделей генерации изображений и качество обучающих данных. Результатом этого исследования являются: (1) Токенизатор изображений с коэффициентом понижения разрешения 16, качеством восстановления 0.94 rFID и использованием кодовой книги на уровне 97% на базе данных ImageNet. (2) Серия классовых моделей генерации изображений с числом параметров от 111 млн до 3.1 млрд, достигающих значения 2.18 FID на базе данных ImageNet 256x256, превосходя популярные модели диффузии, такие как LDM, DiT. (3) Модель генерации изображений с условием текста с 775 млн параметров, обученная в два этапа на LAION-COCO и изображениях высокого качества эстетики, демонстрирующая конкурентоспособную производительность по качеству изображения и выравниванию текста. (4) Мы проверяем эффективность фреймворков обслуживания LLM в оптимизации скорости вывода моделей генерации изображений и достигаем ускорения от 326% до 414%. Мы предоставляем все модели и коды для облегчения работы сообщества с открытым исходным кодом в области визуальной генерации и мультимодальных базовых моделей.