Modelo Autoregressivo Supera Difusão: Llama para Geração Escalável de Imagens
Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation
June 10, 2024
Autores: Peize Sun, Yi Jiang, Shoufa Chen, Shilong Zhang, Bingyue Peng, Ping Luo, Zehuan Yuan
cs.AI
Resumo
Apresentamos o LlamaGen, uma nova família de modelos de geração de imagens que aplica o paradigma original de "previsão do próximo token" dos grandes modelos de linguagem ao domínio da geração visual. Ele é uma resposta afirmativa à questão de saber se modelos autoregressivos convencionais, como o Llama, sem vieses indutivos sobre sinais visuais, podem alcançar desempenho de ponta em geração de imagens se dimensionados adequadamente. Reexaminamos os espaços de design dos tokenizadores de imagens, as propriedades de escalabilidade dos modelos de geração de imagens e a qualidade dos dados de treinamento. O resultado dessa exploração consiste em: (1) Um tokenizador de imagens com taxa de redução de 16, qualidade de reconstrução de 0,94 rFID e uso de codebook de 97% no benchmark ImageNet. (2) Uma série de modelos de geração de imagens condicionados por classe, variando de 111M a 3,1B de parâmetros, alcançando 2,18 FID no benchmark ImageNet 256x256, superando modelos de difusão populares como LDM e DiT. (3) Um modelo de geração de imagens condicionado por texto com 775M de parâmetros, treinado em duas etapas com dados do LAION-COCO e imagens de alta qualidade estética, demonstrando desempenho competitivo em qualidade visual e alinhamento textual. (4) Verificamos a eficácia de frameworks de serviço de LLM na otimização da velocidade de inferência dos modelos de geração de imagens, alcançando um aumento de velocidade de 326% a 414%. Disponibilizamos todos os modelos e códigos para facilitar a comunidade de código aberto em geração visual e modelos de fundação multimodais.
English
We introduce LlamaGen, a new family of image generation models that apply
original ``next-token prediction'' paradigm of large language models to visual
generation domain. It is an affirmative answer to whether vanilla
autoregressive models, e.g., Llama, without inductive biases on visual signals
can achieve state-of-the-art image generation performance if scaling properly.
We reexamine design spaces of image tokenizers, scalability properties of image
generation models, and their training data quality. The outcome of this
exploration consists of: (1) An image tokenizer with downsample ratio of 16,
reconstruction quality of 0.94 rFID and codebook usage of 97% on ImageNet
benchmark. (2) A series of class-conditional image generation models ranging
from 111M to 3.1B parameters, achieving 2.18 FID on ImageNet 256x256
benchmarks, outperforming the popular diffusion models such as LDM, DiT. (3) A
text-conditional image generation model with 775M parameters, from two-stage
training on LAION-COCO and high aesthetics quality images, demonstrating
competitive performance of visual quality and text alignment. (4) We verify the
effectiveness of LLM serving frameworks in optimizing the inference speed of
image generation models and achieve 326% - 414% speedup. We release all models
and codes to facilitate open-source community of visual generation and
multimodal foundation models.