Modello Autoregressivo Supera la Diffusione: Llama per la Generazione Scalabile di Immagini
Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation
June 10, 2024
Autori: Peize Sun, Yi Jiang, Shoufa Chen, Shilong Zhang, Bingyue Peng, Ping Luo, Zehuan Yuan
cs.AI
Abstract
Presentiamo LlamaGen, una nuova famiglia di modelli di generazione di immagini che applica il paradigma originale della "predizione del token successivo" dei grandi modelli linguistici al dominio della generazione visiva. Questa rappresenta una risposta affermativa alla domanda se i modelli autoregressivi standard, come Llama, senza bias induttivi sui segnali visivi, possano raggiungere prestazioni all'avanguardia nella generazione di immagini se scalati correttamente. Rivalutiamo gli spazi di progettazione dei tokenizer di immagini, le proprietà di scalabilità dei modelli di generazione di immagini e la qualità dei loro dati di addestramento. Il risultato di questa esplorazione comprende: (1) Un tokenizer di immagini con un rapporto di downsampling di 16, una qualità di ricostruzione di 0.94 rFID e un utilizzo del codebook del 97% sul benchmark ImageNet. (2) Una serie di modelli di generazione di immagini condizionati alla classe, che vanno da 111M a 3.1B di parametri, raggiungendo un FID di 2.18 sui benchmark ImageNet 256x256, superando i popolari modelli di diffusione come LDM e DiT. (3) Un modello di generazione di immagini condizionato al testo con 775M di parametri, addestrato in due fasi su LAION-COCO e immagini di alta qualità estetica, dimostrando prestazioni competitive in termini di qualità visiva e allineamento al testo. (4) Verifichiamo l'efficacia dei framework di servizio LLM nell'ottimizzare la velocità di inferenza dei modelli di generazione di immagini, ottenendo un aumento di velocità del 326% - 414%. Rilasciamo tutti i modelli e i codici per facilitare la comunità open-source della generazione visiva e dei modelli fondazionali multimodali.
English
We introduce LlamaGen, a new family of image generation models that apply
original ``next-token prediction'' paradigm of large language models to visual
generation domain. It is an affirmative answer to whether vanilla
autoregressive models, e.g., Llama, without inductive biases on visual signals
can achieve state-of-the-art image generation performance if scaling properly.
We reexamine design spaces of image tokenizers, scalability properties of image
generation models, and their training data quality. The outcome of this
exploration consists of: (1) An image tokenizer with downsample ratio of 16,
reconstruction quality of 0.94 rFID and codebook usage of 97% on ImageNet
benchmark. (2) A series of class-conditional image generation models ranging
from 111M to 3.1B parameters, achieving 2.18 FID on ImageNet 256x256
benchmarks, outperforming the popular diffusion models such as LDM, DiT. (3) A
text-conditional image generation model with 775M parameters, from two-stage
training on LAION-COCO and high aesthetics quality images, demonstrating
competitive performance of visual quality and text alignment. (4) We verify the
effectiveness of LLM serving frameworks in optimizing the inference speed of
image generation models and achieve 326% - 414% speedup. We release all models
and codes to facilitate open-source community of visual generation and
multimodal foundation models.