ChatPaper.aiChatPaper

Modello Autoregressivo Supera la Diffusione: Llama per la Generazione Scalabile di Immagini

Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation

June 10, 2024
Autori: Peize Sun, Yi Jiang, Shoufa Chen, Shilong Zhang, Bingyue Peng, Ping Luo, Zehuan Yuan
cs.AI

Abstract

Presentiamo LlamaGen, una nuova famiglia di modelli di generazione di immagini che applica il paradigma originale della "predizione del token successivo" dei grandi modelli linguistici al dominio della generazione visiva. Questa rappresenta una risposta affermativa alla domanda se i modelli autoregressivi standard, come Llama, senza bias induttivi sui segnali visivi, possano raggiungere prestazioni all'avanguardia nella generazione di immagini se scalati correttamente. Rivalutiamo gli spazi di progettazione dei tokenizer di immagini, le proprietà di scalabilità dei modelli di generazione di immagini e la qualità dei loro dati di addestramento. Il risultato di questa esplorazione comprende: (1) Un tokenizer di immagini con un rapporto di downsampling di 16, una qualità di ricostruzione di 0.94 rFID e un utilizzo del codebook del 97% sul benchmark ImageNet. (2) Una serie di modelli di generazione di immagini condizionati alla classe, che vanno da 111M a 3.1B di parametri, raggiungendo un FID di 2.18 sui benchmark ImageNet 256x256, superando i popolari modelli di diffusione come LDM e DiT. (3) Un modello di generazione di immagini condizionato al testo con 775M di parametri, addestrato in due fasi su LAION-COCO e immagini di alta qualità estetica, dimostrando prestazioni competitive in termini di qualità visiva e allineamento al testo. (4) Verifichiamo l'efficacia dei framework di servizio LLM nell'ottimizzare la velocità di inferenza dei modelli di generazione di immagini, ottenendo un aumento di velocità del 326% - 414%. Rilasciamo tutti i modelli e i codici per facilitare la comunità open-source della generazione visiva e dei modelli fondazionali multimodali.
English
We introduce LlamaGen, a new family of image generation models that apply original ``next-token prediction'' paradigm of large language models to visual generation domain. It is an affirmative answer to whether vanilla autoregressive models, e.g., Llama, without inductive biases on visual signals can achieve state-of-the-art image generation performance if scaling properly. We reexamine design spaces of image tokenizers, scalability properties of image generation models, and their training data quality. The outcome of this exploration consists of: (1) An image tokenizer with downsample ratio of 16, reconstruction quality of 0.94 rFID and codebook usage of 97% on ImageNet benchmark. (2) A series of class-conditional image generation models ranging from 111M to 3.1B parameters, achieving 2.18 FID on ImageNet 256x256 benchmarks, outperforming the popular diffusion models such as LDM, DiT. (3) A text-conditional image generation model with 775M parameters, from two-stage training on LAION-COCO and high aesthetics quality images, demonstrating competitive performance of visual quality and text alignment. (4) We verify the effectiveness of LLM serving frameworks in optimizing the inference speed of image generation models and achieve 326% - 414% speedup. We release all models and codes to facilitate open-source community of visual generation and multimodal foundation models.
PDF713December 8, 2024