ChatPaper.aiChatPaper

MaskBit: Generazione di Immagini Senza Incorporazione tramite Token a Bit

MaskBit: Embedding-free Image Generation via Bit Tokens

September 24, 2024
Autori: Mark Weber, Lijun Yu, Qihang Yu, Xueqing Deng, Xiaohui Shen, Daniel Cremers, Liang-Chieh Chen
cs.AI

Abstract

I modelli trasformatore mascherati per la generazione di immagini condizionate alla classe stanno diventando un'alternativa convincente rispetto ai modelli di diffusione. Tipicamente composti da due fasi - un modello VQGAN iniziale per la transizione tra lo spazio latente e lo spazio delle immagini, e un successivo modello Trasformatore per la generazione di immagini all'interno dello spazio latente - questi framework offrono promettenti vie per la sintesi delle immagini. In questo studio, presentiamo due contributi principali: In primo luogo, un'esame empirico e sistematico dei VQGAN, che porta a un VQGAN modernizzato. In secondo luogo, una rete di generazione innovativa senza embedding che opera direttamente sui bit token - una rappresentazione quantizzata binaria dei token con ricca semantica. Il primo contributo fornisce un modello VQGAN trasparente, riproducibile e ad alte prestazioni, migliorando l'accessibilità e corrispondendo alle prestazioni dei metodi all'avanguardia attuali, rivelando dettagli precedentemente non divulgati. Il secondo contributo dimostra che la generazione di immagini senza embedding utilizzando bit token raggiunge un nuovo FID all'avanguardia di 1,52 sul benchmark ImageNet 256x256, con un modello generatore compatto di soli 305M parametri.
English
Masked transformer models for class-conditional image generation have become a compelling alternative to diffusion models. Typically comprising two stages - an initial VQGAN model for transitioning between latent space and image space, and a subsequent Transformer model for image generation within latent space - these frameworks offer promising avenues for image synthesis. In this study, we present two primary contributions: Firstly, an empirical and systematic examination of VQGANs, leading to a modernized VQGAN. Secondly, a novel embedding-free generation network operating directly on bit tokens - a binary quantized representation of tokens with rich semantics. The first contribution furnishes a transparent, reproducible, and high-performing VQGAN model, enhancing accessibility and matching the performance of current state-of-the-art methods while revealing previously undisclosed details. The second contribution demonstrates that embedding-free image generation using bit tokens achieves a new state-of-the-art FID of 1.52 on the ImageNet 256x256 benchmark, with a compact generator model of mere 305M parameters.

Summary

AI-Generated Summary

PDF172November 16, 2024