MaskBit: Generación de Imágenes sin Incrustación a través de Tokens de Bits
MaskBit: Embedding-free Image Generation via Bit Tokens
September 24, 2024
Autores: Mark Weber, Lijun Yu, Qihang Yu, Xueqing Deng, Xiaohui Shen, Daniel Cremers, Liang-Chieh Chen
cs.AI
Resumen
Los modelos de transformadores enmascarados para la generación de imágenes condicionales de clase se han convertido en una alternativa convincente a los modelos de difusión. Normalmente compuestos por dos etapas: un modelo VQGAN inicial para la transición entre el espacio latente y el espacio de la imagen, y un modelo Transformer subsiguiente para la generación de imágenes dentro del espacio latente, estos marcos ofrecen vías prometedoras para la síntesis de imágenes. En este estudio, presentamos dos contribuciones principales: en primer lugar, un examen empírico y sistemático de los VQGANs, que conduce a un VQGAN modernizado. En segundo lugar, una red generativa novedosa sin incrustaciones que opera directamente en tokens de bits, una representación cuantizada binaria de tokens con semántica rica. La primera contribución proporciona un modelo VQGAN transparente, reproducible y de alto rendimiento, mejorando la accesibilidad y coincidiendo con el rendimiento de los métodos actuales de vanguardia al tiempo que revela detalles previamente no divulgados. La segunda contribución demuestra que la generación de imágenes sin incrustaciones utilizando tokens de bits logra un nuevo FID de vanguardia de 1.52 en el benchmark ImageNet 256x256, con un modelo generador compacto de tan solo 305 millones de parámetros.
English
Masked transformer models for class-conditional image generation have become
a compelling alternative to diffusion models. Typically comprising two stages -
an initial VQGAN model for transitioning between latent space and image space,
and a subsequent Transformer model for image generation within latent space -
these frameworks offer promising avenues for image synthesis. In this study, we
present two primary contributions: Firstly, an empirical and systematic
examination of VQGANs, leading to a modernized VQGAN. Secondly, a novel
embedding-free generation network operating directly on bit tokens - a binary
quantized representation of tokens with rich semantics. The first contribution
furnishes a transparent, reproducible, and high-performing VQGAN model,
enhancing accessibility and matching the performance of current
state-of-the-art methods while revealing previously undisclosed details. The
second contribution demonstrates that embedding-free image generation using bit
tokens achieves a new state-of-the-art FID of 1.52 on the ImageNet 256x256
benchmark, with a compact generator model of mere 305M parameters.Summary
AI-Generated Summary