MaskBit: Geração de Imagens sem Incorporação por Meio de Tokens de Bit
MaskBit: Embedding-free Image Generation via Bit Tokens
September 24, 2024
Autores: Mark Weber, Lijun Yu, Qihang Yu, Xueqing Deng, Xiaohui Shen, Daniel Cremers, Liang-Chieh Chen
cs.AI
Resumo
Modelos de transformadores mascarados para geração de imagens condicionais de classe tornaram-se uma alternativa convincente aos modelos de difusão. Tipicamente compostos por duas etapas - um modelo VQGAN inicial para transição entre espaço latente e espaço de imagem, e um modelo Transformer subsequente para geração de imagem dentro do espaço latente - esses frameworks oferecem caminhos promissores para síntese de imagens. Neste estudo, apresentamos duas contribuições principais: em primeiro lugar, um exame empírico e sistemático dos VQGANs, resultando em um VQGAN modernizado. Em segundo lugar, uma rede geradora inovadora sem incorporação que opera diretamente em tokens de bits - uma representação quantizada binária de tokens com semântica rica. A primeira contribuição fornece um modelo VQGAN transparente, reprodutível e de alto desempenho, aprimorando a acessibilidade e igualando o desempenho dos métodos de ponta atuais, revelando detalhes anteriormente não divulgados. A segunda contribuição demonstra que a geração de imagens sem incorporação usando tokens de bits alcança um novo FID de ponta de 1,52 no benchmark ImageNet 256x256, com um modelo gerador compacto de meros 305M parâmetros.
English
Masked transformer models for class-conditional image generation have become
a compelling alternative to diffusion models. Typically comprising two stages -
an initial VQGAN model for transitioning between latent space and image space,
and a subsequent Transformer model for image generation within latent space -
these frameworks offer promising avenues for image synthesis. In this study, we
present two primary contributions: Firstly, an empirical and systematic
examination of VQGANs, leading to a modernized VQGAN. Secondly, a novel
embedding-free generation network operating directly on bit tokens - a binary
quantized representation of tokens with rich semantics. The first contribution
furnishes a transparent, reproducible, and high-performing VQGAN model,
enhancing accessibility and matching the performance of current
state-of-the-art methods while revealing previously undisclosed details. The
second contribution demonstrates that embedding-free image generation using bit
tokens achieves a new state-of-the-art FID of 1.52 on the ImageNet 256x256
benchmark, with a compact generator model of mere 305M parameters.Summary
AI-Generated Summary