MaskBit : Génération d'images sans incorporation d'encodage via jetons binaires
MaskBit: Embedding-free Image Generation via Bit Tokens
September 24, 2024
Auteurs: Mark Weber, Lijun Yu, Qihang Yu, Xueqing Deng, Xiaohui Shen, Daniel Cremers, Liang-Chieh Chen
cs.AI
Résumé
Les modèles de transformateurs masqués pour la génération d'images conditionnelles de classe sont devenus une alternative convaincante aux modèles de diffusion. Typiquement composés de deux étapes - un modèle VQGAN initial pour la transition entre l'espace latent et l'espace image, et un modèle de transformateur ultérieur pour la génération d'images dans l'espace latent - ces cadres offrent des voies prometteuses pour la synthèse d'images. Dans cette étude, nous présentons deux contributions principales : Premièrement, un examen empirique et systématique des VQGANs, conduisant à un VQGAN modernisé. Deuxièmement, un réseau de génération novateur sans incorporation opérant directement sur des jetons binaires - une représentation quantifiée binaire des jetons avec une sémantique riche. La première contribution fournit un modèle VQGAN transparent, reproductible et performant, améliorant l'accessibilité et correspondant aux performances des méthodes de pointe actuelles tout en révélant des détails auparavant non divulgués. La deuxième contribution démontre que la génération d'images sans incorporation en utilisant des jetons binaires atteint un nouveau FID de pointe de 1,52 sur le banc d'essai ImageNet 256x256, avec un modèle de générateur compact de seulement 305 millions de paramètres.
English
Masked transformer models for class-conditional image generation have become
a compelling alternative to diffusion models. Typically comprising two stages -
an initial VQGAN model for transitioning between latent space and image space,
and a subsequent Transformer model for image generation within latent space -
these frameworks offer promising avenues for image synthesis. In this study, we
present two primary contributions: Firstly, an empirical and systematic
examination of VQGANs, leading to a modernized VQGAN. Secondly, a novel
embedding-free generation network operating directly on bit tokens - a binary
quantized representation of tokens with rich semantics. The first contribution
furnishes a transparent, reproducible, and high-performing VQGAN model,
enhancing accessibility and matching the performance of current
state-of-the-art methods while revealing previously undisclosed details. The
second contribution demonstrates that embedding-free image generation using bit
tokens achieves a new state-of-the-art FID of 1.52 on the ImageNet 256x256
benchmark, with a compact generator model of mere 305M parameters.Summary
AI-Generated Summary