MaskBit: Beeldgeneratie zonder embedding via bit tokens
MaskBit: Embedding-free Image Generation via Bit Tokens
September 24, 2024
Auteurs: Mark Weber, Lijun Yu, Qihang Yu, Xueqing Deng, Xiaohui Shen, Daniel Cremers, Liang-Chieh Chen
cs.AI
Samenvatting
Gemaskerde transformermodellen voor klasse-geconditioneerde beeldgeneratie zijn een overtuigend alternatief geworden voor diffusiemodellen. Doorgaans bestaande uit twee fasen - een initiële VQGAN-model voor overgang tussen latente ruimte en beeldruimte, en een daaropvolgend Transformer-model voor beeldgeneratie binnen latente ruimte - bieden deze kaders veelbelovende mogelijkheden voor beeldsynthese. In dit onderzoek presenteren we twee belangrijke bijdragen: Ten eerste, een empirisch en systematisch onderzoek naar VQGANs, resulterend in een gemoderniseerde VQGAN. Ten tweede, een nieuw generatienetwerk zonder inbedding dat rechtstreeks werkt op bit tokens - een binair gekwantiseerde representatie van tokens met rijke semantiek. De eerste bijdrage levert een transparant, reproduceerbaar en hoog presterend VQGAN-model op, dat de toegankelijkheid verbetert en de prestaties van huidige state-of-the-art methoden evenaart, terwijl voorheen niet onthulde details worden onthuld. De tweede bijdrage toont aan dat inbeddingvrije beeldgeneratie met bit tokens een nieuwe state-of-the-art FID van 1.52 behaalt op de ImageNet 256x256 benchmark, met een compact generatormodel van slechts 305M parameters.
English
Masked transformer models for class-conditional image generation have become
a compelling alternative to diffusion models. Typically comprising two stages -
an initial VQGAN model for transitioning between latent space and image space,
and a subsequent Transformer model for image generation within latent space -
these frameworks offer promising avenues for image synthesis. In this study, we
present two primary contributions: Firstly, an empirical and systematic
examination of VQGANs, leading to a modernized VQGAN. Secondly, a novel
embedding-free generation network operating directly on bit tokens - a binary
quantized representation of tokens with rich semantics. The first contribution
furnishes a transparent, reproducible, and high-performing VQGAN model,
enhancing accessibility and matching the performance of current
state-of-the-art methods while revealing previously undisclosed details. The
second contribution demonstrates that embedding-free image generation using bit
tokens achieves a new state-of-the-art FID of 1.52 on the ImageNet 256x256
benchmark, with a compact generator model of mere 305M parameters.Summary
AI-Generated Summary