MaskBit: Generierung von Bildern ohne Einbettung durch Bit-Token
MaskBit: Embedding-free Image Generation via Bit Tokens
September 24, 2024
Autoren: Mark Weber, Lijun Yu, Qihang Yu, Xueqing Deng, Xiaohui Shen, Daniel Cremers, Liang-Chieh Chen
cs.AI
Zusammenfassung
Maskierte Transformer-Modelle für klassenbedingte Bildgenerierung sind zu einer überzeugenden Alternative zu Diffusionsmodellen geworden. Typischerweise bestehend aus zwei Phasen - einem anfänglichen VQGAN-Modell zur Transition zwischen dem latenten Raum und dem Bildraum und einem anschließenden Transformer-Modell zur Bildgenerierung im latenten Raum - bieten diese Rahmenwerke vielversprechende Ansätze für die Bildsynthese. In dieser Studie präsentieren wir zwei Hauptbeiträge: Erstens eine empirische und systematische Untersuchung von VQGANs, die zu einem modernisierten VQGAN führt. Zweitens ein neuartiges Embedding-freies Generierungsnetzwerk, das direkt auf Bit-Token - einer binären quantisierten Repräsentation von Tokens mit reicher Semantik - arbeitet. Der erste Beitrag liefert ein transparentes, reproduzierbares und leistungsstarkes VQGAN-Modell, das die Zugänglichkeit verbessert und die Leistung aktueller State-of-the-Art-Methoden erreicht, während zuvor unveröffentlichte Details offenbart werden. Der zweite Beitrag zeigt, dass die Embedding-freie Bildgenerierung unter Verwendung von Bit-Token einen neuen State-of-the-Art FID von 1,52 auf dem ImageNet 256x256 Benchmark erreicht, mit einem kompakten Generatormodell von nur 305 Millionen Parametern.
English
Masked transformer models for class-conditional image generation have become
a compelling alternative to diffusion models. Typically comprising two stages -
an initial VQGAN model for transitioning between latent space and image space,
and a subsequent Transformer model for image generation within latent space -
these frameworks offer promising avenues for image synthesis. In this study, we
present two primary contributions: Firstly, an empirical and systematic
examination of VQGANs, leading to a modernized VQGAN. Secondly, a novel
embedding-free generation network operating directly on bit tokens - a binary
quantized representation of tokens with rich semantics. The first contribution
furnishes a transparent, reproducible, and high-performing VQGAN model,
enhancing accessibility and matching the performance of current
state-of-the-art methods while revealing previously undisclosed details. The
second contribution demonstrates that embedding-free image generation using bit
tokens achieves a new state-of-the-art FID of 1.52 on the ImageNet 256x256
benchmark, with a compact generator model of mere 305M parameters.Summary
AI-Generated Summary