MaskBit: Генерация изображений без встраивания через битовые токены
MaskBit: Embedding-free Image Generation via Bit Tokens
September 24, 2024
Авторы: Mark Weber, Lijun Yu, Qihang Yu, Xueqing Deng, Xiaohui Shen, Daniel Cremers, Liang-Chieh Chen
cs.AI
Аннотация
Маскированные модели трансформера для генерации изображений с условием класса стали привлекательной альтернативой моделям диффузии. Обычно они состоят из двух этапов: начальная модель VQGAN для перехода между латентным пространством и пространством изображений, а затем модель трансформера для генерации изображений внутри латентного пространства. Эти фреймворки предлагают многообещающие пути для синтеза изображений. В данном исследовании мы представляем два основных вклада: Во-первых, эмпирическое и систематическое изучение VQGAN, приводящее к современному VQGAN. Во-вторых, новая сеть генерации без вложений, работающая непосредственно с битовыми токенами - бинарным квантованным представлением токенов с богатой семантикой. Первый вклад предоставляет прозрачную, воспроизводимую и высокопроизводительную модель VQGAN, улучшая доступность и соответствуя производительности текущих передовых методов, раскрывая при этом ранее неизвестные детали. Второй вклад демонстрирует, что генерация изображений без вложений с использованием битовых токенов достигает нового рекорда FID в 1,52 на базе данных ImageNet 256x256, с компактной моделью генератора всего 305 миллионов параметров.
English
Masked transformer models for class-conditional image generation have become
a compelling alternative to diffusion models. Typically comprising two stages -
an initial VQGAN model for transitioning between latent space and image space,
and a subsequent Transformer model for image generation within latent space -
these frameworks offer promising avenues for image synthesis. In this study, we
present two primary contributions: Firstly, an empirical and systematic
examination of VQGANs, leading to a modernized VQGAN. Secondly, a novel
embedding-free generation network operating directly on bit tokens - a binary
quantized representation of tokens with rich semantics. The first contribution
furnishes a transparent, reproducible, and high-performing VQGAN model,
enhancing accessibility and matching the performance of current
state-of-the-art methods while revealing previously undisclosed details. The
second contribution demonstrates that embedding-free image generation using bit
tokens achieves a new state-of-the-art FID of 1.52 on the ImageNet 256x256
benchmark, with a compact generator model of mere 305M parameters.Summary
AI-Generated Summary