MaskBit: Генерация изображений без встраивания через битовые токены

Аннотация

Маскированные модели трансформера для генерации изображений с условием класса стали привлекательной альтернативой моделям диффузии. Обычно они состоят из двух этапов: начальная модель VQGAN для перехода между латентным пространством и пространством изображений, а затем модель трансформера для генерации изображений внутри латентного пространства. Эти фреймворки предлагают многообещающие пути для синтеза изображений. В данном исследовании мы представляем два основных вклада: Во-первых, эмпирическое и систематическое изучение VQGAN, приводящее к современному VQGAN. Во-вторых, новая сеть генерации без вложений, работающая непосредственно с битовыми токенами - бинарным квантованным представлением токенов с богатой семантикой. Первый вклад предоставляет прозрачную, воспроизводимую и высокопроизводительную модель VQGAN, улучшая доступность и соответствуя производительности текущих передовых методов, раскрывая при этом ранее неизвестные детали. Второй вклад демонстрирует, что генерация изображений без вложений с использованием битовых токенов достигает нового рекорда FID в 1,52 на базе данных ImageNet 256x256, с компактной моделью генератора всего 305 миллионов параметров.

English

Masked transformer models for class-conditional image generation have become a compelling alternative to diffusion models. Typically comprising two stages - an initial VQGAN model for transitioning between latent space and image space, and a subsequent Transformer model for image generation within latent space - these frameworks offer promising avenues for image synthesis. In this study, we present two primary contributions: Firstly, an empirical and systematic examination of VQGANs, leading to a modernized VQGAN. Secondly, a novel embedding-free generation network operating directly on bit tokens - a binary quantized representation of tokens with rich semantics. The first contribution furnishes a transparent, reproducible, and high-performing VQGAN model, enhancing accessibility and matching the performance of current state-of-the-art methods while revealing previously undisclosed details. The second contribution demonstrates that embedding-free image generation using bit tokens achieves a new state-of-the-art FID of 1.52 on the ImageNet 256x256 benchmark, with a compact generator model of mere 305M parameters.

MaskBit: Генерация изображений без встраивания через битовые токены

MaskBit: Embedding-free Image Generation via Bit Tokens

Аннотация

Support