Авторегрессионное генерирование изображений с помощью маскированного битового моделирования
Autoregressive Image Generation with Masked Bit Modeling
February 9, 2026
Авторы: Qihang Yu, Qihao Liu, Ju He, Xinyang Zhang, Yang Liu, Liang-Chieh Chen, Xi Chen
cs.AI
Аннотация
В данной статье оспаривается доминирование непрерывных конвейеров в задачах визуальной генерации. Мы проводим систематическое исследование разрыва в производительности между дискретными и непрерывными методами. Вопреки распространенному мнению о внутренней неполноценности дискретных токенизаторов, мы показываем, что это расхождение в основном обусловлено общим количеством бит, выделяемых в латентном пространстве (т.е. степенью сжатия). Мы демонстрируем, что увеличение размера кодбука эффективно устраняет данный разрыв, позволяя дискретным токенизаторам сравниться или превзойти непрерывные аналоги. Однако существующие методы дискретной генерации не могут воспользоваться этим преимуществом, сталкиваясь с деградацией производительности или непомерными вычислительными затратами при масштабировании кодбука. Для решения этой проблемы мы предлагаем маскированное битовое авторегрессионное моделирование (BAR) — масштабируемую архитектуру, поддерживающую произвольные размеры кодбука. Оснастив авторегрессионный трансформер головой с маскированным битовым моделированием, BAR предсказывает дискретные токены через постепенную генерацию составляющих их битов. BAR устанавливает новый рекорд gFID 0.99 на ImageNet-256, превосходя ведущие методы как в непрерывной, так и в дискретной парадигмах, при этом значительно сокращая стоимость генерации и сходясь быстрее, чем предыдущие непрерывные подходы. Страница проекта доступна по адресу https://bar-gen.github.io/
English
This paper challenges the dominance of continuous pipelines in visual generation. We systematically investigate the performance gap between discrete and continuous methods. Contrary to the belief that discrete tokenizers are intrinsically inferior, we demonstrate that the disparity arises primarily from the total number of bits allocated in the latent space (i.e., the compression ratio). We show that scaling up the codebook size effectively bridges this gap, allowing discrete tokenizers to match or surpass their continuous counterparts. However, existing discrete generation methods struggle to capitalize on this insight, suffering from performance degradation or prohibitive training costs with scaled codebook. To address this, we propose masked Bit AutoRegressive modeling (BAR), a scalable framework that supports arbitrary codebook sizes. By equipping an autoregressive transformer with a masked bit modeling head, BAR predicts discrete tokens through progressively generating their constituent bits. BAR achieves a new state-of-the-art gFID of 0.99 on ImageNet-256, outperforming leading methods across both continuous and discrete paradigms, while significantly reducing sampling costs and converging faster than prior continuous approaches. Project page is available at https://bar-gen.github.io/