Autoregressive Bildgenerierung mit Masked Bit Modeling
Autoregressive Image Generation with Masked Bit Modeling
February 9, 2026
papers.authors: Qihang Yu, Qihao Liu, Ju He, Xinyang Zhang, Yang Liu, Liang-Chieh Chen, Xi Chen
cs.AI
papers.abstract
Dieses Papier hinterfragt die Dominanz kontinuierlicher Pipelines in der visuellen Generierung. Wir untersuchen systematisch die Leistungslücke zwischen diskreten und kontinuierlichen Methoden. Entgegen der Annahme, dass diskrete Tokenizer von Natur aus unterlegen seien, zeigen wir, dass die Diskrepanz hauptsächlich von der Gesamtzahl der im latenten Raum zugewiesenen Bits (d. h. dem Kompressionsverhältnis) herrührt. Wir demonstrieren, dass eine Skalierung der Codebook-Größe diese Lücke effektiv schließt und es diskreten Tokenizern ermöglicht, mit ihren kontinuierlichen Gegenstücken gleichzuziehen oder diese zu übertreffen. Bestehende diskrete Generierungsmethoden können diese Erkenntnis jedoch nicht nutzbar machen, da sie unter Leistungseinbußen oder prohibitiv hohen Trainingskosten bei skaliertem Codebook leiden. Um dieses Problem zu adressieren, schlagen wir maskiertes Bit-Autoregressives Modellieren (BAR) vor, einen skalierbaren Rahmen, der beliebige Codebook-Größen unterstützt. Indem ein autoregressiver Transformer mit einem Masked-Bit-Modelling-Head ausgestattet wird, sagt BAR diskrete Tokens durch das schrittweise Generieren ihrer konstituierenden Bits vorher. BAR erreicht einen neuen state-of-the-art gFID-Wert von 0,99 auf ImageNet-256 und übertrifft damit führende Methoden sowohl aus dem kontinuierlichen als auch dem diskreten Paradigma, während gleichzeitig die Abtastkosten signifikant gesenkt und eine schnellere Konvergenz als bei früheren kontinuierlichen Ansätzen erzielt wird. Die Projektseite ist unter https://bar-gen.github.io/ verfügbar.
English
This paper challenges the dominance of continuous pipelines in visual generation. We systematically investigate the performance gap between discrete and continuous methods. Contrary to the belief that discrete tokenizers are intrinsically inferior, we demonstrate that the disparity arises primarily from the total number of bits allocated in the latent space (i.e., the compression ratio). We show that scaling up the codebook size effectively bridges this gap, allowing discrete tokenizers to match or surpass their continuous counterparts. However, existing discrete generation methods struggle to capitalize on this insight, suffering from performance degradation or prohibitive training costs with scaled codebook. To address this, we propose masked Bit AutoRegressive modeling (BAR), a scalable framework that supports arbitrary codebook sizes. By equipping an autoregressive transformer with a masked bit modeling head, BAR predicts discrete tokens through progressively generating their constituent bits. BAR achieves a new state-of-the-art gFID of 0.99 on ImageNet-256, outperforming leading methods across both continuous and discrete paradigms, while significantly reducing sampling costs and converging faster than prior continuous approaches. Project page is available at https://bar-gen.github.io/