Autoregressieve Beeldgeneratie met Gemaskeerd Bitmodel

Samenvatting

Dit artikel daagt de dominantie van continue pijplijnen in visuele generatie uit. Wij onderzoeken systematisch de prestatiekloof tussen discrete en continue methoden. In tegenstelling tot de heersende opvatting dat discrete tokenizers intrinsiek inferieur zijn, tonen wij aan dat de discrepantie primair ontstaat door het totale aantal bits dat in de latente ruimte wordt toegewezen (d.w.z. de compressieratio). Wij laten zien dat het opschalen van de codeboekgrootte deze kloof effectief overbrugt, waardoor discrete tokenizers hun continue tegenhangers evenaren of overtreffen. Echter, bestaande discrete generatiemethoden slagen er niet in om dit inzicht te benutten; zij lijden onder prestatieverlies of onbetaalbare trainingskosten bij een opgeschaald codeboek. Om dit aan te pakken, stellen wij gemaskeerd Bit AutoRegressief modelleren (BAR) voor, een schaalbaar raamwerk dat willekeurige codeboekgroottes ondersteunt. Door een autoregressieve transformer uit te rusten met een gemaskeerde bit-modelleerkop, voorspelt BAR discrete tokens door hun samenstellende bits progressief te genereren. BAR behaalt een nieuwe state-of-the-art gFID van 0.99 op ImageNet-256, presteert beter dan toonaangevende methoden binnen zowel continue als discrete paradigma's, en vermindert tegelijkertijd de steekproefkosten aanzienlijk en convergeert sneller dan eerdere continue benaderingen. De projectpagina is beschikbaar op https://bar-gen.github.io/.

English

This paper challenges the dominance of continuous pipelines in visual generation. We systematically investigate the performance gap between discrete and continuous methods. Contrary to the belief that discrete tokenizers are intrinsically inferior, we demonstrate that the disparity arises primarily from the total number of bits allocated in the latent space (i.e., the compression ratio). We show that scaling up the codebook size effectively bridges this gap, allowing discrete tokenizers to match or surpass their continuous counterparts. However, existing discrete generation methods struggle to capitalize on this insight, suffering from performance degradation or prohibitive training costs with scaled codebook. To address this, we propose masked Bit AutoRegressive modeling (BAR), a scalable framework that supports arbitrary codebook sizes. By equipping an autoregressive transformer with a masked bit modeling head, BAR predicts discrete tokens through progressively generating their constituent bits. BAR achieves a new state-of-the-art gFID of 0.99 on ImageNet-256, outperforming leading methods across both continuous and discrete paradigms, while significantly reducing sampling costs and converging faster than prior continuous approaches. Project page is available at https://bar-gen.github.io/

Autoregressieve Beeldgeneratie met Gemaskeerd Bitmodel

Autoregressive Image Generation with Masked Bit Modeling

Samenvatting

Support