Generazione Autoregressiva di Immagini con Modellazione Bit Mascherata

Abstract

Questo articolo mette in discussione il predominio delle pipeline continue nella generazione visiva. Investigiamo sistematicamente il divario prestazionale tra i metodi discreti e quelli continui. Contrariamente alla convinzione che i tokenizzatori discreti siano intrinsecamente inferiori, dimostriamo che la disparità deriva principalmente dal numero totale di bit allocati nello spazio latente (ovvero, il rapporto di compressione). Mostriamo che aumentare la dimensione del codebook colma efficacemente questo divario, permettendo ai tokenizzatori discreti di eguagliare o superare le loro controparti continue. Tuttavia, i metodi di generazione discreta esistenti faticano a sfruttare questa intuizione, soffrendo di un degrado delle prestazioni o di costi di training proibitivi con un codebook scalato. Per affrontare questo problema, proponiamo il *masked Bit AutoRegressive modeling* (BAR), un framework scalabile che supporta codebook di dimensioni arbitrarie. Equipaggiando un trasformatore autoregressivo con una testa di modellazione mascherata a livello di bit, BAR prevede i token discreti generando progressivamente i bit che li compongono. BAR raggiunge un nuovo stato dell'arte con un gFID di 0.99 su ImageNet-256, superando i metodi leader sia nel paradigma discreto che in quello continuo, riducendo significativamente i costi di campionamento e convergendo più velocemente rispetto ai precedenti approcci continui. La pagina del progetto è disponibile all'indirizzo https://bar-gen.github.io/.

English

This paper challenges the dominance of continuous pipelines in visual generation. We systematically investigate the performance gap between discrete and continuous methods. Contrary to the belief that discrete tokenizers are intrinsically inferior, we demonstrate that the disparity arises primarily from the total number of bits allocated in the latent space (i.e., the compression ratio). We show that scaling up the codebook size effectively bridges this gap, allowing discrete tokenizers to match or surpass their continuous counterparts. However, existing discrete generation methods struggle to capitalize on this insight, suffering from performance degradation or prohibitive training costs with scaled codebook. To address this, we propose masked Bit AutoRegressive modeling (BAR), a scalable framework that supports arbitrary codebook sizes. By equipping an autoregressive transformer with a masked bit modeling head, BAR predicts discrete tokens through progressively generating their constituent bits. BAR achieves a new state-of-the-art gFID of 0.99 on ImageNet-256, outperforming leading methods across both continuous and discrete paradigms, while significantly reducing sampling costs and converging faster than prior continuous approaches. Project page is available at https://bar-gen.github.io/

Generazione Autoregressiva di Immagini con Modellazione Bit Mascherata

Autoregressive Image Generation with Masked Bit Modeling

Abstract

Support