Geração Autoregressiva de Imagens com Modelagem de Bits Mascarados

Resumo

Este artigo desafia a dominância dos pipelines contínuos na geração visual. Investigamos sistematicamente a diferença de desempenho entre métodos discretos e contínuos. Contrariamente à crença de que os tokenizadores discretos são intrinsecamente inferiores, demonstramos que a disparidade surge principalmente do número total de bits alocados no espaço latente (ou seja, da taxa de compressão). Mostramos que aumentar a escala do tamanho do codebook (livro de códigos) preenche efetivamente essa lacuna, permitindo que tokenizadores discretos igualem ou superem seus equivalentes contínuos. No entanto, os métodos de geração discreta existentes lutam para capitalizar esse insight, sofrendo com degradação de desempenho ou custos proibitivos de treinamento com o codebook escalado. Para resolver isso, propomos o *masked Bit AutoRegressive modeling* (BAR), uma estrutura escalável que suporta tamanhos de codebook arbitrários. Ao equipar um transformer autorregressivo com um cabeçalho de modelagem mascarada de bits, o BAR prevê tokens discretos gerando progressivamente seus bits constituintes. O BAR alcança um novo estado da arte com gFID de 0,99 no ImageNet-256, superando os principais métodos em ambos os paradigmas, contínuo e discreto, enquanto reduz significativamente os custos de amostragem e converge mais rapidamente do que as abordagens contínuas anteriores. A página do projeto está disponível em https://bar-gen.github.io/.

English

This paper challenges the dominance of continuous pipelines in visual generation. We systematically investigate the performance gap between discrete and continuous methods. Contrary to the belief that discrete tokenizers are intrinsically inferior, we demonstrate that the disparity arises primarily from the total number of bits allocated in the latent space (i.e., the compression ratio). We show that scaling up the codebook size effectively bridges this gap, allowing discrete tokenizers to match or surpass their continuous counterparts. However, existing discrete generation methods struggle to capitalize on this insight, suffering from performance degradation or prohibitive training costs with scaled codebook. To address this, we propose masked Bit AutoRegressive modeling (BAR), a scalable framework that supports arbitrary codebook sizes. By equipping an autoregressive transformer with a masked bit modeling head, BAR predicts discrete tokens through progressively generating their constituent bits. BAR achieves a new state-of-the-art gFID of 0.99 on ImageNet-256, outperforming leading methods across both continuous and discrete paradigms, while significantly reducing sampling costs and converging faster than prior continuous approaches. Project page is available at https://bar-gen.github.io/

Geração Autoregressiva de Imagens com Modelagem de Bits Mascarados

Autoregressive Image Generation with Masked Bit Modeling

Resumo

Support