ChatPaper.aiChatPaper

Génération d'images autorégressive par modélisation de bits masqués

Autoregressive Image Generation with Masked Bit Modeling

February 9, 2026
papers.authors: Qihang Yu, Qihao Liu, Ju He, Xinyang Zhang, Yang Liu, Liang-Chieh Chen, Xi Chen
cs.AI

papers.abstract

Ce document remet en question la domination des pipelines continus dans la génération visuelle. Nous étudions systématiquement l'écart de performance entre les méthodes discrètes et continues. Contrairement à la croyance selon laquelle les tokeniseurs discrets sont intrinsèquement inférieurs, nous démontrons que la disparité provient principalement du nombre total de bits alloués dans l'espace latent (c'est-à-dire le taux de compression). Nous montrons qu'augmenter la taille du codebook permet de combler efficacement cet écart, permettant aux tokeniseurs discrets d'égaler ou de surpasser leurs équivalents continus. Cependant, les méthodes de génération discrètes existantes peinent à tirer parti de cette idée, souffrant d'une dégradation des performances ou de coûts d'entraînement prohibitifs avec un codebook augmenté. Pour résoudre ce problème, nous proposons le modèle auto-régressif masqué sur les bits (BAR), un cadre évolutif qui prend en charge des tailles de codebook arbitraires. En équipant un transformeur auto-régressif d'une tête de modélisation masquée des bits, BAR prédit les tokens discrets en générant progressivement leurs bits constitutifs. BAR atteint un nouveau state-of-the-art avec un gFID de 0,99 sur ImageNet-256, surpassant les méthodes leaders des paradigmes continus et discrets, tout en réduisant significativement les coûts d'échantillonnage et en convergeant plus rapidement que les approches continues précédentes. La page du projet est disponible à l'adresse https://bar-gen.github.io/
English
This paper challenges the dominance of continuous pipelines in visual generation. We systematically investigate the performance gap between discrete and continuous methods. Contrary to the belief that discrete tokenizers are intrinsically inferior, we demonstrate that the disparity arises primarily from the total number of bits allocated in the latent space (i.e., the compression ratio). We show that scaling up the codebook size effectively bridges this gap, allowing discrete tokenizers to match or surpass their continuous counterparts. However, existing discrete generation methods struggle to capitalize on this insight, suffering from performance degradation or prohibitive training costs with scaled codebook. To address this, we propose masked Bit AutoRegressive modeling (BAR), a scalable framework that supports arbitrary codebook sizes. By equipping an autoregressive transformer with a masked bit modeling head, BAR predicts discrete tokens through progressively generating their constituent bits. BAR achieves a new state-of-the-art gFID of 0.99 on ImageNet-256, outperforming leading methods across both continuous and discrete paradigms, while significantly reducing sampling costs and converging faster than prior continuous approaches. Project page is available at https://bar-gen.github.io/
PDF41February 12, 2026