ChatPaper.aiChatPaper

Generación Autoregresiva de Imágenes con Modelado de Bits Enmascarados

Autoregressive Image Generation with Masked Bit Modeling

February 9, 2026
Autores: Qihang Yu, Qihao Liu, Ju He, Xinyang Zhang, Yang Liu, Liang-Chieh Chen, Xi Chen
cs.AI

Resumen

Este artículo cuestiona el predominio de los modelos de pipeline continuos en la generación visual. Investigamos sistemáticamente la brecha de rendimiento entre los métodos discretos y continuos. Contrario a la creencia de que los tokenizadores discretos son intrínsecamente inferiores, demostramos que la disparidad surge principalmente del número total de bits asignados en el espacio latente (es decir, la tasa de compresión). Mostramos que escalar el tamaño del codebook permite cerrar esta brecha eficazmente, permitiendo que los tokenizadores discretos igualen o superen a sus contrapartes continuas. Sin embargo, los métodos de generación discreta existentes tienen dificultades para capitalizar este hallazgo, sufriendo de degradación en el rendimiento o costos de entrenamiento prohibitivos con un codebook escalado. Para abordar esto, proponemos el modelado autoregresivo de bits enmascarados (BAR, por sus siglas en inglés), un marco escalable que admite tamaños de codebook arbitrarios. Al equipar un transformador autoregresivo con una cabeza de modelado de bits enmascarados, BAR predice tokens discretos mediante la generación progresiva de sus bits constituyentes. BAR logra un nuevo estado del arte con un gFID de 0.99 en ImageNet-256, superando a los métodos líderes en los paradigmas continuo y discreto, a la vez que reduce significativamente los costos de muestreo y converge más rápido que los enfoques continuos anteriores. La página del proyecto está disponible en https://bar-gen.github.io/
English
This paper challenges the dominance of continuous pipelines in visual generation. We systematically investigate the performance gap between discrete and continuous methods. Contrary to the belief that discrete tokenizers are intrinsically inferior, we demonstrate that the disparity arises primarily from the total number of bits allocated in the latent space (i.e., the compression ratio). We show that scaling up the codebook size effectively bridges this gap, allowing discrete tokenizers to match or surpass their continuous counterparts. However, existing discrete generation methods struggle to capitalize on this insight, suffering from performance degradation or prohibitive training costs with scaled codebook. To address this, we propose masked Bit AutoRegressive modeling (BAR), a scalable framework that supports arbitrary codebook sizes. By equipping an autoregressive transformer with a masked bit modeling head, BAR predicts discrete tokens through progressively generating their constituent bits. BAR achieves a new state-of-the-art gFID of 0.99 on ImageNet-256, outperforming leading methods across both continuous and discrete paradigms, while significantly reducing sampling costs and converging faster than prior continuous approaches. Project page is available at https://bar-gen.github.io/
PDF41February 12, 2026