BitDance: Escalando Modelos Generativos Autoregresivos con Tokens Binarios
BitDance: Scaling Autoregressive Generative Models with Binary Tokens
February 15, 2026
Autores: Yuang Ai, Jiaming Han, Shaobin Zhuang, Weijia Mao, Xuefeng Hu, Ziyan Yang, Zhenheng Yang, Huaibo Huang, Xiangyu Yue, Hao Chen
cs.AI
Resumen
Presentamos BitDance, un generador de imágenes autoregresivo (AR) escalable que predice tokens visuales binarios en lugar de índices de codebook. Con latentes binarios de alta entropía, BitDance permite que cada token represente hasta 2^{256} estados, produciendo una representación discreta compacta pero altamente expresiva. El muestreo de un espacio de tokens tan enorme es difícil con la clasificación estándar. Para resolver esto, BitDance utiliza un cabezal de difusión binario: en lugar de predecir un índice con softmax, emplea difusión en espacio continuo para generar los tokens binarios. Además, proponemos la difusión de siguiente-parche (next-patch diffusion), un nuevo método de decodificación que predice múltiples tokens en paralelo con alta precisión, acelerando enormemente la inferencia. En ImageNet 256x256, BitDance logra un FID de 1.24, el mejor entre los modelos AR. Con la difusión de siguiente-parche, BitDance supera a los modelos AR paralelos de última generación que utilizan 1.4B parámetros, mientras emplea 5.4 veces menos parámetros (260M) y logra una aceleración de 8.7x. Para la generación de texto a imagen, BitDance se entrena con tokens multimodales a gran escala y genera imágenes de alta resolución y fotorrealistas de manera eficiente, mostrando un rendimiento sólido y una escalabilidad favorable. Al generar imágenes de 1024x1024, BitDance logra una aceleración de más de 30x en comparación con modelos AR anteriores. Liberamos el código y los modelos para facilitar futuras investigaciones sobre modelos base AR. El código y los modelos están disponibles en: https://github.com/shallowdream204/BitDance.
English
We present BitDance, a scalable autoregressive (AR) image generator that predicts binary visual tokens instead of codebook indices. With high-entropy binary latents, BitDance lets each token represent up to 2^{256} states, yielding a compact yet highly expressive discrete representation. Sampling from such a huge token space is difficult with standard classification. To resolve this, BitDance uses a binary diffusion head: instead of predicting an index with softmax, it employs continuous-space diffusion to generate the binary tokens. Furthermore, we propose next-patch diffusion, a new decoding method that predicts multiple tokens in parallel with high accuracy, greatly speeding up inference. On ImageNet 256x256, BitDance achieves an FID of 1.24, the best among AR models. With next-patch diffusion, BitDance beats state-of-the-art parallel AR models that use 1.4B parameters, while using 5.4x fewer parameters (260M) and achieving 8.7x speedup. For text-to-image generation, BitDance trains on large-scale multimodal tokens and generates high-resolution, photorealistic images efficiently, showing strong performance and favorable scaling. When generating 1024x1024 images, BitDance achieves a speedup of over 30x compared to prior AR models. We release code and models to facilitate further research on AR foundation models. Code and models are available at: https://github.com/shallowdream204/BitDance.