ChatPaper.aiChatPaper

BitDance : Mise à l'échelle de modèles génératifs autorégressifs avec des jetons binaires

BitDance: Scaling Autoregressive Generative Models with Binary Tokens

February 15, 2026
papers.authors: Yuang Ai, Jiaming Han, Shaobin Zhuang, Weijia Mao, Xuefeng Hu, Ziyan Yang, Zhenheng Yang, Huaibo Huang, Xiangyu Yue, Hao Chen
cs.AI

papers.abstract

Nous présentons BitDance, un générateur d'images autorégressif (AR) évolutif qui prédit des jetons visuels binaires au lieu d'indices de codebook. Grâce à des latents binaires à haute entropie, BitDance permet à chaque jeton de représenter jusqu'à 2^{256} états, produisant une représentation discrète compacte mais très expressive. L'échantillonnage dans un espace de jetons aussi vaste est difficile avec une classification standard. Pour résoudre ce problème, BitDance utilise une tête de diffusion binaire : au lieu de prédire un indice avec softmax, il emploie une diffusion dans l'espace continu pour générer les jetons binaires. De plus, nous proposons la diffusion par patch suivant, une nouvelle méthode de décodage qui prédit plusieurs jetons en parallèle avec une grande précision, accélérant considérablement l'inférence. Sur ImageNet 256x256, BitDance atteint un FID de 1,24, le meilleur résultat parmi les modèles AR. Avec la diffusion par patch suivant, BitDance surpasse les modèles AR parallèles de pointe utilisant 1,4 milliard de paramètres, tout en utilisant 5,4 fois moins de paramètres (260 millions) et en obtenant une accélération de 8,7 fois. Pour la génération texte-image, BitDance s'entraîne sur des jetons multimodaux à grande échelle et génère efficacement des images haute résolution et photoréalistes, montrant de solides performances et une bonne capacité d'évolution. Lors de la génération d'images 1024x1024, BitDance atteint une accélération de plus de 30 fois par rapport aux modèles AR précédents. Nous publions le code et les modèles pour faciliter la recherche future sur les modèles de fondation AR. Le code et les modèles sont disponibles à l'adresse : https://github.com/shallowdream204/BitDance.
English
We present BitDance, a scalable autoregressive (AR) image generator that predicts binary visual tokens instead of codebook indices. With high-entropy binary latents, BitDance lets each token represent up to 2^{256} states, yielding a compact yet highly expressive discrete representation. Sampling from such a huge token space is difficult with standard classification. To resolve this, BitDance uses a binary diffusion head: instead of predicting an index with softmax, it employs continuous-space diffusion to generate the binary tokens. Furthermore, we propose next-patch diffusion, a new decoding method that predicts multiple tokens in parallel with high accuracy, greatly speeding up inference. On ImageNet 256x256, BitDance achieves an FID of 1.24, the best among AR models. With next-patch diffusion, BitDance beats state-of-the-art parallel AR models that use 1.4B parameters, while using 5.4x fewer parameters (260M) and achieving 8.7x speedup. For text-to-image generation, BitDance trains on large-scale multimodal tokens and generates high-resolution, photorealistic images efficiently, showing strong performance and favorable scaling. When generating 1024x1024 images, BitDance achieves a speedup of over 30x compared to prior AR models. We release code and models to facilitate further research on AR foundation models. Code and models are available at: https://github.com/shallowdream204/BitDance.
PDF203February 18, 2026