ChatPaper.aiChatPaper

BitDance: Skalierung autoregressiver generativer Modelle mit binären Tokens

BitDance: Scaling Autoregressive Generative Models with Binary Tokens

February 15, 2026
papers.authors: Yuang Ai, Jiaming Han, Shaobin Zhuang, Weijia Mao, Xuefeng Hu, Ziyan Yang, Zhenheng Yang, Huaibo Huang, Xiangyu Yue, Hao Chen
cs.AI

papers.abstract

Wir stellen BitDance vor, einen skalierbaren autoregressiven (AR) Bildgenerator, der binäre visuelle Token anstelle von Codebook-Indizes vorhersagt. Durch hoch-entropische binäre Latents ermöglicht BitDance jedem Token, bis zu 2^{256} Zustände darzustellen, was eine kompakte und dennoch hochgradig expressive diskrete Repräsentation ergibt. Die Stichprobenentnahme aus einem derart großen Token-Raum ist mit Standard-Klassifikation schwierig. Um dies zu lösen, verwendet BitDance einen binären Diffusionskopf: Anstatt einen Index mit Softmax vorherzusagen, setzt es Continuous-Space-Diffusion ein, um die binären Token zu generieren. Darüber hinaus schlagen wir Next-Patch-Diffusion vor, eine neue Decodier-Methode, die mehrere Token parallel mit hoher Genauigkeit vorhersagt und die Inferenz erheblich beschleunigt. Auf ImageNet 256x256 erreicht BitDance einen FID von 1,24, den besten Wert unter AR-Modellen. Mit Next-Patch-Diffusion übertrifft BitDance state-of-the-art parallele AR-Modelle, die 1,4B Parameter verwenden, während es 5,4x weniger Parameter (260M) benötigt und eine 8,7x Beschleunigung erreicht. Für die Text-zu-Bild-Generierung trainiert BitDance auf großskaligen multimodalen Token und erzeugt effizient hochauflösende, fotorealistische Bilder, was starke Leistung und günstige Skalierbarkeit zeigt. Bei der Generierung von 1024x1024 Bildern erreicht BitDance eine Beschleunigung von über 30x im Vergleich zu früheren AR-Modellen. Wir veröffentlichen Code und Modelle, um weitere Forschung zu AR-Foundation-Models zu erleichtern. Code und Modelle sind verfügbar unter: https://github.com/shallowdream204/BitDance.
English
We present BitDance, a scalable autoregressive (AR) image generator that predicts binary visual tokens instead of codebook indices. With high-entropy binary latents, BitDance lets each token represent up to 2^{256} states, yielding a compact yet highly expressive discrete representation. Sampling from such a huge token space is difficult with standard classification. To resolve this, BitDance uses a binary diffusion head: instead of predicting an index with softmax, it employs continuous-space diffusion to generate the binary tokens. Furthermore, we propose next-patch diffusion, a new decoding method that predicts multiple tokens in parallel with high accuracy, greatly speeding up inference. On ImageNet 256x256, BitDance achieves an FID of 1.24, the best among AR models. With next-patch diffusion, BitDance beats state-of-the-art parallel AR models that use 1.4B parameters, while using 5.4x fewer parameters (260M) and achieving 8.7x speedup. For text-to-image generation, BitDance trains on large-scale multimodal tokens and generates high-resolution, photorealistic images efficiently, showing strong performance and favorable scaling. When generating 1024x1024 images, BitDance achieves a speedup of over 30x compared to prior AR models. We release code and models to facilitate further research on AR foundation models. Code and models are available at: https://github.com/shallowdream204/BitDance.
PDF203February 18, 2026