BitDance: Het Opschalen van Autoregressieve Generatieve Modellen met Binaire Tokens

Samenvatting

Wij presenteren BitDance, een schaalbare autoregressieve (AR) afbeeldingsgenerator die binaire visuele tokens voorspelt in plaats van codeboekindices. Dankzij latente representaties met hoge entropie kan elk token in BitDance tot 2^{256} toestanden vertegenwoordigen, wat resulteert in een compacte doch zeer expressieve discrete representatie. Het bemonsteren van zo’n enorme tokenruimte is lastig met standaard classificatie. Om dit op te lossen gebruikt BitDance een binaire diffusiekop: in plaats van een index te voorspellen met softmax, zet het continue-ruimtediffusie in om de binaire tokens te genereren. Verder introduceren wij next-patch diffusie, een nieuwe decodeermethode die meerdere tokens parallel met hoge nauwkeurigheid voorspelt, waardoor de inferentie aanzienlijk versnelt. Op ImageNet 256x256 behaalt BitDance een FID van 1.24, de beste score onder AR-modellen. Met next-patch diffusie overtreft BitDance state-of-the-art parallelle AR-modellen die 1,4B parameters gebruiken, terwijl het 5,4x minder parameters (260M) gebruikt en een 8,7x snelheidswinst realiseert. Voor tekst-naar-afbeelding generatie traint BitDance op grootschalige multimodale tokens en genereert het efficiënt hoogwaardige, fotorealistische afbeeldingen met sterke prestaties en gunstige schaalbaarheid. Bij het genereren van 1024x1024 afbeeldingen behaalt BitDance een versnelling van meer dan 30x vergeleken met eerdere AR-modellen. Wij publiceren code en modellen om verder onderzoek naar AR-foundationmodellen te vergemakkelijken. Code en modellen zijn beschikbaar op: https://github.com/shallowdream204/BitDance.

English

We present BitDance, a scalable autoregressive (AR) image generator that predicts binary visual tokens instead of codebook indices. With high-entropy binary latents, BitDance lets each token represent up to 2^{256} states, yielding a compact yet highly expressive discrete representation. Sampling from such a huge token space is difficult with standard classification. To resolve this, BitDance uses a binary diffusion head: instead of predicting an index with softmax, it employs continuous-space diffusion to generate the binary tokens. Furthermore, we propose next-patch diffusion, a new decoding method that predicts multiple tokens in parallel with high accuracy, greatly speeding up inference. On ImageNet 256x256, BitDance achieves an FID of 1.24, the best among AR models. With next-patch diffusion, BitDance beats state-of-the-art parallel AR models that use 1.4B parameters, while using 5.4x fewer parameters (260M) and achieving 8.7x speedup. For text-to-image generation, BitDance trains on large-scale multimodal tokens and generates high-resolution, photorealistic images efficiently, showing strong performance and favorable scaling. When generating 1024x1024 images, BitDance achieves a speedup of over 30x compared to prior AR models. We release code and models to facilitate further research on AR foundation models. Code and models are available at: https://github.com/shallowdream204/BitDance.

BitDance: Het Opschalen van Autoregressieve Generatieve Modellen met Binaire Tokens

BitDance: Scaling Autoregressive Generative Models with Binary Tokens

Samenvatting

Support