BitDance: Scalabilità di Modelli Generativi Autoregressivi con Token Binari

Abstract

Presentiamo BitDance, un generatore di immagini autoregressivo (AR) scalabile che predice token visivi binari invece di indici di codebook. Grazie a latenti binarie ad alta entropia, BitDance consente a ciascun token di rappresentare fino a 2^{256} stati, producendo una rappresentazione discreta compatta ma altamente espressiva. Il campionamento da uno spazio di token così vasto è difficile con la classificazione standard. Per risolvere questo problema, BitDance utilizza una testa di diffusione binaria: invece di predire un indice con softmax, impiega la diffusione in spazio continuo per generare i token binari. Inoltre, proponiamo la next-patch diffusion, un nuovo metodo di decodifica che predice più token in parallelo con alta accuratezza, accelerando notevolmente l'inferenza. Su ImageNet 256x256, BitDance raggiunge un FID di 1.24, il migliore tra i modelli AR. Con la next-patch diffusion, BitDance supera i modelli AR paralleli all'avanguardia che utilizzano 1.4 miliardi di parametri, impiegando 5.4 volte meno parametri (260 milioni) e ottenendo un'accelerazione di 8.7 volte. Per la generazione di immagini da testo, BitDance si allena su token multimodali su larga scala e genera efficientemente immagini ad alta risoluzione e fotorealistiche, dimostrando prestazioni solide e una scalabilità favorevole. Nella generazione di immagini 1024x1024, BitDance raggiunge un'accelerazione di oltre 30 volte rispetto ai precedenti modelli AR. Rilasciamo codice e modelli per facilitare ulteriori ricerche sui modelli di base AR. Codice e modelli sono disponibili su: https://github.com/shallowdream204/BitDance.

English

We present BitDance, a scalable autoregressive (AR) image generator that predicts binary visual tokens instead of codebook indices. With high-entropy binary latents, BitDance lets each token represent up to 2^{256} states, yielding a compact yet highly expressive discrete representation. Sampling from such a huge token space is difficult with standard classification. To resolve this, BitDance uses a binary diffusion head: instead of predicting an index with softmax, it employs continuous-space diffusion to generate the binary tokens. Furthermore, we propose next-patch diffusion, a new decoding method that predicts multiple tokens in parallel with high accuracy, greatly speeding up inference. On ImageNet 256x256, BitDance achieves an FID of 1.24, the best among AR models. With next-patch diffusion, BitDance beats state-of-the-art parallel AR models that use 1.4B parameters, while using 5.4x fewer parameters (260M) and achieving 8.7x speedup. For text-to-image generation, BitDance trains on large-scale multimodal tokens and generates high-resolution, photorealistic images efficiently, showing strong performance and favorable scaling. When generating 1024x1024 images, BitDance achieves a speedup of over 30x compared to prior AR models. We release code and models to facilitate further research on AR foundation models. Code and models are available at: https://github.com/shallowdream204/BitDance.

BitDance: Scalabilità di Modelli Generativi Autoregressivi con Token Binari

BitDance: Scaling Autoregressive Generative Models with Binary Tokens

Abstract

Support