BitDance: Escalonando Modelos Generativos Autoregressivos com Tokens Binários

Resumo

Apresentamos o BitDance, um gerador de imagens autorregressivo (AR) escalável que prevê *tokens* visuais binários em vez de índices de codebook. Com latentes binários de alta entropia, o BitDance permite que cada *token* represente até 2^{256} estados, resultando numa representação discreta compacta e altamente expressiva. A amostragem de um espaço de *tokens* tão vasto é difícil com a classificação padrão. Para resolver isto, o BitDance utiliza um cabeçalho de difusão binária: em vez de prever um índice com *softmax*, emprega difusão em espaço contínuo para gerar os *tokens* binários. Adicionalmente, propomos a difusão de *next-patch*, um novo método de descodificação que prevê múltiplos *tokens* em paralelo com alta precisão, acelerando significativamente a inferência. No ImageNet 256x256, o BitDance alcança um FID de 1.24, o melhor entre os modelos AR. Com a difusão de *next-patch*, o BitDance supera os modelos AR paralelos de última geração que usam 1,4B de parâmetros, utilizando 5,4x menos parâmetros (260M) e alcançando uma aceleração de 8,7x. Para geração de texto-para-imagem, o BitDance treina-se em *tokens* multimodais de grande escala e gera imagens de alta resolução e fotorrealistas de forma eficiente, demonstrando um desempenho robusto e uma escalabilidade favorável. Ao gerar imagens 1024x1024, o BitDance alcança uma aceleração superior a 30x em comparação com modelos AR anteriores. Disponibilizamos código e modelos para facilitar investigação futura sobre modelos de base AR. O código e os modelos estão disponíveis em: https://github.com/shallowdream204/BitDance.

English

We present BitDance, a scalable autoregressive (AR) image generator that predicts binary visual tokens instead of codebook indices. With high-entropy binary latents, BitDance lets each token represent up to 2^{256} states, yielding a compact yet highly expressive discrete representation. Sampling from such a huge token space is difficult with standard classification. To resolve this, BitDance uses a binary diffusion head: instead of predicting an index with softmax, it employs continuous-space diffusion to generate the binary tokens. Furthermore, we propose next-patch diffusion, a new decoding method that predicts multiple tokens in parallel with high accuracy, greatly speeding up inference. On ImageNet 256x256, BitDance achieves an FID of 1.24, the best among AR models. With next-patch diffusion, BitDance beats state-of-the-art parallel AR models that use 1.4B parameters, while using 5.4x fewer parameters (260M) and achieving 8.7x speedup. For text-to-image generation, BitDance trains on large-scale multimodal tokens and generates high-resolution, photorealistic images efficiently, showing strong performance and favorable scaling. When generating 1024x1024 images, BitDance achieves a speedup of over 30x compared to prior AR models. We release code and models to facilitate further research on AR foundation models. Code and models are available at: https://github.com/shallowdream204/BitDance.

BitDance: Escalonando Modelos Generativos Autoregressivos com Tokens Binários

BitDance: Scaling Autoregressive Generative Models with Binary Tokens

Resumo

Support