BitDance: バイナリトークンによる自己回帰生成モデルのスケーリング
BitDance: Scaling Autoregressive Generative Models with Binary Tokens
February 15, 2026
著者: Yuang Ai, Jiaming Han, Shaobin Zhuang, Weijia Mao, Xuefeng Hu, Ziyan Yang, Zhenheng Yang, Huaibo Huang, Xiangyu Yue, Hao Chen
cs.AI
要旨
本論文では、コードブックインデックスの代わりに二値ビジュアルトークンを予測するスケーラブルな自己回帰(AR)画像生成モデルBitDanceを提案する。高エントロピーな二値潜在変数を用いることで、BitDanceは各トークンが最大2^{256}の状態を表現可能とし、コンパクトでありながら高い表現力を持つ離散表現を実現する。この巨大なトークン空間からのサンプリングは、従来の分類手法では困難である。この課題を解決するため、BitDanceは二値拡散ヘッドを採用する:ソフトマックスによるインデックス予測の代わりに、連続空間拡散を用いて二値トークンを生成する。さらに、複数のトークンを高精度で並列予測する新しいデコーディング手法であるnext-patch diffusionを提案し、推論速度を大幅に向上させる。ImageNet 256x256において、BitDanceはFID 1.24を達成し、ARモデルの中で最高性能を示す。next-patch diffusionを用いることで、BitDanceは14億パラメータを使用する最先端の並列ARモデルを、5.4倍少ないパラメータ数(2億6千万)で凌駕し、8.7倍の高速化を実現する。テキストから画像への生成においては、大規模マルチモーダルトークンで学習し、高解像度で写実的な画像を効率的に生成し、優れた性能と良好なスケーリング特性を示す。1024x1024画像生成時には、従来のARモデルと比較して30倍以上の高速化を達成する。AR基盤モデルの研究促進のため、コードとモデルを公開する。コードとモデルは以下で入手可能:https://github.com/shallowdream204/BitDance。
English
We present BitDance, a scalable autoregressive (AR) image generator that predicts binary visual tokens instead of codebook indices. With high-entropy binary latents, BitDance lets each token represent up to 2^{256} states, yielding a compact yet highly expressive discrete representation. Sampling from such a huge token space is difficult with standard classification. To resolve this, BitDance uses a binary diffusion head: instead of predicting an index with softmax, it employs continuous-space diffusion to generate the binary tokens. Furthermore, we propose next-patch diffusion, a new decoding method that predicts multiple tokens in parallel with high accuracy, greatly speeding up inference. On ImageNet 256x256, BitDance achieves an FID of 1.24, the best among AR models. With next-patch diffusion, BitDance beats state-of-the-art parallel AR models that use 1.4B parameters, while using 5.4x fewer parameters (260M) and achieving 8.7x speedup. For text-to-image generation, BitDance trains on large-scale multimodal tokens and generates high-resolution, photorealistic images efficiently, showing strong performance and favorable scaling. When generating 1024x1024 images, BitDance achieves a speedup of over 30x compared to prior AR models. We release code and models to facilitate further research on AR foundation models. Code and models are available at: https://github.com/shallowdream204/BitDance.