BitDance: 이진 토큰을 활용한 자기회귀 생성 모델의 확장
BitDance: Scaling Autoregressive Generative Models with Binary Tokens
February 15, 2026
저자: Yuang Ai, Jiaming Han, Shaobin Zhuang, Weijia Mao, Xuefeng Hu, Ziyan Yang, Zhenheng Yang, Huaibo Huang, Xiangyu Yue, Hao Chen
cs.AI
초록
우리는 코드북 인덱스 대신 이진 시각 토큰을 예측하는 확장 가능한 자기회귀(AR) 이미지 생성기인 BitDance을 제안합니다. 높은 엔트로피를 지닌 이진 잠재 공간을 통해 BitDance은 각 토큰이 최대 2^{256}개의 상태를 표현할 수 있도록 하여, 압축적이면서도 매우 표현력 높은 이산 표현을 생성합니다. 이러한 방대한 토큰 공간에서 표준 분류 기법으로 샘플링하는 것은 어렵습니다. 이를 해결하기 위해 BitDance은 이진 디퓨전 헤드를 사용합니다: 소프트맥스를 통해 인덱스를 예측하는 대신, 연속 공간 디퓨전을 활용하여 이진 토큰을 생성합니다. 더 나아가, 우리는 넥스트-패치 디퓨전이라는 새로운 디코딩 방법을 제안합니다. 이 방법은 여러 토큰을 높은 정확도로 병렬 예측하여 추론 속도를 크게 향상시킵니다. ImageNet 256x256에서 BitDance은 FID 1.24를 달성하여 AR 모델 중 최고 성능을 기록했습니다. 넥스트-패치 디퓨전을 적용한 BitDance은 14억 개의 매개변수를 사용하는 최첨단 병렬 AR 모델들을 성능으로 앞지르면서, 5.4배 더 적은 매개변수(2억 6천만 개)를 사용하고 8.7배의 속도 향상을 달성했습니다. 텍스트-이미지 생성의 경우, BitDance은 대규모 다중모달 토큰에 대해 학습하여 고해상도, 사실적인 이미지를 효율적으로 생성하며, 강력한 성능과 유리한 확장성을 보여줍니다. 1024x1024 이미지를 생성할 때, BitDance은 기존 AR 모델 대비 30배 이상의 속도 향상을 달성합니다. AR 기초 모델에 대한 추가 연구를 촉진하기 위해 코드와 모델을 공개합니다. 코드와 모델은 다음에서 확인할 수 있습니다: https://github.com/shallowdream204/BitDance.
English
We present BitDance, a scalable autoregressive (AR) image generator that predicts binary visual tokens instead of codebook indices. With high-entropy binary latents, BitDance lets each token represent up to 2^{256} states, yielding a compact yet highly expressive discrete representation. Sampling from such a huge token space is difficult with standard classification. To resolve this, BitDance uses a binary diffusion head: instead of predicting an index with softmax, it employs continuous-space diffusion to generate the binary tokens. Furthermore, we propose next-patch diffusion, a new decoding method that predicts multiple tokens in parallel with high accuracy, greatly speeding up inference. On ImageNet 256x256, BitDance achieves an FID of 1.24, the best among AR models. With next-patch diffusion, BitDance beats state-of-the-art parallel AR models that use 1.4B parameters, while using 5.4x fewer parameters (260M) and achieving 8.7x speedup. For text-to-image generation, BitDance trains on large-scale multimodal tokens and generates high-resolution, photorealistic images efficiently, showing strong performance and favorable scaling. When generating 1024x1024 images, BitDance achieves a speedup of over 30x compared to prior AR models. We release code and models to facilitate further research on AR foundation models. Code and models are available at: https://github.com/shallowdream204/BitDance.