ChatPaper.aiChatPaper

BitDance: Масштабирование авторегрессионных генеративных моделей с бинарными токенами

BitDance: Scaling Autoregressive Generative Models with Binary Tokens

February 15, 2026
Авторы: Yuang Ai, Jiaming Han, Shaobin Zhuang, Weijia Mao, Xuefeng Hu, Ziyan Yang, Zhenheng Yang, Huaibo Huang, Xiangyu Yue, Hao Chen
cs.AI

Аннотация

Мы представляем BitDance — масштабируемый авторегрессионный (AR) генератор изображений, который предсказывает бинарные визуальные токены вместо индексов кодбука. Благодаря высокоэнтропийным бинарным латентным представлениям, каждый токен в BitDance может кодировать до 2^{256} состояний, что обеспечивает компактное, но высокоэкспрессивное дискретное представление. Выборка из такого огромного пространства токенов затруднительна при использовании стандартной классификации. Для решения этой проблемы BitDance использует бинарный диффузионный головной модуль: вместо предсказания индекса с помощью softmax, он применяет диффузию в непрерывном пространстве для генерации бинарных токенов. Кроме того, мы предлагаем next-patch diffusion — новый метод декодирования, который предсказывает несколько токенов параллельно с высокой точностью, значительно ускоряя вывод. На наборе данных ImageNet 256x256 BitDance достигает FID 1.24, что является лучшим результатом среди AR-моделей. С использованием next-patch diffusion, BitDance превосходит современные параллельные AR-модели с 1.4 млрд параметров, используя в 5.4 раза меньше параметров (260 млн) и обеспечивая ускорение в 8.7 раза. Для задач генерации изображений по тексту BitDance обучается на крупномасштабных мультимодальных токенах и эффективно генерирует высококачественные фотореалистичные изображения, демонстрируя высокую производительность и благоприятную масштабируемость. При генерации изображений 1024x1024 BitDance достигает более чем 30-кратного ускорения по сравнению с предыдущими AR-моделями. Мы публикуем код и модели для содействия дальнейшим исследованиям в области базовых AR-моделей. Код и модели доступны по адресу: https://github.com/shallowdream204/BitDance.
English
We present BitDance, a scalable autoregressive (AR) image generator that predicts binary visual tokens instead of codebook indices. With high-entropy binary latents, BitDance lets each token represent up to 2^{256} states, yielding a compact yet highly expressive discrete representation. Sampling from such a huge token space is difficult with standard classification. To resolve this, BitDance uses a binary diffusion head: instead of predicting an index with softmax, it employs continuous-space diffusion to generate the binary tokens. Furthermore, we propose next-patch diffusion, a new decoding method that predicts multiple tokens in parallel with high accuracy, greatly speeding up inference. On ImageNet 256x256, BitDance achieves an FID of 1.24, the best among AR models. With next-patch diffusion, BitDance beats state-of-the-art parallel AR models that use 1.4B parameters, while using 5.4x fewer parameters (260M) and achieving 8.7x speedup. For text-to-image generation, BitDance trains on large-scale multimodal tokens and generates high-resolution, photorealistic images efficiently, showing strong performance and favorable scaling. When generating 1024x1024 images, BitDance achieves a speedup of over 30x compared to prior AR models. We release code and models to facilitate further research on AR foundation models. Code and models are available at: https://github.com/shallowdream204/BitDance.
PDF203February 18, 2026