Дистилляция BitNet
BitNet Distillation
October 15, 2025
Авторы: Xun Wu, Shaohan Huang, Wenhui Wang, Ting Song, Li Dong, Yan Xia, Furu Wei
cs.AI
Аннотация
В данной статье мы представляем BitNet Distillation (BitDistill) — облегченный конвейер, который дорабатывает готовые полномасштабные языковые модели (LLM), такие как Qwen, до точности 1.58 бит (т.е. троичные веса {-1, 0, 1}) для конкретных задач, достигая высокой производительности на целевых задачах при минимальных вычислительных затратах. В частности, BitDistill включает три ключевые техники: модуль SubLN, представленный в BitNet; дистилляцию многоголового внимания на основе MiniLM; и непрерывное предварительное обучение, которое служит важным этапом разминки для смягчения проблемы масштабируемости разрыва в производительности между доработанными полномасштабными и 1.58-битными LLM на конкретных задачах. Экспериментальные результаты показывают, что BitDistill достигает производительности, сопоставимой с полномасштабными моделями, при любом размере модели, обеспечивая при этом до 10-кратной экономии памяти и ускорение вывода на CPU в 2.65 раза. Код доступен по адресу https://github.com/microsoft/BitNet.
English
In this paper, we present BitNet Distillation (BitDistill), a lightweight
pipeline that fine-tunes off-the-shelf full-precision LLMs (e.g., Qwen) into
1.58-bit precision (i.e., ternary weights {-1, 0, 1}) for specific downstream
tasks, achieving strong task-specific performance with minimal computational
cost. Specifically, BitDistill incorporates three key techniques: the SubLN
module, as introduced in BitNet; multi-head attention distillation, based on
MiniLM; and continual pre-training, which serves as a crucial warm-up step to
mitigate the scalability issue of the performance gap between finetuned
full-precision and 1.58-bit LLMs on specific tasks. Experimental results show
that BitDistill achieves performance comparable to the full-precision
counterpart models across model size, while enabling up to 10x memory savings
and 2.65x faster inference on CPUs. Code is available at
https://github.com/microsoft/BitNet.