Distillazione di BitNet
BitNet Distillation
October 15, 2025
Autori: Xun Wu, Shaohan Huang, Wenhui Wang, Ting Song, Li Dong, Yan Xia, Furu Wei
cs.AI
Abstract
In questo articolo presentiamo BitNet Distillation (BitDistill), una pipeline leggera che ottimizza modelli linguistici preesistenti a precisione completa (ad esempio, Qwen) per specifici task downstream, riducendoli a una precisione di 1.58 bit (ovvero, pesi ternari {-1, 0, 1}), ottenendo prestazioni specifiche per il task con un costo computazionale minimo. Nello specifico, BitDistill incorpora tre tecniche chiave: il modulo SubLN, introdotto in BitNet; la distillazione dell'attenzione multi-testa, basata su MiniLM; e il pre-training continuo, che funge da fase di riscaldamento cruciale per mitigare il problema di scalabilità del divario prestazionale tra modelli linguistici a precisione completa e quelli a 1.58 bit su task specifici. I risultati sperimentali dimostrano che BitDistill raggiunge prestazioni paragonabili ai modelli a precisione completa, indipendentemente dalle dimensioni del modello, consentendo un risparmio di memoria fino a 10x e un'inferenza 2.65x più veloce su CPU. Il codice è disponibile all'indirizzo https://github.com/microsoft/BitNet.
English
In this paper, we present BitNet Distillation (BitDistill), a lightweight
pipeline that fine-tunes off-the-shelf full-precision LLMs (e.g., Qwen) into
1.58-bit precision (i.e., ternary weights {-1, 0, 1}) for specific downstream
tasks, achieving strong task-specific performance with minimal computational
cost. Specifically, BitDistill incorporates three key techniques: the SubLN
module, as introduced in BitNet; multi-head attention distillation, based on
MiniLM; and continual pre-training, which serves as a crucial warm-up step to
mitigate the scalability issue of the performance gap between finetuned
full-precision and 1.58-bit LLMs on specific tasks. Experimental results show
that BitDistill achieves performance comparable to the full-precision
counterpart models across model size, while enabling up to 10x memory savings
and 2.65x faster inference on CPUs. Code is available at
https://github.com/microsoft/BitNet.