BitNet Destillatie
BitNet Distillation
October 15, 2025
Auteurs: Xun Wu, Shaohan Huang, Wenhui Wang, Ting Song, Li Dong, Yan Xia, Furu Wei
cs.AI
Samenvatting
In dit artikel presenteren we BitNet Distillation (BitDistill), een lichtgewicht pipeline die kant-en-klare full-precision LLM's (bijvoorbeeld Qwen) fine-tunt naar 1,58-bit precisie (d.w.z. ternaire gewichten {-1, 0, 1}) voor specifieke downstream taken, waarbij sterke taakspecifieke prestaties worden bereikt met minimale rekenkosten. Specifiek integreert BitDistill drie belangrijke technieken: de SubLN-module, zoals geïntroduceerd in BitNet; multi-head attention distillatie, gebaseerd op MiniLM; en voortgezette pre-training, die fungeert als een cruciale opwarmstap om het schaalbaarheidsprobleem van het prestatieverschil tussen gefinetunede full-precision en 1,58-bit LLM's voor specifieke taken te verminderen. Experimentele resultaten laten zien dat BitDistill prestaties bereikt die vergelijkbaar zijn met de full-precision tegenhangers over verschillende modelgroottes, terwijl het tot 10x geheugenbesparing en 2,65x snellere inferentie op CPU's mogelijk maakt. Code is beschikbaar op https://github.com/microsoft/BitNet.
English
In this paper, we present BitNet Distillation (BitDistill), a lightweight
pipeline that fine-tunes off-the-shelf full-precision LLMs (e.g., Qwen) into
1.58-bit precision (i.e., ternary weights {-1, 0, 1}) for specific downstream
tasks, achieving strong task-specific performance with minimal computational
cost. Specifically, BitDistill incorporates three key techniques: the SubLN
module, as introduced in BitNet; multi-head attention distillation, based on
MiniLM; and continual pre-training, which serves as a crucial warm-up step to
mitigate the scalability issue of the performance gap between finetuned
full-precision and 1.58-bit LLMs on specific tasks. Experimental results show
that BitDistill achieves performance comparable to the full-precision
counterpart models across model size, while enabling up to 10x memory savings
and 2.65x faster inference on CPUs. Code is available at
https://github.com/microsoft/BitNet.