BitNet蒸留
BitNet Distillation
October 15, 2025
著者: Xun Wu, Shaohan Huang, Wenhui Wang, Ting Song, Li Dong, Yan Xia, Furu Wei
cs.AI
要旨
本論文では、BitNet蒸留(BitDistill)を提案する。これは、市販のフル精度大規模言語モデル(LLM、例:Qwen)を特定の下流タスク向けに1.58ビット精度(すなわち、三値重み{-1, 0, 1})に微調整する軽量パイプラインであり、最小限の計算コストで強力なタスク特化性能を実現する。具体的には、BitDistillは3つの主要な技術を組み込んでいる:BitNetで導入されたSubLNモジュール、MiniLMに基づくマルチヘッドアテンション蒸留、そして、特定のタスクにおいて微調整されたフル精度LLMと1.58ビットLLMの性能差のスケーラビリティ問題を緩和するための重要なウォームアップステップとして機能する継続的事前学習である。実験結果は、BitDistillがモデルサイズにわたってフル精度の対応モデルと同等の性能を達成しつつ、最大10倍のメモリ節約とCPU上での2.65倍の高速推論を可能にすることを示している。コードはhttps://github.com/microsoft/BitNetで公開されている。
English
In this paper, we present BitNet Distillation (BitDistill), a lightweight
pipeline that fine-tunes off-the-shelf full-precision LLMs (e.g., Qwen) into
1.58-bit precision (i.e., ternary weights {-1, 0, 1}) for specific downstream
tasks, achieving strong task-specific performance with minimal computational
cost. Specifically, BitDistill incorporates three key techniques: the SubLN
module, as introduced in BitNet; multi-head attention distillation, based on
MiniLM; and continual pre-training, which serves as a crucial warm-up step to
mitigate the scalability issue of the performance gap between finetuned
full-precision and 1.58-bit LLMs on specific tasks. Experimental results show
that BitDistill achieves performance comparable to the full-precision
counterpart models across model size, while enabling up to 10x memory savings
and 2.65x faster inference on CPUs. Code is available at
https://github.com/microsoft/BitNet.