BitNet-Destillation
BitNet Distillation
October 15, 2025
papers.authors: Xun Wu, Shaohan Huang, Wenhui Wang, Ting Song, Li Dong, Yan Xia, Furu Wei
cs.AI
papers.abstract
In diesem Artikel präsentieren wir BitNet Distillation (BitDistill), eine leichtgewichtige Pipeline, die vorgefertigte LLMs (Large Language Models) in voller Präzision (z. B. Qwen) für spezifische Downstream-Aufgaben auf eine 1,58-Bit-Präzision (d. h. ternäre Gewichte {-1, 0, 1}) feinabstimmt und dabei eine starke aufgabenbezogene Leistung mit minimalem Rechenaufwand erzielt. Insbesondere integriert BitDistill drei Schlüsseltechniken: das SubLN-Modul, wie in BitNet eingeführt; die Multi-Head-Attention-Distillation, basierend auf MiniLM; und das kontinuierliche Vor-Training, das als entscheidender Aufwärm-Schritt dient, um das Skalierbarkeitsproblem der Leistungslücke zwischen feinabgestimmten LLMs in voller Präzision und 1,58-Bit auf spezifischen Aufgaben zu mildern. Experimentelle Ergebnisse zeigen, dass BitDistill eine Leistung erzielt, die mit den Modellen in voller Präzision über verschiedene Modellgrößen hinweg vergleichbar ist, während es bis zu 10-fache Speichereinsparungen und eine 2,65-fach schnellere Inferenz auf CPUs ermöglicht. Der Code ist verfügbar unter https://github.com/microsoft/BitNet.
English
In this paper, we present BitNet Distillation (BitDistill), a lightweight
pipeline that fine-tunes off-the-shelf full-precision LLMs (e.g., Qwen) into
1.58-bit precision (i.e., ternary weights {-1, 0, 1}) for specific downstream
tasks, achieving strong task-specific performance with minimal computational
cost. Specifically, BitDistill incorporates three key techniques: the SubLN
module, as introduced in BitNet; multi-head attention distillation, based on
MiniLM; and continual pre-training, which serves as a crucial warm-up step to
mitigate the scalability issue of the performance gap between finetuned
full-precision and 1.58-bit LLMs on specific tasks. Experimental results show
that BitDistill achieves performance comparable to the full-precision
counterpart models across model size, while enabling up to 10x memory savings
and 2.65x faster inference on CPUs. Code is available at
https://github.com/microsoft/BitNet.