ChatPaper.aiChatPaper

BitNet-Destillation

BitNet Distillation

October 15, 2025
papers.authors: Xun Wu, Shaohan Huang, Wenhui Wang, Ting Song, Li Dong, Yan Xia, Furu Wei
cs.AI

papers.abstract

In diesem Artikel präsentieren wir BitNet Distillation (BitDistill), eine leichtgewichtige Pipeline, die vorgefertigte LLMs (Large Language Models) in voller Präzision (z. B. Qwen) für spezifische Downstream-Aufgaben auf eine 1,58-Bit-Präzision (d. h. ternäre Gewichte {-1, 0, 1}) feinabstimmt und dabei eine starke aufgabenbezogene Leistung mit minimalem Rechenaufwand erzielt. Insbesondere integriert BitDistill drei Schlüsseltechniken: das SubLN-Modul, wie in BitNet eingeführt; die Multi-Head-Attention-Distillation, basierend auf MiniLM; und das kontinuierliche Vor-Training, das als entscheidender Aufwärm-Schritt dient, um das Skalierbarkeitsproblem der Leistungslücke zwischen feinabgestimmten LLMs in voller Präzision und 1,58-Bit auf spezifischen Aufgaben zu mildern. Experimentelle Ergebnisse zeigen, dass BitDistill eine Leistung erzielt, die mit den Modellen in voller Präzision über verschiedene Modellgrößen hinweg vergleichbar ist, während es bis zu 10-fache Speichereinsparungen und eine 2,65-fach schnellere Inferenz auf CPUs ermöglicht. Der Code ist verfügbar unter https://github.com/microsoft/BitNet.
English
In this paper, we present BitNet Distillation (BitDistill), a lightweight pipeline that fine-tunes off-the-shelf full-precision LLMs (e.g., Qwen) into 1.58-bit precision (i.e., ternary weights {-1, 0, 1}) for specific downstream tasks, achieving strong task-specific performance with minimal computational cost. Specifically, BitDistill incorporates three key techniques: the SubLN module, as introduced in BitNet; multi-head attention distillation, based on MiniLM; and continual pre-training, which serves as a crucial warm-up step to mitigate the scalability issue of the performance gap between finetuned full-precision and 1.58-bit LLMs on specific tasks. Experimental results show that BitDistill achieves performance comparable to the full-precision counterpart models across model size, while enabling up to 10x memory savings and 2.65x faster inference on CPUs. Code is available at https://github.com/microsoft/BitNet.
PDF454October 17, 2025