Distillation de BitNet
BitNet Distillation
October 15, 2025
papers.authors: Xun Wu, Shaohan Huang, Wenhui Wang, Ting Song, Li Dong, Yan Xia, Furu Wei
cs.AI
papers.abstract
Dans cet article, nous présentons BitNet Distillation (BitDistill), un pipeline léger qui affine des modèles de langage (LLM) en précision complète disponibles sur le marché (par exemple, Qwen) pour les convertir en une précision de 1,58 bits (c'est-à-dire des poids ternaires {-1, 0, 1}) pour des tâches spécifiques en aval, atteignant ainsi des performances solides pour ces tâches avec un coût computationnel minimal. Plus précisément, BitDistill intègre trois techniques clés : le module SubLN, tel qu'introduit dans BitNet ; la distillation d'attention multi-têtes, basée sur MiniLM ; et un pré-entraînement continu, qui sert d'étape de préchauffage cruciale pour atténuer le problème d'évolutivité lié à l'écart de performance entre les LLM en précision complète affinés et ceux en 1,58 bits sur des tâches spécifiques. Les résultats expérimentaux montrent que BitDistill atteint des performances comparables à celles des modèles en précision complète, quelle que soit la taille du modèle, tout en permettant des économies de mémoire allant jusqu'à 10x et une inférence 2,65x plus rapide sur les CPU. Le code est disponible à l'adresse suivante : https://github.com/microsoft/BitNet.
English
In this paper, we present BitNet Distillation (BitDistill), a lightweight
pipeline that fine-tunes off-the-shelf full-precision LLMs (e.g., Qwen) into
1.58-bit precision (i.e., ternary weights {-1, 0, 1}) for specific downstream
tasks, achieving strong task-specific performance with minimal computational
cost. Specifically, BitDistill incorporates three key techniques: the SubLN
module, as introduced in BitNet; multi-head attention distillation, based on
MiniLM; and continual pre-training, which serves as a crucial warm-up step to
mitigate the scalability issue of the performance gap between finetuned
full-precision and 1.58-bit LLMs on specific tasks. Experimental results show
that BitDistill achieves performance comparable to the full-precision
counterpart models across model size, while enabling up to 10x memory savings
and 2.65x faster inference on CPUs. Code is available at
https://github.com/microsoft/BitNet.