ChatPaper.aiChatPaper

Distillation de BitNet

BitNet Distillation

October 15, 2025
papers.authors: Xun Wu, Shaohan Huang, Wenhui Wang, Ting Song, Li Dong, Yan Xia, Furu Wei
cs.AI

papers.abstract

Dans cet article, nous présentons BitNet Distillation (BitDistill), un pipeline léger qui affine des modèles de langage (LLM) en précision complète disponibles sur le marché (par exemple, Qwen) pour les convertir en une précision de 1,58 bits (c'est-à-dire des poids ternaires {-1, 0, 1}) pour des tâches spécifiques en aval, atteignant ainsi des performances solides pour ces tâches avec un coût computationnel minimal. Plus précisément, BitDistill intègre trois techniques clés : le module SubLN, tel qu'introduit dans BitNet ; la distillation d'attention multi-têtes, basée sur MiniLM ; et un pré-entraînement continu, qui sert d'étape de préchauffage cruciale pour atténuer le problème d'évolutivité lié à l'écart de performance entre les LLM en précision complète affinés et ceux en 1,58 bits sur des tâches spécifiques. Les résultats expérimentaux montrent que BitDistill atteint des performances comparables à celles des modèles en précision complète, quelle que soit la taille du modèle, tout en permettant des économies de mémoire allant jusqu'à 10x et une inférence 2,65x plus rapide sur les CPU. Le code est disponible à l'adresse suivante : https://github.com/microsoft/BitNet.
English
In this paper, we present BitNet Distillation (BitDistill), a lightweight pipeline that fine-tunes off-the-shelf full-precision LLMs (e.g., Qwen) into 1.58-bit precision (i.e., ternary weights {-1, 0, 1}) for specific downstream tasks, achieving strong task-specific performance with minimal computational cost. Specifically, BitDistill incorporates three key techniques: the SubLN module, as introduced in BitNet; multi-head attention distillation, based on MiniLM; and continual pre-training, which serves as a crucial warm-up step to mitigate the scalability issue of the performance gap between finetuned full-precision and 1.58-bit LLMs on specific tasks. Experimental results show that BitDistill achieves performance comparable to the full-precision counterpart models across model size, while enabling up to 10x memory savings and 2.65x faster inference on CPUs. Code is available at https://github.com/microsoft/BitNet.
PDF454October 17, 2025