ChatPaper.aiChatPaper

Distillazione di BitNet

BitNet Distillation

October 15, 2025
Autori: Xun Wu, Shaohan Huang, Wenhui Wang, Ting Song, Li Dong, Yan Xia, Furu Wei
cs.AI

Abstract

In questo articolo presentiamo BitNet Distillation (BitDistill), una pipeline leggera che ottimizza modelli linguistici preesistenti a precisione completa (ad esempio, Qwen) per specifici task downstream, riducendoli a una precisione di 1.58 bit (ovvero, pesi ternari {-1, 0, 1}), ottenendo prestazioni specifiche per il task con un costo computazionale minimo. Nello specifico, BitDistill incorpora tre tecniche chiave: il modulo SubLN, introdotto in BitNet; la distillazione dell'attenzione multi-testa, basata su MiniLM; e il pre-training continuo, che funge da fase di riscaldamento cruciale per mitigare il problema di scalabilità del divario prestazionale tra modelli linguistici a precisione completa e quelli a 1.58 bit su task specifici. I risultati sperimentali dimostrano che BitDistill raggiunge prestazioni paragonabili ai modelli a precisione completa, indipendentemente dalle dimensioni del modello, consentendo un risparmio di memoria fino a 10x e un'inferenza 2.65x più veloce su CPU. Il codice è disponibile all'indirizzo https://github.com/microsoft/BitNet.
English
In this paper, we present BitNet Distillation (BitDistill), a lightweight pipeline that fine-tunes off-the-shelf full-precision LLMs (e.g., Qwen) into 1.58-bit precision (i.e., ternary weights {-1, 0, 1}) for specific downstream tasks, achieving strong task-specific performance with minimal computational cost. Specifically, BitDistill incorporates three key techniques: the SubLN module, as introduced in BitNet; multi-head attention distillation, based on MiniLM; and continual pre-training, which serves as a crucial warm-up step to mitigate the scalability issue of the performance gap between finetuned full-precision and 1.58-bit LLMs on specific tasks. Experimental results show that BitDistill achieves performance comparable to the full-precision counterpart models across model size, while enabling up to 10x memory savings and 2.65x faster inference on CPUs. Code is available at https://github.com/microsoft/BitNet.
PDF454October 17, 2025