Distillazione di BitNet

Abstract

In questo articolo presentiamo BitNet Distillation (BitDistill), una pipeline leggera che ottimizza modelli linguistici preesistenti a precisione completa (ad esempio, Qwen) per specifici task downstream, riducendoli a una precisione di 1.58 bit (ovvero, pesi ternari {-1, 0, 1}), ottenendo prestazioni specifiche per il task con un costo computazionale minimo. Nello specifico, BitDistill incorpora tre tecniche chiave: il modulo SubLN, introdotto in BitNet; la distillazione dell'attenzione multi-testa, basata su MiniLM; e il pre-training continuo, che funge da fase di riscaldamento cruciale per mitigare il problema di scalabilità del divario prestazionale tra modelli linguistici a precisione completa e quelli a 1.58 bit su task specifici. I risultati sperimentali dimostrano che BitDistill raggiunge prestazioni paragonabili ai modelli a precisione completa, indipendentemente dalle dimensioni del modello, consentendo un risparmio di memoria fino a 10x e un'inferenza 2.65x più veloce su CPU. Il codice è disponibile all'indirizzo https://github.com/microsoft/BitNet.

English

In this paper, we present BitNet Distillation (BitDistill), a lightweight pipeline that fine-tunes off-the-shelf full-precision LLMs (e.g., Qwen) into 1.58-bit precision (i.e., ternary weights {-1, 0, 1}) for specific downstream tasks, achieving strong task-specific performance with minimal computational cost. Specifically, BitDistill incorporates three key techniques: the SubLN module, as introduced in BitNet; multi-head attention distillation, based on MiniLM; and continual pre-training, which serves as a crucial warm-up step to mitigate the scalability issue of the performance gap between finetuned full-precision and 1.58-bit LLMs on specific tasks. Experimental results show that BitDistill achieves performance comparable to the full-precision counterpart models across model size, while enabling up to 10x memory savings and 2.65x faster inference on CPUs. Code is available at https://github.com/microsoft/BitNet.