ChatPaper.aiChatPaper

Distilación de BitNet

BitNet Distillation

October 15, 2025
Autores: Xun Wu, Shaohan Huang, Wenhui Wang, Ting Song, Li Dong, Yan Xia, Furu Wei
cs.AI

Resumen

En este artículo, presentamos BitNet Distillation (BitDistill), una canalización ligera que ajusta modelos de lenguaje grandes (LLMs) de precisión completa disponibles comercialmente (por ejemplo, Qwen) a una precisión de 1.58 bits (es decir, pesos ternarios {-1, 0, 1}) para tareas específicas de aplicación, logrando un rendimiento sólido en tareas específicas con un costo computacional mínimo. Específicamente, BitDistill incorpora tres técnicas clave: el módulo SubLN, introducido en BitNet; la destilación de atención multi-cabeza, basada en MiniLM; y el pre-entrenamiento continuo, que sirve como un paso crucial de calentamiento para mitigar el problema de escalabilidad en la brecha de rendimiento entre los LLMs de precisión completa ajustados y los de 1.58 bits en tareas específicas. Los resultados experimentales muestran que BitDistill alcanza un rendimiento comparable al de los modelos de precisión completa en términos de tamaño del modelo, mientras permite ahorros de memoria de hasta 10x y una inferencia 2.65 veces más rápida en CPUs. El código está disponible en https://github.com/microsoft/BitNet.
English
In this paper, we present BitNet Distillation (BitDistill), a lightweight pipeline that fine-tunes off-the-shelf full-precision LLMs (e.g., Qwen) into 1.58-bit precision (i.e., ternary weights {-1, 0, 1}) for specific downstream tasks, achieving strong task-specific performance with minimal computational cost. Specifically, BitDistill incorporates three key techniques: the SubLN module, as introduced in BitNet; multi-head attention distillation, based on MiniLM; and continual pre-training, which serves as a crucial warm-up step to mitigate the scalability issue of the performance gap between finetuned full-precision and 1.58-bit LLMs on specific tasks. Experimental results show that BitDistill achieves performance comparable to the full-precision counterpart models across model size, while enabling up to 10x memory savings and 2.65x faster inference on CPUs. Code is available at https://github.com/microsoft/BitNet.
PDF454October 17, 2025