Distilação de BitNet
BitNet Distillation
October 15, 2025
Autores: Xun Wu, Shaohan Huang, Wenhui Wang, Ting Song, Li Dong, Yan Xia, Furu Wei
cs.AI
Resumo
Neste artigo, apresentamos o BitNet Distillation (BitDistill), um pipeline leve que ajusta modelos de linguagem de grande escala (LLMs) de precisão completa prontos para uso (por exemplo, Qwen) para uma precisão de 1,58 bits (ou seja, pesos ternários {-1, 0, 1}) em tarefas específicas de downstream, alcançando um desempenho forte para tarefas específicas com custo computacional mínimo. Especificamente, o BitDistill incorpora três técnicas principais: o módulo SubLN, conforme introduzido no BitNet; a destilação de atenção multi-head, baseada no MiniLM; e o pré-treinamento contínuo, que serve como um passo crucial de aquecimento para mitigar o problema de escalabilidade da diferença de desempenho entre LLMs de precisão completa ajustados e LLMs de 1,58 bits em tarefas específicas. Resultados experimentais mostram que o BitDistill alcança um desempenho comparável aos modelos de precisão completa em diferentes tamanhos de modelo, enquanto permite economias de memória de até 10x e inferência 2,65x mais rápida em CPUs. O código está disponível em https://github.com/microsoft/BitNet.
English
In this paper, we present BitNet Distillation (BitDistill), a lightweight
pipeline that fine-tunes off-the-shelf full-precision LLMs (e.g., Qwen) into
1.58-bit precision (i.e., ternary weights {-1, 0, 1}) for specific downstream
tasks, achieving strong task-specific performance with minimal computational
cost. Specifically, BitDistill incorporates three key techniques: the SubLN
module, as introduced in BitNet; multi-head attention distillation, based on
MiniLM; and continual pre-training, which serves as a crucial warm-up step to
mitigate the scalability issue of the performance gap between finetuned
full-precision and 1.58-bit LLMs on specific tasks. Experimental results show
that BitDistill achieves performance comparable to the full-precision
counterpart models across model size, while enabling up to 10x memory savings
and 2.65x faster inference on CPUs. Code is available at
https://github.com/microsoft/BitNet.