ChatPaper.aiChatPaper

Distilação de BitNet

BitNet Distillation

October 15, 2025
Autores: Xun Wu, Shaohan Huang, Wenhui Wang, Ting Song, Li Dong, Yan Xia, Furu Wei
cs.AI

Resumo

Neste artigo, apresentamos o BitNet Distillation (BitDistill), um pipeline leve que ajusta modelos de linguagem de grande escala (LLMs) de precisão completa prontos para uso (por exemplo, Qwen) para uma precisão de 1,58 bits (ou seja, pesos ternários {-1, 0, 1}) em tarefas específicas de downstream, alcançando um desempenho forte para tarefas específicas com custo computacional mínimo. Especificamente, o BitDistill incorpora três técnicas principais: o módulo SubLN, conforme introduzido no BitNet; a destilação de atenção multi-head, baseada no MiniLM; e o pré-treinamento contínuo, que serve como um passo crucial de aquecimento para mitigar o problema de escalabilidade da diferença de desempenho entre LLMs de precisão completa ajustados e LLMs de 1,58 bits em tarefas específicas. Resultados experimentais mostram que o BitDistill alcança um desempenho comparável aos modelos de precisão completa em diferentes tamanhos de modelo, enquanto permite economias de memória de até 10x e inferência 2,65x mais rápida em CPUs. O código está disponível em https://github.com/microsoft/BitNet.
English
In this paper, we present BitNet Distillation (BitDistill), a lightweight pipeline that fine-tunes off-the-shelf full-precision LLMs (e.g., Qwen) into 1.58-bit precision (i.e., ternary weights {-1, 0, 1}) for specific downstream tasks, achieving strong task-specific performance with minimal computational cost. Specifically, BitDistill incorporates three key techniques: the SubLN module, as introduced in BitNet; multi-head attention distillation, based on MiniLM; and continual pre-training, which serves as a crucial warm-up step to mitigate the scalability issue of the performance gap between finetuned full-precision and 1.58-bit LLMs on specific tasks. Experimental results show that BitDistill achieves performance comparable to the full-precision counterpart models across model size, while enabling up to 10x memory savings and 2.65x faster inference on CPUs. Code is available at https://github.com/microsoft/BitNet.
PDF454October 17, 2025