ChatPaper.aiChatPaper

BitNet: Escalando Transformadores de 1-bit para Modelos de Lenguaje a Gran Escala

BitNet: Scaling 1-bit Transformers for Large Language Models

October 17, 2023
Autores: Hongyu Wang, Shuming Ma, Li Dong, Shaohan Huang, Huaijie Wang, Lingxiao Ma, Fan Yang, Ruiping Wang, Yi Wu, Furu Wei
cs.AI

Resumen

El creciente tamaño de los modelos de lenguaje grandes ha planteado desafíos para su implementación y ha generado preocupaciones sobre el impacto ambiental debido al alto consumo de energía. En este trabajo, presentamos BitNet, una arquitectura Transformer escalable y estable de 1 bit diseñada para modelos de lenguaje grandes. Específicamente, introducimos BitLinear como un reemplazo directo de la capa nn.Linear para entrenar pesos de 1 bit desde cero. Los resultados experimentales en modelado de lenguaje muestran que BitNet logra un rendimiento competitivo mientras reduce sustancialmente la huella de memoria y el consumo de energía, en comparación con los métodos de cuantización de 8 bits más avanzados y los baselines Transformer FP16. Además, BitNet exhibe una ley de escalado similar a los Transformers de precisión completa, lo que sugiere su potencial para escalar eficazmente a modelos de lenguaje aún más grandes, manteniendo los beneficios de eficiencia y rendimiento.
English
The increasing size of large language models has posed challenges for deployment and raised concerns about environmental impact due to high energy consumption. In this work, we introduce BitNet, a scalable and stable 1-bit Transformer architecture designed for large language models. Specifically, we introduce BitLinear as a drop-in replacement of the nn.Linear layer in order to train 1-bit weights from scratch. Experimental results on language modeling show that BitNet achieves competitive performance while substantially reducing memory footprint and energy consumption, compared to state-of-the-art 8-bit quantization methods and FP16 Transformer baselines. Furthermore, BitNet exhibits a scaling law akin to full-precision Transformers, suggesting its potential for effective scaling to even larger language models while maintaining efficiency and performance benefits.
PDF10313December 15, 2024