BitNet: Escalando Transformadores de 1-bit para Modelos de Lenguaje a Gran Escala

Resumen

El creciente tamaño de los modelos de lenguaje grandes ha planteado desafíos para su implementación y ha generado preocupaciones sobre el impacto ambiental debido al alto consumo de energía. En este trabajo, presentamos BitNet, una arquitectura Transformer escalable y estable de 1 bit diseñada para modelos de lenguaje grandes. Específicamente, introducimos BitLinear como un reemplazo directo de la capa nn.Linear para entrenar pesos de 1 bit desde cero. Los resultados experimentales en modelado de lenguaje muestran que BitNet logra un rendimiento competitivo mientras reduce sustancialmente la huella de memoria y el consumo de energía, en comparación con los métodos de cuantización de 8 bits más avanzados y los baselines Transformer FP16. Además, BitNet exhibe una ley de escalado similar a los Transformers de precisión completa, lo que sugiere su potencial para escalar eficazmente a modelos de lenguaje aún más grandes, manteniendo los beneficios de eficiencia y rendimiento.

English

The increasing size of large language models has posed challenges for deployment and raised concerns about environmental impact due to high energy consumption. In this work, we introduce BitNet, a scalable and stable 1-bit Transformer architecture designed for large language models. Specifically, we introduce BitLinear as a drop-in replacement of the nn.Linear layer in order to train 1-bit weights from scratch. Experimental results on language modeling show that BitNet achieves competitive performance while substantially reducing memory footprint and energy consumption, compared to state-of-the-art 8-bit quantization methods and FP16 Transformer baselines. Furthermore, BitNet exhibits a scaling law akin to full-precision Transformers, suggesting its potential for effective scaling to even larger language models while maintaining efficiency and performance benefits.

BitNet: Escalando Transformadores de 1-bit para Modelos de Lenguaje a Gran Escala

BitNet: Scaling 1-bit Transformers for Large Language Models

Resumen

Support