BitNet: Масштабирование 1-битных трансформеров для крупных языковых моделей

Аннотация

Растущий размер крупных языковых моделей создает сложности для их развертывания и вызывает опасения относительно экологического воздействия из-за высокого энергопотребления. В данной работе мы представляем BitNet, масштабируемую и стабильную архитектуру Transformer с 1-битными параметрами, разработанную для крупных языковых моделей. В частности, мы вводим BitLinear в качестве замены слоя nn.Linear для обучения 1-битных весов с нуля. Экспериментальные результаты в области языкового моделирования показывают, что BitNet демонстрирует конкурентоспособную производительность, значительно сокращая объем используемой памяти и энергопотребление по сравнению с современными методами 8-битной квантизации и базовыми моделями Transformer с FP16. Более того, BitNet демонстрирует закон масштабирования, аналогичный полноточным Transformer, что указывает на его потенциал для эффективного масштабирования до еще более крупных языковых моделей при сохранении преимуществ в эффективности и производительности.

English

The increasing size of large language models has posed challenges for deployment and raised concerns about environmental impact due to high energy consumption. In this work, we introduce BitNet, a scalable and stable 1-bit Transformer architecture designed for large language models. Specifically, we introduce BitLinear as a drop-in replacement of the nn.Linear layer in order to train 1-bit weights from scratch. Experimental results on language modeling show that BitNet achieves competitive performance while substantially reducing memory footprint and energy consumption, compared to state-of-the-art 8-bit quantization methods and FP16 Transformer baselines. Furthermore, BitNet exhibits a scaling law akin to full-precision Transformers, suggesting its potential for effective scaling to even larger language models while maintaining efficiency and performance benefits.

BitNet: Масштабирование 1-битных трансформеров для крупных языковых моделей

BitNet: Scaling 1-bit Transformers for Large Language Models

Аннотация

Support