ChatPaper.aiChatPaper

BitNet: Масштабирование 1-битных трансформеров для крупных языковых моделей

BitNet: Scaling 1-bit Transformers for Large Language Models

October 17, 2023
Авторы: Hongyu Wang, Shuming Ma, Li Dong, Shaohan Huang, Huaijie Wang, Lingxiao Ma, Fan Yang, Ruiping Wang, Yi Wu, Furu Wei
cs.AI

Аннотация

Растущий размер крупных языковых моделей создает сложности для их развертывания и вызывает опасения относительно экологического воздействия из-за высокого энергопотребления. В данной работе мы представляем BitNet, масштабируемую и стабильную архитектуру Transformer с 1-битными параметрами, разработанную для крупных языковых моделей. В частности, мы вводим BitLinear в качестве замены слоя nn.Linear для обучения 1-битных весов с нуля. Экспериментальные результаты в области языкового моделирования показывают, что BitNet демонстрирует конкурентоспособную производительность, значительно сокращая объем используемой памяти и энергопотребление по сравнению с современными методами 8-битной квантизации и базовыми моделями Transformer с FP16. Более того, BitNet демонстрирует закон масштабирования, аналогичный полноточным Transformer, что указывает на его потенциал для эффективного масштабирования до еще более крупных языковых моделей при сохранении преимуществ в эффективности и производительности.
English
The increasing size of large language models has posed challenges for deployment and raised concerns about environmental impact due to high energy consumption. In this work, we introduce BitNet, a scalable and stable 1-bit Transformer architecture designed for large language models. Specifically, we introduce BitLinear as a drop-in replacement of the nn.Linear layer in order to train 1-bit weights from scratch. Experimental results on language modeling show that BitNet achieves competitive performance while substantially reducing memory footprint and energy consumption, compared to state-of-the-art 8-bit quantization methods and FP16 Transformer baselines. Furthermore, BitNet exhibits a scaling law akin to full-precision Transformers, suggesting its potential for effective scaling to even larger language models while maintaining efficiency and performance benefits.
PDF10313December 15, 2024