Эра 1-битных LLM: все крупные языковые модели теперь в 1,58 битаThe Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
Недавние исследования, такие как BitNet, прокладывают путь к новой эре 1-битных крупных языковых моделей (LLM). В данной работе мы представляем вариант 1-битной LLM, а именно BitNet b1.58, в котором каждый параметр (или вес) модели является троичным {-1, 0, 1}. Эта модель соответствует полноточным (например, FP16 или BF16) трансформерным LLM с тем же размером модели и количеством обучающих токенов как по перплексии, так и по производительности на конечных задачах, при этом значительно превосходя их по экономической эффективности в плане задержек, использования памяти, пропускной способности и энергопотребления. Более того, 1.58-битная LLM определяет новый закон масштабирования и подход к обучению новых поколений LLM, которые одновременно являются высокопроизводительными и экономически эффективными. Кроме того, она открывает новую вычислительную парадигму и создает возможности для разработки специализированного оборудования, оптимизированного для 1-битных LLM.