La Era de los LLM de 1 bit: Todos los Modelos de Lenguaje Grande están en 1.58 Bits
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
February 27, 2024
Autores: Shuming Ma, Hongyu Wang, Lingxiao Ma, Lei Wang, Wenhui Wang, Shaohan Huang, Li Dong, Ruiping Wang, Jilong Xue, Furu Wei
cs.AI
Resumen
Investigaciones recientes, como BitNet, están allanando el camino para una nueva era de Modelos de Lenguaje de Gran Escala (LLMs) de 1 bit. En este trabajo, presentamos una variante de LLM de 1 bit, denominada BitNet b1.58, en la que cada parámetro (o peso) del LLM es ternario {-1, 0, 1}. Este modelo iguala al Transformer LLM de precisión completa (es decir, FP16 o BF16) con el mismo tamaño de modelo y tokens de entrenamiento en términos tanto de perplejidad como de rendimiento en tareas finales, mientras que es significativamente más rentable en términos de latencia, memoria, rendimiento y consumo de energía. Más profundamente, el LLM de 1.58 bits define una nueva ley de escalamiento y una receta para entrenar nuevas generaciones de LLMs que sean tanto de alto rendimiento como rentables. Además, habilita un nuevo paradigma de computación y abre la puerta para diseñar hardware específico optimizado para LLMs de 1 bit.
English
Recent research, such as BitNet, is paving the way for a new era of 1-bit
Large Language Models (LLMs). In this work, we introduce a 1-bit LLM variant,
namely BitNet b1.58, in which every single parameter (or weight) of the LLM is
ternary {-1, 0, 1}. It matches the full-precision (i.e., FP16 or BF16)
Transformer LLM with the same model size and training tokens in terms of both
perplexity and end-task performance, while being significantly more
cost-effective in terms of latency, memory, throughput, and energy consumption.
More profoundly, the 1.58-bit LLM defines a new scaling law and recipe for
training new generations of LLMs that are both high-performance and
cost-effective. Furthermore, it enables a new computation paradigm and opens
the door for designing specific hardware optimized for 1-bit LLMs.Summary
AI-Generated Summary