La Era de los LLM de 1 bit: Todos los Modelos de Lenguaje Grande están en 1.58 BitsThe Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
Investigaciones recientes, como BitNet, están allanando el camino para una nueva era de Modelos de Lenguaje de Gran Escala (LLMs) de 1 bit. En este trabajo, presentamos una variante de LLM de 1 bit, denominada BitNet b1.58, en la que cada parámetro (o peso) del LLM es ternario {-1, 0, 1}. Este modelo iguala al Transformer LLM de precisión completa (es decir, FP16 o BF16) con el mismo tamaño de modelo y tokens de entrenamiento en términos tanto de perplejidad como de rendimiento en tareas finales, mientras que es significativamente más rentable en términos de latencia, memoria, rendimiento y consumo de energía. Más profundamente, el LLM de 1.58 bits define una nueva ley de escalamiento y una receta para entrenar nuevas generaciones de LLMs que sean tanto de alto rendimiento como rentables. Además, habilita un nuevo paradigma de computación y abre la puerta para diseñar hardware específico optimizado para LLMs de 1 bit.