Espectros: Un Estudio Integral de Modelos de Lenguaje Ternarios, Cuantizados y FP16
Spectra: A Comprehensive Study of Ternary, Quantized, and FP16 Language Models
July 17, 2024
Autores: Ayush Kaushal, Tejas Pandey, Tejas Vaidhya, Aaryan Bhagat, Irina Rish
cs.AI
Resumen
La cuantificación posterior al entrenamiento es el método principal para abordar los cuellos de botella relacionados con la memoria en la inferencia de LLM, pero desafortunadamente, sufre de una degradación significativa del rendimiento por debajo de una precisión de 4 bits. Un enfoque alternativo implica entrenar modelos comprimidos directamente a una baja cantidad de bits (por ejemplo, modelos binarios o ternarios). Sin embargo, el rendimiento, la dinámica de entrenamiento y las tendencias de escalado de tales modelos aún no se comprenden bien. Para abordar este problema, entrenamos y publicamos abiertamente el conjunto de modelos LLM Spectra que consta de 54 modelos de lenguaje con parámetros que van desde 99M hasta 3.9B, entrenados en 300B de tokens. Spectra incluye FloatLMs, QuantLMs cuantificados posterior al entrenamiento (3, 4, 6 y 8 bits) y LLMs ternarios (TriLMs) - nuestra arquitectura mejorada para modelado de lenguaje ternario, que supera significativamente a los modelos ternarios previamente propuestos de un tamaño dado (en bits), igualando a los modelos de media precisión a gran escala. Por ejemplo, TriLM 3.9B es (en bits) más pequeño que el FloatLM de media precisión 830M, pero coincide con el FloatLM de media precisión 3.9B en razonamiento común y evaluaciones de conocimiento. Sin embargo, TriLM 3.9B también es tan tóxico y estereotipado como el FloatLM 3.9B, un modelo seis veces más grande en tamaño. Además, TriLM 3.9B se queda atrás del FloatLM en perplejidad en divisiones de validación y corpus basados en la web, pero tiene un mejor rendimiento en conjuntos de datos menos ruidosos como Lambada y PennTreeBank.
Para mejorar la comprensión de los modelos de baja cantidad de bits, estamos publicando más de 500 puntos de control intermedios del conjunto Spectra en https://github.com/NolanoOrg/SpectraSuite.
English
Post-training quantization is the leading method for addressing
memory-related bottlenecks in LLM inference, but unfortunately, it suffers from
significant performance degradation below 4-bit precision. An alternative
approach involves training compressed models directly at a low bitwidth (e.g.,
binary or ternary models). However, the performance, training dynamics, and
scaling trends of such models are not yet well understood. To address this
issue, we train and openly release the Spectra LLM suite consisting of 54
language models ranging from 99M to 3.9B parameters, trained on 300B tokens.
Spectra includes FloatLMs, post-training quantized QuantLMs (3, 4, 6, and 8
bits), and ternary LLMs (TriLMs) - our improved architecture for ternary
language modeling, which significantly outperforms previously proposed ternary
models of a given size (in bits), matching half-precision models at scale. For
example, TriLM 3.9B is (bit-wise) smaller than the half-precision FloatLM 830M,
but matches half-precision FloatLM 3.9B in commonsense reasoning and knowledge
benchmarks. However, TriLM 3.9B is also as toxic and stereotyping as FloatLM
3.9B, a model six times larger in size. Additionally, TriLM 3.9B lags behind
FloatLM in perplexity on validation splits and web-based corpora but performs
better on less noisy datasets like Lambada and PennTreeBank.
To enhance understanding of low-bitwidth models, we are releasing 500+
intermediate checkpoints of the Spectra suite at
https://github.com/NolanoOrg/SpectraSuite{https://github.com/NolanoOrg/SpectraSuite}.Summary
AI-Generated Summary