Spectra: Een Uitgebreide Studie van Ternaire, Gekwantiseerde en FP16 Taalmodellen
Spectra: A Comprehensive Study of Ternary, Quantized, and FP16 Language Models
July 17, 2024
Auteurs: Ayush Kaushal, Tejas Pandey, Tejas Vaidhya, Aaryan Bhagat, Irina Rish
cs.AI
Samenvatting
Post-training quantisatie is de belangrijkste methode om geheugen gerelateerde knelpunten in LLM-inferentie aan te pakken, maar helaas leidt dit tot aanzienlijke prestatievermindering bij precisies onder de 4 bits. Een alternatieve benadering is het direct trainen van gecomprimeerde modellen met een lage bitbreedte (bijvoorbeeld binaire of ternaire modellen). De prestaties, trainingsdynamiek en schaalbaarheidstrends van dergelijke modellen zijn echter nog niet goed begrepen. Om dit probleem aan te pakken, trainen en openbaren wij de Spectra LLM-suite, bestaande uit 54 taalmodelen variërend van 99M tot 3.9B parameters, getraind op 300B tokens. Spectra omvat FloatLMs, post-training gequantiseerde QuantLMs (3, 4, 6 en 8 bits), en ternaire LLMs (TriLMs) – onze verbeterde architectuur voor ternaire taalmodeling, die aanzienlijk beter presteert dan eerder voorgestelde ternaire modellen van een bepaalde grootte (in bits), en die op schaal overeenkomt met half-precisie modellen. TriLM 3.9B is bijvoorbeeld (bitgewijs) kleiner dan het half-precisie FloatLM 830M, maar evenaart het half-precisie FloatLM 3.9B in gezond verstand redeneren en kennisbenchmarks. TriLM 3.9B is echter ook even toxisch en stereotyperend als FloatLM 3.9B, een model dat zes keer groter is in omvang. Bovendien loopt TriLM 3.9B achter op FloatLM in perplexiteit op validatiesplits en webgebaseerde corpora, maar presteert beter op minder ruisachtige datasets zoals Lambada en PennTreeBank. Om het begrip van modellen met lage bitbreedte te vergroten, geven wij 500+ tussenliggende checkpoints van de Spectra-suite vrij op https://github.com/NolanoOrg/SpectraSuite{https://github.com/NolanoOrg/SpectraSuite}.
English
Post-training quantization is the leading method for addressing
memory-related bottlenecks in LLM inference, but unfortunately, it suffers from
significant performance degradation below 4-bit precision. An alternative
approach involves training compressed models directly at a low bitwidth (e.g.,
binary or ternary models). However, the performance, training dynamics, and
scaling trends of such models are not yet well understood. To address this
issue, we train and openly release the Spectra LLM suite consisting of 54
language models ranging from 99M to 3.9B parameters, trained on 300B tokens.
Spectra includes FloatLMs, post-training quantized QuantLMs (3, 4, 6, and 8
bits), and ternary LLMs (TriLMs) - our improved architecture for ternary
language modeling, which significantly outperforms previously proposed ternary
models of a given size (in bits), matching half-precision models at scale. For
example, TriLM 3.9B is (bit-wise) smaller than the half-precision FloatLM 830M,
but matches half-precision FloatLM 3.9B in commonsense reasoning and knowledge
benchmarks. However, TriLM 3.9B is also as toxic and stereotyping as FloatLM
3.9B, a model six times larger in size. Additionally, TriLM 3.9B lags behind
FloatLM in perplexity on validation splits and web-based corpora but performs
better on less noisy datasets like Lambada and PennTreeBank.
To enhance understanding of low-bitwidth models, we are releasing 500+
intermediate checkpoints of the Spectra suite at
https://github.com/NolanoOrg/SpectraSuite{https://github.com/NolanoOrg/SpectraSuite}.