Spektren: Eine umfassende Studie von Ternären, quantisierten und FP16-Sprachmodellen
Spectra: A Comprehensive Study of Ternary, Quantized, and FP16 Language Models
July 17, 2024
Autoren: Ayush Kaushal, Tejas Pandey, Tejas Vaidhya, Aaryan Bhagat, Irina Rish
cs.AI
Zusammenfassung
Die Post-Training-Quantisierung ist die führende Methode zur Bewältigung von Speicherproblemen bei der Inferenz von LLM, leidet jedoch leider unter signifikanter Leistungsminderung unterhalb einer Präzision von 4 Bit. Ein alternativer Ansatz besteht darin, komprimierte Modelle direkt mit geringer Bitbreite zu trainieren (z.B. binäre oder ternäre Modelle). Die Leistung, Trainingsdynamik und Skalierungstrends solcher Modelle sind jedoch noch nicht gut verstanden. Um dieses Problem anzugehen, haben wir das Spectra LLM-Paket entwickelt und veröffentlicht, das aus 54 Sprachmodellen mit 99M bis 3.9B Parametern besteht, die auf 300B Tokens trainiert wurden. Spectra umfasst FloatLMs, post-training quantisierte QuantLMs (3, 4, 6 und 8 Bit) und ternäre LLMs (TriLMs) - unsere verbesserte Architektur für ternäres Sprachmodellieren, die signifikant besser abschneidet als zuvor vorgeschlagene ternäre Modelle gleicher Größe (in Bits) und halbpräzise Modelle im großen Maßstab erreicht. Zum Beispiel ist TriLM 3.9B (bitweise) kleiner als das halbpräzise FloatLM 830M, erreicht jedoch die Leistung des halbpräzisen FloatLM 3.9B bei Tests zur Alltagslogik und Wissensbenchmarks. TriLM 3.9B ist jedoch genauso toxisch und stereotyp wie FloatLM 3.9B, ein Modell, das sechsmal größer ist. Darüber hinaus hinkt TriLM 3.9B beim Perplexitätsmaß auf Validierungssätzen und webbasierten Korpora hinter FloatLM her, schneidet jedoch auf weniger rauschigen Datensätzen wie Lambada und PennTreeBank besser ab.
Zur Verbesserung des Verständnisses von Modellen mit geringer Bitbreite veröffentlichen wir über 500 Zwischenprüfpunkte des Spectra-Pakets unter https://github.com/NolanoOrg/SpectraSuite.
English
Post-training quantization is the leading method for addressing
memory-related bottlenecks in LLM inference, but unfortunately, it suffers from
significant performance degradation below 4-bit precision. An alternative
approach involves training compressed models directly at a low bitwidth (e.g.,
binary or ternary models). However, the performance, training dynamics, and
scaling trends of such models are not yet well understood. To address this
issue, we train and openly release the Spectra LLM suite consisting of 54
language models ranging from 99M to 3.9B parameters, trained on 300B tokens.
Spectra includes FloatLMs, post-training quantized QuantLMs (3, 4, 6, and 8
bits), and ternary LLMs (TriLMs) - our improved architecture for ternary
language modeling, which significantly outperforms previously proposed ternary
models of a given size (in bits), matching half-precision models at scale. For
example, TriLM 3.9B is (bit-wise) smaller than the half-precision FloatLM 830M,
but matches half-precision FloatLM 3.9B in commonsense reasoning and knowledge
benchmarks. However, TriLM 3.9B is also as toxic and stereotyping as FloatLM
3.9B, a model six times larger in size. Additionally, TriLM 3.9B lags behind
FloatLM in perplexity on validation splits and web-based corpora but performs
better on less noisy datasets like Lambada and PennTreeBank.
To enhance understanding of low-bitwidth models, we are releasing 500+
intermediate checkpoints of the Spectra suite at
https://github.com/NolanoOrg/SpectraSuite{https://github.com/NolanoOrg/SpectraSuite}.Summary
AI-Generated Summary