Spectra: Uno Studio Completo sui Modelli Linguistici Ternari, Quantizzati e FP16
Spectra: A Comprehensive Study of Ternary, Quantized, and FP16 Language Models
July 17, 2024
Autori: Ayush Kaushal, Tejas Pandey, Tejas Vaidhya, Aaryan Bhagat, Irina Rish
cs.AI
Abstract
La quantizzazione post-addestramento è il metodo principale per affrontare i colli di bottiglia legati alla memoria nell'inferenza dei LLM, ma purtroppo soffre di un significativo degrado delle prestazioni al di sotto della precisione a 4 bit. Un approccio alternativo prevede l'addestramento diretto di modelli compressi a bassa larghezza di bit (ad esempio, modelli binari o ternari). Tuttavia, le prestazioni, le dinamiche di addestramento e le tendenze di scalabilità di tali modelli non sono ancora ben comprese. Per affrontare questo problema, abbiamo addestrato e rilasciato pubblicamente la suite Spectra LLM, composta da 54 modelli linguistici che vanno da 99M a 3.9B di parametri, addestrati su 300B di token. Spectra include FloatLMs, QuantLMs quantizzati post-addestramento (3, 4, 6 e 8 bit) e LLM ternari (TriLMs) - la nostra architettura migliorata per la modellazione linguistica ternaria, che supera significativamente i modelli ternari precedentemente proposti di una determinata dimensione (in bit), eguagliando i modelli a precisione semplificata su larga scala. Ad esempio, il TriLM 3.9B è (in termini di bit) più piccolo del FloatLM 830M a precisione semplificata, ma eguaglia il FloatLM 3.9B a precisione semplificata nei benchmark di ragionamento di senso comune e conoscenza. Tuttavia, il TriLM 3.9B è anche altrettanto tossico e stereotipato quanto il FloatLM 3.9B, un modello sei volte più grande in termini di dimensioni. Inoltre, il TriLM 3.9B è in ritardo rispetto al FloatLM in termini di perplessità sui split di validazione e sui corpora basati sul web, ma performa meglio su dataset meno rumorosi come Lambada e PennTreeBank.
Per migliorare la comprensione dei modelli a bassa larghezza di bit, stiamo rilasciando oltre 500 checkpoint intermedi della suite Spectra all'indirizzo https://github.com/NolanoOrg/SpectraSuite{https://github.com/NolanoOrg/SpectraSuite}.
English
Post-training quantization is the leading method for addressing
memory-related bottlenecks in LLM inference, but unfortunately, it suffers from
significant performance degradation below 4-bit precision. An alternative
approach involves training compressed models directly at a low bitwidth (e.g.,
binary or ternary models). However, the performance, training dynamics, and
scaling trends of such models are not yet well understood. To address this
issue, we train and openly release the Spectra LLM suite consisting of 54
language models ranging from 99M to 3.9B parameters, trained on 300B tokens.
Spectra includes FloatLMs, post-training quantized QuantLMs (3, 4, 6, and 8
bits), and ternary LLMs (TriLMs) - our improved architecture for ternary
language modeling, which significantly outperforms previously proposed ternary
models of a given size (in bits), matching half-precision models at scale. For
example, TriLM 3.9B is (bit-wise) smaller than the half-precision FloatLM 830M,
but matches half-precision FloatLM 3.9B in commonsense reasoning and knowledge
benchmarks. However, TriLM 3.9B is also as toxic and stereotyping as FloatLM
3.9B, a model six times larger in size. Additionally, TriLM 3.9B lags behind
FloatLM in perplexity on validation splits and web-based corpora but performs
better on less noisy datasets like Lambada and PennTreeBank.
To enhance understanding of low-bitwidth models, we are releasing 500+
intermediate checkpoints of the Spectra suite at
https://github.com/NolanoOrg/SpectraSuite{https://github.com/NolanoOrg/SpectraSuite}.