Spectra : Une étude approfondie des modèles de langage ternaires, quantifiés et FP16
Spectra: A Comprehensive Study of Ternary, Quantized, and FP16 Language Models
July 17, 2024
Auteurs: Ayush Kaushal, Tejas Pandey, Tejas Vaidhya, Aaryan Bhagat, Irina Rish
cs.AI
Résumé
La quantification post-entraînement est la méthode principale pour résoudre les goulots d'étranglement liés à la mémoire dans l'inférence des LLM, mais malheureusement, elle entraîne une dégradation significative des performances en dessous de 4 bits. Une approche alternative consiste à entraîner directement des modèles compressés à faible précision (par exemple, des modèles binaires ou ternaires). Cependant, les performances, la dynamique d'entraînement et les tendances de mise à l'échelle de tels modèles ne sont pas encore bien comprises. Pour résoudre ce problème, nous avons entraîné et rendu public la suite Spectra LLM, composée de 54 modèles de langage allant de 99M à 3,9B de paramètres, entraînés sur 300B de tokens. Spectra comprend des FloatLMs, des QuantLMs quantifiés post-entraînement (3, 4, 6 et 8 bits), et des LLMs ternaires (TriLMs) - notre architecture améliorée pour la modélisation de langage ternaire, qui surpasse significativement les modèles ternaires précédemment proposés pour une taille donnée (en bits), égalant les modèles en demi-précision à grande échelle. Par exemple, le TriLM 3.9B est (en termes de bits) plus petit que le FloatLM 830M en demi-précision, mais égalise le FloatLM 3.9B en demi-précision sur les benchmarks de raisonnement de bon sens et de connaissances. Cependant, le TriLM 3.9B est aussi toxique et stéréotypé que le FloatLM 3.9B, un modèle six fois plus grand. De plus, le TriLM 3.9B est en retard par rapport au FloatLM en termes de perplexité sur les splits de validation et les corpus web, mais performe mieux sur des ensembles de données moins bruités comme Lambada et PennTreeBank.
Pour améliorer la compréhension des modèles à faible précision, nous publions plus de 500 points de contrôle intermédiaires de la suite Spectra sur https://github.com/NolanoOrg/SpectraSuite{https://github.com/NolanoOrg/SpectraSuite}.
English
Post-training quantization is the leading method for addressing
memory-related bottlenecks in LLM inference, but unfortunately, it suffers from
significant performance degradation below 4-bit precision. An alternative
approach involves training compressed models directly at a low bitwidth (e.g.,
binary or ternary models). However, the performance, training dynamics, and
scaling trends of such models are not yet well understood. To address this
issue, we train and openly release the Spectra LLM suite consisting of 54
language models ranging from 99M to 3.9B parameters, trained on 300B tokens.
Spectra includes FloatLMs, post-training quantized QuantLMs (3, 4, 6, and 8
bits), and ternary LLMs (TriLMs) - our improved architecture for ternary
language modeling, which significantly outperforms previously proposed ternary
models of a given size (in bits), matching half-precision models at scale. For
example, TriLM 3.9B is (bit-wise) smaller than the half-precision FloatLM 830M,
but matches half-precision FloatLM 3.9B in commonsense reasoning and knowledge
benchmarks. However, TriLM 3.9B is also as toxic and stereotyping as FloatLM
3.9B, a model six times larger in size. Additionally, TriLM 3.9B lags behind
FloatLM in perplexity on validation splits and web-based corpora but performs
better on less noisy datasets like Lambada and PennTreeBank.
To enhance understanding of low-bitwidth models, we are releasing 500+
intermediate checkpoints of the Spectra suite at
https://github.com/NolanoOrg/SpectraSuite{https://github.com/NolanoOrg/SpectraSuite}.Summary
AI-Generated Summary