Спектры: Комплексное исследование троичных, квантованных и FP16 языковых моделей
Spectra: A Comprehensive Study of Ternary, Quantized, and FP16 Language Models
July 17, 2024
Авторы: Ayush Kaushal, Tejas Pandey, Tejas Vaidhya, Aaryan Bhagat, Irina Rish
cs.AI
Аннотация
Пост-тренировочная квантизация является ведущим методом решения проблем, связанных с памятью, в выводе LLM, но, к сожалению, она страдает от значительного снижения производительности при точности ниже 4 бит. Альтернативный подход заключается в обучении сжатых моделей напрямую при низкой разрядности (например, бинарные или тернарные модели). Однако производительность, динамика обучения и тенденции масштабирования таких моделей пока не до конца поняты. Для решения этой проблемы мы обучаем и открыто выпускаем набор моделей Spectra LLM, состоящий из 54 языковых моделей с числом параметров от 99 млн до 3,9 млрд, обученных на 300 млрд токенов. Spectra включает FloatLM, пост-тренировочно квантованные QuantLM (3, 4, 6 и 8 бит), а также тернарные LLM (TriLM) - нашу улучшенную архитектуру для тернарного языкового моделирования, которая значительно превосходит ранее предложенные тернарные модели данного размера (в битах), соответствуя моделям половинной точности при масштабировании. Например, TriLM 3,9 млрд (побитово) меньше, чем модель половинной точности FloatLM 830 млн, но соответствует модели половинной точности FloatLM 3,9 млрд в задачах здравого смысла и знаниевых бенчмарках. Однако TriLM 3,9 млрд также ядовит и стереотипен, как и FloatLM 3,9 млрд, модель в шесть раз большего размера. Кроме того, TriLM 3,9 млрд отстает от FloatLM по перплексии на валидационных разбиениях и веб-корпусах, но показывает лучшие результаты на менее шумных наборах данных, таких как Lambada и PennTreeBank.
Для улучшения понимания моделей с низкой разрядностью мы выпускаем более 500 промежуточных контрольных точек набора Spectra по ссылке https://github.com/NolanoOrg/SpectraSuite.
English
Post-training quantization is the leading method for addressing
memory-related bottlenecks in LLM inference, but unfortunately, it suffers from
significant performance degradation below 4-bit precision. An alternative
approach involves training compressed models directly at a low bitwidth (e.g.,
binary or ternary models). However, the performance, training dynamics, and
scaling trends of such models are not yet well understood. To address this
issue, we train and openly release the Spectra LLM suite consisting of 54
language models ranging from 99M to 3.9B parameters, trained on 300B tokens.
Spectra includes FloatLMs, post-training quantized QuantLMs (3, 4, 6, and 8
bits), and ternary LLMs (TriLMs) - our improved architecture for ternary
language modeling, which significantly outperforms previously proposed ternary
models of a given size (in bits), matching half-precision models at scale. For
example, TriLM 3.9B is (bit-wise) smaller than the half-precision FloatLM 830M,
but matches half-precision FloatLM 3.9B in commonsense reasoning and knowledge
benchmarks. However, TriLM 3.9B is also as toxic and stereotyping as FloatLM
3.9B, a model six times larger in size. Additionally, TriLM 3.9B lags behind
FloatLM in perplexity on validation splits and web-based corpora but performs
better on less noisy datasets like Lambada and PennTreeBank.
To enhance understanding of low-bitwidth models, we are releasing 500+
intermediate checkpoints of the Spectra suite at
https://github.com/NolanoOrg/SpectraSuite{https://github.com/NolanoOrg/SpectraSuite}.Summary
AI-Generated Summary