Спектры: Комплексное исследование троичных, квантованных и FP16 языковых моделейSpectra: A Comprehensive Study of Ternary, Quantized, and FP16 Language
Models
Пост-тренировочная квантизация является ведущим методом решения проблем, связанных с памятью, в выводе LLM, но, к сожалению, она страдает от значительного снижения производительности при точности ниже 4 бит. Альтернативный подход заключается в обучении сжатых моделей напрямую при низкой разрядности (например, бинарные или тернарные модели). Однако производительность, динамика обучения и тенденции масштабирования таких моделей пока не до конца поняты. Для решения этой проблемы мы обучаем и открыто выпускаем набор моделей Spectra LLM, состоящий из 54 языковых моделей с числом параметров от 99 млн до 3,9 млрд, обученных на 300 млрд токенов. Spectra включает FloatLM, пост-тренировочно квантованные QuantLM (3, 4, 6 и 8 бит), а также тернарные LLM (TriLM) - нашу улучшенную архитектуру для тернарного языкового моделирования, которая значительно превосходит ранее предложенные тернарные модели данного размера (в битах), соответствуя моделям половинной точности при масштабировании. Например, TriLM 3,9 млрд (побитово) меньше, чем модель половинной точности FloatLM 830 млн, но соответствует модели половинной точности FloatLM 3,9 млрд в задачах здравого смысла и знаниевых бенчмарках. Однако TriLM 3,9 млрд также ядовит и стереотипен, как и FloatLM 3,9 млрд, модель в шесть раз большего размера. Кроме того, TriLM 3,9 млрд отстает от FloatLM по перплексии на валидационных разбиениях и веб-корпусах, но показывает лучшие результаты на менее шумных наборах данных, таких как Lambada и PennTreeBank. Для улучшения понимания моделей с низкой разрядностью мы выпускаем более 500 промежуточных контрольных точек набора Spectra по ссылке https://github.com/NolanoOrg/SpectraSuite.