ChatPaper.aiChatPaper

Espectros: Um Estudo Abrangente de Modelos de Linguagem Ternários, Quantizados e FP16

Spectra: A Comprehensive Study of Ternary, Quantized, and FP16 Language Models

July 17, 2024
Autores: Ayush Kaushal, Tejas Pandey, Tejas Vaidhya, Aaryan Bhagat, Irina Rish
cs.AI

Resumo

A quantização pós-treinamento é o método principal para lidar com gargalos relacionados à memória na inferência de LLM, mas infelizmente, sofre de degradação significativa de desempenho abaixo de 4 bits de precisão. Uma abordagem alternativa envolve treinar modelos comprimidos diretamente com baixa largura de bits (por exemplo, modelos binários ou ternários). No entanto, o desempenho, dinâmica de treinamento e tendências de escalabilidade de tais modelos ainda não são bem compreendidos. Para abordar essa questão, treinamos e disponibilizamos abertamente o conjunto Spectra LLM, composto por 54 modelos de linguagem variando de 99M a 3.9B parâmetros, treinados em 300B tokens. O Spectra inclui FloatLMs, QuantLMs quantizados pós-treinamento (3, 4, 6 e 8 bits) e LLMs ternários (TriLMs) - nossa arquitetura aprimorada para modelagem de linguagem ternária, que supera significativamente os modelos ternários previamente propostos de um determinado tamanho (em bits), equiparando-se a modelos de meia precisão em escala. Por exemplo, o TriLM 3.9B é (bit a bit) menor que o FloatLM de meia precisão 830M, mas corresponde ao FloatLM de meia precisão 3.9B em avaliações de raciocínio comum e conhecimento. No entanto, o TriLM 3.9B também é tão tóxico e estereotipado quanto o FloatLM 3.9B, um modelo seis vezes maior em tamanho. Além disso, o TriLM 3.9B fica atrás do FloatLM em perplexidade em divisões de validação e corpora baseados na web, mas tem melhor desempenho em conjuntos de dados menos ruidosos como Lambada e PennTreeBank. Para aprimorar a compreensão de modelos de baixa largura de bits, estamos disponibilizando mais de 500 checkpoints intermediários do conjunto Spectra em https://github.com/NolanoOrg/SpectraSuite.
English
Post-training quantization is the leading method for addressing memory-related bottlenecks in LLM inference, but unfortunately, it suffers from significant performance degradation below 4-bit precision. An alternative approach involves training compressed models directly at a low bitwidth (e.g., binary or ternary models). However, the performance, training dynamics, and scaling trends of such models are not yet well understood. To address this issue, we train and openly release the Spectra LLM suite consisting of 54 language models ranging from 99M to 3.9B parameters, trained on 300B tokens. Spectra includes FloatLMs, post-training quantized QuantLMs (3, 4, 6, and 8 bits), and ternary LLMs (TriLMs) - our improved architecture for ternary language modeling, which significantly outperforms previously proposed ternary models of a given size (in bits), matching half-precision models at scale. For example, TriLM 3.9B is (bit-wise) smaller than the half-precision FloatLM 830M, but matches half-precision FloatLM 3.9B in commonsense reasoning and knowledge benchmarks. However, TriLM 3.9B is also as toxic and stereotyping as FloatLM 3.9B, a model six times larger in size. Additionally, TriLM 3.9B lags behind FloatLM in perplexity on validation splits and web-based corpora but performs better on less noisy datasets like Lambada and PennTreeBank. To enhance understanding of low-bitwidth models, we are releasing 500+ intermediate checkpoints of the Spectra suite at https://github.com/NolanoOrg/SpectraSuite{https://github.com/NolanoOrg/SpectraSuite}.
PDF803November 28, 2024