QuEST: Treinamento Estável de LLMs com Pesos e Ativações de 1-Bit

Resumo

Uma abordagem para reduzir os altos custos dos grandes modelos de linguagem (LLMs) é o uso de representações quantizadas ou esparsas para treinamento ou implantação. Embora os métodos de compressão pós-treinamento sejam muito populares, a questão de obter modelos comprimidos ainda mais precisos por meio do treinamento direto sobre tais representações, ou seja, Treinamento Consciente de Quantização (QAT), ainda está em aberto: por exemplo, um estudo recente (arXiv:2411.04330v2) determinou a largura de bits "ótima" na qual os modelos podem ser treinados usando QAT, mantendo a precisão competitiva com a precisão padrão FP16/BF16, em 8-bits para pesos e ativações. Avançamos este estado-da-arte por meio de um novo método chamado QuEST, que é competitivo em Pareto com FP16, ou seja, fornece melhor precisão com tamanho de modelo menor, treinando modelos com pesos e ativações em 4-bits ou menos. Além disso, o QuEST permite treinamento estável com pesos e ativações de 1-bit. O QuEST alcança isso melhorando dois aspectos-chave dos métodos QAT: (1) quantização precisa e rápida das distribuições (contínuas) de pesos e ativações por meio de normalização de Hadamard e ajuste MSE-ótimo; (2) um novo estimador de gradiente de confiança baseado na ideia de minimizar explicitamente o erro entre o gradiente ruidoso calculado sobre estados quantizados e o gradiente de precisão total "verdadeiro" (mas desconhecido). Experimentos em arquiteturas do tipo Llama mostram que o QuEST induz leis de escalonamento estáveis em toda a gama de precisões suportadas pelo hardware e pode ser estendido a representações esparsas. Fornecemos suporte de kernel GPU mostrando que os modelos produzidos pelo QuEST podem ser executados de forma eficiente. Nosso código está disponível em https://github.com/IST-DASLab/QuEST.

English

One approach to reducing the massive costs of large language models (LLMs) is the use of quantized or sparse representations for training or deployment. While post-training compression methods are very popular, the question of obtaining even more accurate compressed models by directly training over such representations, i.e., Quantization-Aware Training (QAT), is still open: for example, a recent study (arXiv:2411.04330v2) put the "optimal" bit-width at which models can be trained using QAT, while staying accuracy-competitive with standard FP16/BF16 precision, at 8-bits weights and activations. We advance this state-of-the-art via a new method called QuEST, which is Pareto-competitive with FP16, i.e., it provides better accuracy at lower model size, while training models with weights and activations in 4-bits or less. Moreover, QuEST allows stable training with 1-bit weights and activations. QuEST achieves this by improving two key aspects of QAT methods: (1) accurate and fast quantization of the (continuous) distributions of weights and activations via Hadamard normalization and MSE-optimal fitting; (2) a new trust gradient estimator based on the idea of explicitly minimizing the error between the noisy gradient computed over quantized states and the "true" (but unknown) full-precision gradient. Experiments on Llama-type architectures show that QuEST induces stable scaling laws across the entire range of hardware-supported precisions, and can be extended to sparse representations. We provide GPU kernel support showing that models produced by QuEST can be executed efficiently. Our code is available at https://github.com/IST-DASLab/QuEST.

QuEST: Treinamento Estável de LLMs com Pesos e Ativações de 1-Bit

QuEST: Stable Training of LLMs with 1-Bit Weights and Activations

Resumo

Support