TEQ: Transformação Equivalente Treinável para Quantização de LLMs

Resumo

À medida que os modelos de linguagem de grande escala (LLMs) se tornam mais prevalentes, há uma crescente necessidade de novos e aprimorados métodos de quantização que possam atender às demandas computacionais dessas arquiteturas modernas, mantendo a precisão. Neste artigo, apresentamos o TEQ, uma transformação equivalente treinável que preserva a precisão FP32 da saída do modelo enquanto aproveita a quantização de baixa precisão, especialmente a quantização de pesos de 3 e 4 bits. O processo de treinamento é leve, exigindo apenas 1.000 passos e menos de 0,1% dos parâmetros treináveis do modelo original. Além disso, a transformação não adiciona nenhuma sobrecarga computacional durante a inferência. Nossos resultados estão em pé de igualdade com os métodos state-of-the-art (SOTA) em LLMs típicos. Nossa abordagem pode ser combinada com outros métodos para alcançar um desempenho ainda melhor. O código está disponível em https://github.com/intel/neural-compressor.

English

As large language models (LLMs) become more prevalent, there is a growing need for new and improved quantization methods that can meet the computationalast layer demands of these modern architectures while maintaining the accuracy. In this paper, we present TEQ, a trainable equivalent transformation that preserves the FP32 precision of the model output while taking advantage of low-precision quantization, especially 3 and 4 bits weight-only quantization. The training process is lightweight, requiring only 1K steps and fewer than 0.1 percent of the original model's trainable parameters. Furthermore, the transformation does not add any computational overhead during inference. Our results are on-par with the state-of-the-art (SOTA) methods on typical LLMs. Our approach can be combined with other methods to achieve even better performance. The code is available at https://github.com/intel/neural-compressor.

TEQ: Transformação Equivalente Treinável para Quantização de LLMs

TEQ: Trainable Equivalent Transformation for Quantization of LLMs

Resumo

Support