Quantização Pós-treinamento Eficiente com Formatos FP8

Resumo

Os recentes avanços em métodos de aprendizado profundo, como LLMs e modelos de difusão, criaram a necessidade de métodos de quantização aprimorados que possam atender às demandas computacionais dessas arquiteturas modernas, mantendo a precisão. Com esse objetivo, estudamos as vantagens dos formatos de dados FP8 para quantização pós-treinamento em 75 arquiteturas de rede únicas, abrangendo uma ampla gama de tarefas, incluindo tradução automática, modelagem de linguagem, geração de texto, classificação de imagens, geração e segmentação. Examinamos três representações diferentes de FP8 (E5M2, E4M3 e E3M4) para estudar os efeitos de diferentes graus de compromisso entre faixa dinâmica e precisão na acurácia do modelo. Com base em nosso extenso estudo, desenvolvemos um fluxo de trabalho de quantização que se generaliza para diferentes arquiteturas de rede. Nossos resultados empíricos mostram que os formatos FP8 superam o INT8 em múltiplos aspectos, incluindo cobertura de carga de trabalho (92,64% vs. 65,87%), acurácia do modelo e adequação para uma gama mais ampla de operações. Além disso, nossos achados sugerem que o E4M3 é mais adequado para modelos de PLN, enquanto o E3M4 tem um desempenho ligeiramente melhor que o E4M3 em tarefas de visão computacional. O código está publicamente disponível no Intel Neural Compressor: https://github.com/intel/neural-compressor.

English

Recent advances in deep learning methods such as LLMs and Diffusion models have created a need for improved quantization methods that can meet the computational demands of these modern architectures while maintaining accuracy. Towards this goal, we study the advantages of FP8 data formats for post-training quantization across 75 unique network architectures covering a wide range of tasks, including machine translation, language modeling, text generation, image classification, generation, and segmentation. We examine three different FP8 representations (E5M2, E4M3, and E3M4) to study the effects of varying degrees of trade-off between dynamic range and precision on model accuracy. Based on our extensive study, we developed a quantization workflow that generalizes across different network architectures. Our empirical results show that FP8 formats outperform INT8 in multiple aspects, including workload coverage (92.64% vs. 65.87%), model accuracy and suitability for a broader range of operations. Furthermore, our findings suggest that E4M3 is better suited for NLP models, whereas E3M4 performs marginally better than E4M3 on computer vision tasks. The code is publicly available on Intel Neural Compressor: https://github.com/intel/neural-compressor.

Quantização Pós-treinamento Eficiente com Formatos FP8

Efficient Post-training Quantization with FP8 Formats

Resumo

Support