Quantização Pós-treinamento Eficiente com Formatos FP8
Efficient Post-training Quantization with FP8 Formats
September 26, 2023
Autores: Haihao Shen, Naveen Mellempudi, Xin He, Qun Gao, Chang Wang, Mengni Wang
cs.AI
Resumo
Os recentes avanços em métodos de aprendizado profundo, como LLMs e modelos de difusão, criaram a necessidade de métodos de quantização aprimorados que possam atender às demandas computacionais dessas arquiteturas modernas, mantendo a precisão. Com esse objetivo, estudamos as vantagens dos formatos de dados FP8 para quantização pós-treinamento em 75 arquiteturas de rede únicas, abrangendo uma ampla gama de tarefas, incluindo tradução automática, modelagem de linguagem, geração de texto, classificação de imagens, geração e segmentação. Examinamos três representações diferentes de FP8 (E5M2, E4M3 e E3M4) para estudar os efeitos de diferentes graus de compromisso entre faixa dinâmica e precisão na acurácia do modelo. Com base em nosso extenso estudo, desenvolvemos um fluxo de trabalho de quantização que se generaliza para diferentes arquiteturas de rede. Nossos resultados empíricos mostram que os formatos FP8 superam o INT8 em múltiplos aspectos, incluindo cobertura de carga de trabalho (92,64% vs. 65,87%), acurácia do modelo e adequação para uma gama mais ampla de operações. Além disso, nossos achados sugerem que o E4M3 é mais adequado para modelos de PLN, enquanto o E3M4 tem um desempenho ligeiramente melhor que o E4M3 em tarefas de visão computacional. O código está publicamente disponível no Intel Neural Compressor: https://github.com/intel/neural-compressor.
English
Recent advances in deep learning methods such as LLMs and Diffusion models
have created a need for improved quantization methods that can meet the
computational demands of these modern architectures while maintaining accuracy.
Towards this goal, we study the advantages of FP8 data formats for
post-training quantization across 75 unique network architectures covering a
wide range of tasks, including machine translation, language modeling, text
generation, image classification, generation, and segmentation. We examine
three different FP8 representations (E5M2, E4M3, and E3M4) to study the effects
of varying degrees of trade-off between dynamic range and precision on model
accuracy. Based on our extensive study, we developed a quantization workflow
that generalizes across different network architectures. Our empirical results
show that FP8 formats outperform INT8 in multiple aspects, including workload
coverage (92.64% vs. 65.87%), model accuracy and suitability for a broader
range of operations. Furthermore, our findings suggest that E4M3 is better
suited for NLP models, whereas E3M4 performs marginally better than E4M3 on
computer vision tasks. The code is publicly available on Intel Neural
Compressor: https://github.com/intel/neural-compressor.