Cuantización Eficiente Post-entrenamiento con Formatos FP8
Efficient Post-training Quantization with FP8 Formats
September 26, 2023
Autores: Haihao Shen, Naveen Mellempudi, Xin He, Qun Gao, Chang Wang, Mengni Wang
cs.AI
Resumen
Los recientes avances en métodos de aprendizaje profundo, como los LLM y los modelos de difusión, han generado la necesidad de mejorar los métodos de cuantización que puedan satisfacer las demandas computacionales de estas arquitecturas modernas mientras mantienen la precisión. Con este objetivo, estudiamos las ventajas de los formatos de datos FP8 para la cuantización post-entrenamiento en 75 arquitecturas de red únicas que abarcan una amplia gama de tareas, incluyendo traducción automática, modelado de lenguaje, generación de texto, clasificación de imágenes, generación y segmentación. Examinamos tres representaciones diferentes de FP8 (E5M2, E4M3 y E3M4) para estudiar los efectos de distintos grados de equilibrio entre el rango dinámico y la precisión en la exactitud del modelo. Basándonos en nuestro extenso estudio, desarrollamos un flujo de trabajo de cuantización que se generaliza a través de diferentes arquitecturas de red. Nuestros resultados empíricos muestran que los formatos FP8 superan a INT8 en múltiples aspectos, incluyendo la cobertura de carga de trabajo (92.64% vs. 65.87%), la precisión del modelo y la idoneidad para un rango más amplio de operaciones. Además, nuestros hallazgos sugieren que E4M3 es más adecuado para modelos de NLP, mientras que E3M4 tiene un rendimiento ligeramente mejor que E4M3 en tareas de visión por computadora. El código está disponible públicamente en Intel Neural Compressor: https://github.com/intel/neural-compressor.
English
Recent advances in deep learning methods such as LLMs and Diffusion models
have created a need for improved quantization methods that can meet the
computational demands of these modern architectures while maintaining accuracy.
Towards this goal, we study the advantages of FP8 data formats for
post-training quantization across 75 unique network architectures covering a
wide range of tasks, including machine translation, language modeling, text
generation, image classification, generation, and segmentation. We examine
three different FP8 representations (E5M2, E4M3, and E3M4) to study the effects
of varying degrees of trade-off between dynamic range and precision on model
accuracy. Based on our extensive study, we developed a quantization workflow
that generalizes across different network architectures. Our empirical results
show that FP8 formats outperform INT8 in multiple aspects, including workload
coverage (92.64% vs. 65.87%), model accuracy and suitability for a broader
range of operations. Furthermore, our findings suggest that E4M3 is better
suited for NLP models, whereas E3M4 performs marginally better than E4M3 on
computer vision tasks. The code is publicly available on Intel Neural
Compressor: https://github.com/intel/neural-compressor.