Quantification post-entraînement efficace avec les formats FP8
Efficient Post-training Quantization with FP8 Formats
September 26, 2023
Auteurs: Haihao Shen, Naveen Mellempudi, Xin He, Qun Gao, Chang Wang, Mengni Wang
cs.AI
Résumé
Les récents progrès des méthodes d'apprentissage profond, telles que les modèles de langage de grande taille (LLMs) et les modèles de diffusion, ont créé un besoin pour des méthodes de quantification améliorées capables de répondre aux exigences computationnelles de ces architectures modernes tout en maintenant la précision. Dans cette optique, nous étudions les avantages des formats de données FP8 pour la quantification post-entraînement à travers 75 architectures de réseaux uniques couvrant un large éventail de tâches, incluant la traduction automatique, la modélisation du langage, la génération de texte, la classification d'images, la génération et la segmentation. Nous examinons trois représentations FP8 différentes (E5M2, E4M3 et E3M4) pour étudier les effets de divers compromis entre la plage dynamique et la précision sur l'exactitude des modèles. Sur la base de notre étude approfondie, nous avons développé un workflow de quantification qui se généralise à différentes architectures de réseaux. Nos résultats empiriques montrent que les formats FP8 surpassent INT8 à plusieurs égards, incluant la couverture des charges de travail (92,64 % contre 65,87 %), la précision des modèles et leur adéquation à une gamme plus large d'opérations. De plus, nos résultats suggèrent que E4M3 est mieux adapté pour les modèles de traitement du langage naturel (NLP), tandis que E3M4 performe légèrement mieux que E4M3 sur les tâches de vision par ordinateur. Le code est disponible publiquement sur Intel Neural Compressor : https://github.com/intel/neural-compressor.
English
Recent advances in deep learning methods such as LLMs and Diffusion models
have created a need for improved quantization methods that can meet the
computational demands of these modern architectures while maintaining accuracy.
Towards this goal, we study the advantages of FP8 data formats for
post-training quantization across 75 unique network architectures covering a
wide range of tasks, including machine translation, language modeling, text
generation, image classification, generation, and segmentation. We examine
three different FP8 representations (E5M2, E4M3, and E3M4) to study the effects
of varying degrees of trade-off between dynamic range and precision on model
accuracy. Based on our extensive study, we developed a quantization workflow
that generalizes across different network architectures. Our empirical results
show that FP8 formats outperform INT8 in multiple aspects, including workload
coverage (92.64% vs. 65.87%), model accuracy and suitability for a broader
range of operations. Furthermore, our findings suggest that E4M3 is better
suited for NLP models, whereas E3M4 performs marginally better than E4M3 on
computer vision tasks. The code is publicly available on Intel Neural
Compressor: https://github.com/intel/neural-compressor.