Effiziente Nachträgliche Quantisierung mit FP8-Formaten
Efficient Post-training Quantization with FP8 Formats
September 26, 2023
Autoren: Haihao Shen, Naveen Mellempudi, Xin He, Qun Gao, Chang Wang, Mengni Wang
cs.AI
Zusammenfassung
Jüngste Fortschritte in Deep-Learning-Methoden wie LLMs und Diffusionsmodellen haben den Bedarf an verbesserten Quantisierungsmethoden geschaffen, die den rechenintensiven Anforderungen dieser modernen Architekturen gerecht werden können, ohne die Genauigkeit zu beeinträchtigen. Um dieses Ziel zu erreichen, untersuchen wir die Vorteile von FP8-Datenformaten für die Post-Training-Quantisierung über 75 einzigartige Netzwerkarchitekturen hinweg, die eine breite Palette von Aufgaben abdecken, darunter maschinelle Übersetzung, Sprachmodellierung, Textgenerierung, Bildklassifizierung, -generierung und -segmentierung. Wir analysieren drei verschiedene FP8-Darstellungen (E5M2, E4M3 und E3M4), um die Auswirkungen unterschiedlicher Kompromisse zwischen dynamischem Bereich und Präzision auf die Modellgenauigkeit zu untersuchen. Basierend auf unserer umfangreichen Studie haben wir einen Quantisierungs-Workflow entwickelt, der sich über verschiedene Netzwerkarchitekturen hinweg verallgemeinern lässt. Unsere empirischen Ergebnisse zeigen, dass FP8-Formate INT8 in mehreren Aspekten übertreffen, einschließlich der Arbeitslastabdeckung (92,64 % gegenüber 65,87 %), der Modellgenauigkeit und der Eignung für ein breiteres Spektrum von Operationen. Darüber hinaus deuten unsere Ergebnisse darauf hin, dass E4M3 besser für NLP-Modelle geeignet ist, während E3M4 bei Computer-Vision-Aufgaben geringfügig besser abschneidet als E4M3. Der Code ist öffentlich auf Intel Neural Compressor verfügbar: https://github.com/intel/neural-compressor.
English
Recent advances in deep learning methods such as LLMs and Diffusion models
have created a need for improved quantization methods that can meet the
computational demands of these modern architectures while maintaining accuracy.
Towards this goal, we study the advantages of FP8 data formats for
post-training quantization across 75 unique network architectures covering a
wide range of tasks, including machine translation, language modeling, text
generation, image classification, generation, and segmentation. We examine
three different FP8 representations (E5M2, E4M3, and E3M4) to study the effects
of varying degrees of trade-off between dynamic range and precision on model
accuracy. Based on our extensive study, we developed a quantization workflow
that generalizes across different network architectures. Our empirical results
show that FP8 formats outperform INT8 in multiple aspects, including workload
coverage (92.64% vs. 65.87%), model accuracy and suitability for a broader
range of operations. Furthermore, our findings suggest that E4M3 is better
suited for NLP models, whereas E3M4 performs marginally better than E4M3 on
computer vision tasks. The code is publicly available on Intel Neural
Compressor: https://github.com/intel/neural-compressor.