Effiziente Nachträgliche Quantisierung mit FP8-Formaten

papers.abstract

Jüngste Fortschritte in Deep-Learning-Methoden wie LLMs und Diffusionsmodellen haben den Bedarf an verbesserten Quantisierungsmethoden geschaffen, die den rechenintensiven Anforderungen dieser modernen Architekturen gerecht werden können, ohne die Genauigkeit zu beeinträchtigen. Um dieses Ziel zu erreichen, untersuchen wir die Vorteile von FP8-Datenformaten für die Post-Training-Quantisierung über 75 einzigartige Netzwerkarchitekturen hinweg, die eine breite Palette von Aufgaben abdecken, darunter maschinelle Übersetzung, Sprachmodellierung, Textgenerierung, Bildklassifizierung, -generierung und -segmentierung. Wir analysieren drei verschiedene FP8-Darstellungen (E5M2, E4M3 und E3M4), um die Auswirkungen unterschiedlicher Kompromisse zwischen dynamischem Bereich und Präzision auf die Modellgenauigkeit zu untersuchen. Basierend auf unserer umfangreichen Studie haben wir einen Quantisierungs-Workflow entwickelt, der sich über verschiedene Netzwerkarchitekturen hinweg verallgemeinern lässt. Unsere empirischen Ergebnisse zeigen, dass FP8-Formate INT8 in mehreren Aspekten übertreffen, einschließlich der Arbeitslastabdeckung (92,64 % gegenüber 65,87 %), der Modellgenauigkeit und der Eignung für ein breiteres Spektrum von Operationen. Darüber hinaus deuten unsere Ergebnisse darauf hin, dass E4M3 besser für NLP-Modelle geeignet ist, während E3M4 bei Computer-Vision-Aufgaben geringfügig besser abschneidet als E4M3. Der Code ist öffentlich auf Intel Neural Compressor verfügbar: https://github.com/intel/neural-compressor.

English

Recent advances in deep learning methods such as LLMs and Diffusion models have created a need for improved quantization methods that can meet the computational demands of these modern architectures while maintaining accuracy. Towards this goal, we study the advantages of FP8 data formats for post-training quantization across 75 unique network architectures covering a wide range of tasks, including machine translation, language modeling, text generation, image classification, generation, and segmentation. We examine three different FP8 representations (E5M2, E4M3, and E3M4) to study the effects of varying degrees of trade-off between dynamic range and precision on model accuracy. Based on our extensive study, we developed a quantization workflow that generalizes across different network architectures. Our empirical results show that FP8 formats outperform INT8 in multiple aspects, including workload coverage (92.64% vs. 65.87%), model accuracy and suitability for a broader range of operations. Furthermore, our findings suggest that E4M3 is better suited for NLP models, whereas E3M4 performs marginally better than E4M3 on computer vision tasks. The code is publicly available on Intel Neural Compressor: https://github.com/intel/neural-compressor.

Effiziente Nachträgliche Quantisierung mit FP8-Formaten

Efficient Post-training Quantization with FP8 Formats

papers.abstract

Support