Efficiënte post-training kwantisering met FP8-formaten
Efficient Post-training Quantization with FP8 Formats
September 26, 2023
Auteurs: Haihao Shen, Naveen Mellempudi, Xin He, Qun Gao, Chang Wang, Mengni Wang
cs.AI
Samenvatting
Recente vooruitgang in deep learning-methoden zoals LLM's en diffusiemodellen heeft de behoefte gecreëerd aan verbeterde kwantiseringsmethoden die kunnen voldoen aan de computationele eisen van deze moderne architecturen, terwijl de nauwkeurigheid behouden blijft. Met dit doel voor ogen bestuderen we de voordelen van FP8-gegevensformaten voor post-training kwantisering over 75 unieke netwerkarchitecturen die een breed scala aan taken omvatten, waaronder machinaal vertalen, taalmodellering, tekstgeneratie, beeldclassificatie, generatie en segmentatie. We onderzoeken drie verschillende FP8-representaties (E5M2, E4M3 en E3M4) om de effecten te bestuderen van verschillende gradaties van afweging tussen dynamisch bereik en precisie op de modelnauwkeurigheid. Op basis van onze uitgebreide studie hebben we een kwantiseringsworkflow ontwikkeld die generaliseert over verschillende netwerkarchitecturen. Onze empirische resultaten tonen aan dat FP8-formaten INT8 op meerdere aspecten overtreffen, waaronder werklastdekking (92,64% vs. 65,87%), modelnauwkeurigheid en geschiktheid voor een breder scala aan bewerkingen. Bovendien suggereren onze bevindingen dat E4M3 beter geschikt is voor NLP-modellen, terwijl E3M4 marginaal beter presteert dan E4M3 op computervisietaken. De code is publiek beschikbaar op Intel Neural Compressor: https://github.com/intel/neural-compressor.
English
Recent advances in deep learning methods such as LLMs and Diffusion models
have created a need for improved quantization methods that can meet the
computational demands of these modern architectures while maintaining accuracy.
Towards this goal, we study the advantages of FP8 data formats for
post-training quantization across 75 unique network architectures covering a
wide range of tasks, including machine translation, language modeling, text
generation, image classification, generation, and segmentation. We examine
three different FP8 representations (E5M2, E4M3, and E3M4) to study the effects
of varying degrees of trade-off between dynamic range and precision on model
accuracy. Based on our extensive study, we developed a quantization workflow
that generalizes across different network architectures. Our empirical results
show that FP8 formats outperform INT8 in multiple aspects, including workload
coverage (92.64% vs. 65.87%), model accuracy and suitability for a broader
range of operations. Furthermore, our findings suggest that E4M3 is better
suited for NLP models, whereas E3M4 performs marginally better than E4M3 on
computer vision tasks. The code is publicly available on Intel Neural
Compressor: https://github.com/intel/neural-compressor.