ChatPaper.aiChatPaper

Efficiënte post-training kwantisering met FP8-formaten

Efficient Post-training Quantization with FP8 Formats

September 26, 2023
Auteurs: Haihao Shen, Naveen Mellempudi, Xin He, Qun Gao, Chang Wang, Mengni Wang
cs.AI

Samenvatting

Recente vooruitgang in deep learning-methoden zoals LLM's en diffusiemodellen heeft de behoefte gecreëerd aan verbeterde kwantiseringsmethoden die kunnen voldoen aan de computationele eisen van deze moderne architecturen, terwijl de nauwkeurigheid behouden blijft. Met dit doel voor ogen bestuderen we de voordelen van FP8-gegevensformaten voor post-training kwantisering over 75 unieke netwerkarchitecturen die een breed scala aan taken omvatten, waaronder machinaal vertalen, taalmodellering, tekstgeneratie, beeldclassificatie, generatie en segmentatie. We onderzoeken drie verschillende FP8-representaties (E5M2, E4M3 en E3M4) om de effecten te bestuderen van verschillende gradaties van afweging tussen dynamisch bereik en precisie op de modelnauwkeurigheid. Op basis van onze uitgebreide studie hebben we een kwantiseringsworkflow ontwikkeld die generaliseert over verschillende netwerkarchitecturen. Onze empirische resultaten tonen aan dat FP8-formaten INT8 op meerdere aspecten overtreffen, waaronder werklastdekking (92,64% vs. 65,87%), modelnauwkeurigheid en geschiktheid voor een breder scala aan bewerkingen. Bovendien suggereren onze bevindingen dat E4M3 beter geschikt is voor NLP-modellen, terwijl E3M4 marginaal beter presteert dan E4M3 op computervisietaken. De code is publiek beschikbaar op Intel Neural Compressor: https://github.com/intel/neural-compressor.
English
Recent advances in deep learning methods such as LLMs and Diffusion models have created a need for improved quantization methods that can meet the computational demands of these modern architectures while maintaining accuracy. Towards this goal, we study the advantages of FP8 data formats for post-training quantization across 75 unique network architectures covering a wide range of tasks, including machine translation, language modeling, text generation, image classification, generation, and segmentation. We examine three different FP8 representations (E5M2, E4M3, and E3M4) to study the effects of varying degrees of trade-off between dynamic range and precision on model accuracy. Based on our extensive study, we developed a quantization workflow that generalizes across different network architectures. Our empirical results show that FP8 formats outperform INT8 in multiple aspects, including workload coverage (92.64% vs. 65.87%), model accuracy and suitability for a broader range of operations. Furthermore, our findings suggest that E4M3 is better suited for NLP models, whereas E3M4 performs marginally better than E4M3 on computer vision tasks. The code is publicly available on Intel Neural Compressor: https://github.com/intel/neural-compressor.
PDF112December 15, 2024