ChatPaper.aiChatPaper

Эффективное посттренировочное квантование с использованием форматов FP8

Efficient Post-training Quantization with FP8 Formats

September 26, 2023
Авторы: Haihao Shen, Naveen Mellempudi, Xin He, Qun Gao, Chang Wang, Mengni Wang
cs.AI

Аннотация

Недавние достижения в методах глубокого обучения, таких как крупные языковые модели (LLM) и диффузионные модели, создали потребность в улучшенных методах квантования, которые могут соответствовать вычислительным требованиям этих современных архитектур, сохраняя при этом точность. В рамках этой цели мы исследуем преимущества форматов данных FP8 для посттренировочного квантования на 75 уникальных архитектурах сетей, охватывающих широкий спектр задач, включая машинный перевод, языковое моделирование, генерацию текста, классификацию изображений, генерацию и сегментацию. Мы изучаем три различных представления FP8 (E5M2, E4M3 и E3M4), чтобы исследовать влияние различных степеней компромисса между динамическим диапазоном и точностью на точность модели. На основе нашего обширного исследования мы разработали рабочий процесс квантования, который обобщается для различных архитектур сетей. Наши эмпирические результаты показывают, что форматы FP8 превосходят INT8 по нескольким аспектам, включая охват рабочих нагрузок (92,64% против 65,87%), точность модели и пригодность для более широкого диапазона операций. Кроме того, наши результаты свидетельствуют о том, что E4M3 лучше подходит для моделей NLP, тогда как E3M4 показывает немного лучшие результаты, чем E4M3, в задачах компьютерного зрения. Код доступен публично в Intel Neural Compressor: https://github.com/intel/neural-compressor.
English
Recent advances in deep learning methods such as LLMs and Diffusion models have created a need for improved quantization methods that can meet the computational demands of these modern architectures while maintaining accuracy. Towards this goal, we study the advantages of FP8 data formats for post-training quantization across 75 unique network architectures covering a wide range of tasks, including machine translation, language modeling, text generation, image classification, generation, and segmentation. We examine three different FP8 representations (E5M2, E4M3, and E3M4) to study the effects of varying degrees of trade-off between dynamic range and precision on model accuracy. Based on our extensive study, we developed a quantization workflow that generalizes across different network architectures. Our empirical results show that FP8 formats outperform INT8 in multiple aspects, including workload coverage (92.64% vs. 65.87%), model accuracy and suitability for a broader range of operations. Furthermore, our findings suggest that E4M3 is better suited for NLP models, whereas E3M4 performs marginally better than E4M3 on computer vision tasks. The code is publicly available on Intel Neural Compressor: https://github.com/intel/neural-compressor.
PDF112December 15, 2024