ChatPaper.aiChatPaper

FLIQS: Однократный поиск смешанной точности для квантования чисел с плавающей запятой и целых чисел

FLIQS: One-Shot Mixed-Precision Floating-Point and Integer Quantization Search

August 7, 2023
Авторы: Jordan Dotzel, Gang Wu, Andrew Li, Muhammad Umar, Yun Ni, Mohamed S. Abdelfattah, Zhiru Zhang, Liqun Cheng, Martin G. Dixon, Norman P. Jouppi, Quoc V. Le, Sheng Li
cs.AI

Аннотация

Квантование стало основным методом сжатия для уменьшения размера модели, вычислительных требований и энергопотребления современных глубоких нейронных сетей (DNN). С улучшенной поддержкой числовых форматов в современных аппаратных средствах, включая различные варианты целочисленных и чисел с плавающей запятой, смешанная точность квантования стала необходимой для достижения высококачественных результатов при низкой стоимости модели. Предыдущие методы смешанной точности квантования выполняли поиск квантования после обучения, что компрометировало точность, или дифференцируемый поиск квантования, что приводило к высокому использованию памяти из-за ветвления. Поэтому мы предлагаем первый одноэтапный поиск смешанной точности квантования, который устраняет необходимость повторного обучения как для целочисленных, так и для моделей с низкой точностью чисел с плавающей запятой. Мы оцениваем наш поиск квантования для чисел с плавающей запятой и целых чисел (FLIQS) на нескольких сверточных сетях и моделях трансформеров для визуальных данных, чтобы обнаружить Парето-оптимальные модели. Наш подход обнаруживает модели, которые превосходят равномерную точность, ручную смешанную точность и недавние методы поиска целочисленного квантования. С предложенным поиском целочисленного квантования мы увеличиваем точность ResNet-18 на ImageNet на 1.31 процентных пункта и ResNet-50 на 0.90 процентных пункта при эквивалентной стоимости модели по сравнению с предыдущими методами. Кроме того, впервые мы исследуем новый поиск смешанной точности для чисел с плавающей запятой и улучшаем MobileNetV2 до 0.98 процентных пункта по сравнению с предыдущими моделями FP8, достигшими наилучших результатов. Наконец, мы расширяем FLIQS для одновременного поиска в совместном пространстве квантования и архитектуры нейронных сетей и улучшаем точность на ImageNet на 2.69 процентных пункта при аналогичной стоимости модели в пространстве поиска MobileNetV2.
English
Quantization has become a mainstream compression technique for reducing model size, computational requirements, and energy consumption for modern deep neural networks (DNNs). With the improved numerical support in recent hardware, including multiple variants of integer and floating point, mixed-precision quantization has become necessary to achieve high-quality results with low model cost. Prior mixed-precision quantization methods have performed a post-training quantization search, which compromises on accuracy, or a differentiable quantization search, which leads to high memory usage from branching. Therefore, we propose the first one-shot mixed-precision quantization search that eliminates the need for retraining in both integer and low-precision floating point models. We evaluate our floating-point and integer quantization search (FLIQS) on multiple convolutional networks and vision transformer models to discover Pareto-optimal models. Our approach discovers models that improve upon uniform precision, manual mixed-precision, and recent integer quantization search methods. With the proposed integer quantization search, we increase the accuracy of ResNet-18 on ImageNet by 1.31% points and ResNet-50 by 0.90% points with equivalent model cost over previous methods. Additionally, for the first time, we explore a novel mixed-precision floating-point search and improve MobileNetV2 by up to 0.98% points compared to prior state-of-the-art FP8 models. Finally, we extend FLIQS to simultaneously search a joint quantization and neural architecture space and improve the ImageNet accuracy by 2.69% points with similar model cost on a MobileNetV2 search space.
PDF60December 15, 2024