FLIQS: Однократный поиск смешанной точности для квантования чисел с плавающей запятой и целых чисел
FLIQS: One-Shot Mixed-Precision Floating-Point and Integer Quantization Search
August 7, 2023
Авторы: Jordan Dotzel, Gang Wu, Andrew Li, Muhammad Umar, Yun Ni, Mohamed S. Abdelfattah, Zhiru Zhang, Liqun Cheng, Martin G. Dixon, Norman P. Jouppi, Quoc V. Le, Sheng Li
cs.AI
Аннотация
Квантование стало основным методом сжатия для уменьшения размера модели, вычислительных требований и энергопотребления современных глубоких нейронных сетей (DNN). С улучшенной поддержкой числовых форматов в современных аппаратных средствах, включая различные варианты целочисленных и чисел с плавающей запятой, смешанная точность квантования стала необходимой для достижения высококачественных результатов при низкой стоимости модели. Предыдущие методы смешанной точности квантования выполняли поиск квантования после обучения, что компрометировало точность, или дифференцируемый поиск квантования, что приводило к высокому использованию памяти из-за ветвления. Поэтому мы предлагаем первый одноэтапный поиск смешанной точности квантования, который устраняет необходимость повторного обучения как для целочисленных, так и для моделей с низкой точностью чисел с плавающей запятой. Мы оцениваем наш поиск квантования для чисел с плавающей запятой и целых чисел (FLIQS) на нескольких сверточных сетях и моделях трансформеров для визуальных данных, чтобы обнаружить Парето-оптимальные модели. Наш подход обнаруживает модели, которые превосходят равномерную точность, ручную смешанную точность и недавние методы поиска целочисленного квантования. С предложенным поиском целочисленного квантования мы увеличиваем точность ResNet-18 на ImageNet на 1.31 процентных пункта и ResNet-50 на 0.90 процентных пункта при эквивалентной стоимости модели по сравнению с предыдущими методами. Кроме того, впервые мы исследуем новый поиск смешанной точности для чисел с плавающей запятой и улучшаем MobileNetV2 до 0.98 процентных пункта по сравнению с предыдущими моделями FP8, достигшими наилучших результатов. Наконец, мы расширяем FLIQS для одновременного поиска в совместном пространстве квантования и архитектуры нейронных сетей и улучшаем точность на ImageNet на 2.69 процентных пункта при аналогичной стоимости модели в пространстве поиска MobileNetV2.
English
Quantization has become a mainstream compression technique for reducing model
size, computational requirements, and energy consumption for modern deep neural
networks (DNNs). With the improved numerical support in recent hardware,
including multiple variants of integer and floating point, mixed-precision
quantization has become necessary to achieve high-quality results with low
model cost. Prior mixed-precision quantization methods have performed a
post-training quantization search, which compromises on accuracy, or a
differentiable quantization search, which leads to high memory usage from
branching. Therefore, we propose the first one-shot mixed-precision
quantization search that eliminates the need for retraining in both integer and
low-precision floating point models. We evaluate our floating-point and integer
quantization search (FLIQS) on multiple convolutional networks and vision
transformer models to discover Pareto-optimal models. Our approach discovers
models that improve upon uniform precision, manual mixed-precision, and recent
integer quantization search methods. With the proposed integer quantization
search, we increase the accuracy of ResNet-18 on ImageNet by 1.31% points and
ResNet-50 by 0.90% points with equivalent model cost over previous methods.
Additionally, for the first time, we explore a novel mixed-precision
floating-point search and improve MobileNetV2 by up to 0.98% points compared to
prior state-of-the-art FP8 models. Finally, we extend FLIQS to simultaneously
search a joint quantization and neural architecture space and improve the
ImageNet accuracy by 2.69% points with similar model cost on a MobileNetV2
search space.