FLIQS: Búsqueda de Cuantización en un Solo Paso para Punto Flotante y Entero de Precisión Mixta
FLIQS: One-Shot Mixed-Precision Floating-Point and Integer Quantization Search
August 7, 2023
Autores: Jordan Dotzel, Gang Wu, Andrew Li, Muhammad Umar, Yun Ni, Mohamed S. Abdelfattah, Zhiru Zhang, Liqun Cheng, Martin G. Dixon, Norman P. Jouppi, Quoc V. Le, Sheng Li
cs.AI
Resumen
La cuantización se ha convertido en una técnica de compresión predominante para reducir el tamaño de los modelos, los requisitos computacionales y el consumo de energía en las redes neuronales profundas (DNN) modernas. Con el mejor soporte numérico en hardware reciente, que incluye múltiples variantes de enteros y punto flotante, la cuantización de precisión mixta se ha vuelto necesaria para lograr resultados de alta calidad con un costo de modelo reducido. Los métodos previos de cuantización de precisión mixta han realizado una búsqueda de cuantización post-entrenamiento, lo que compromete la precisión, o una búsqueda de cuantización diferenciable, lo que genera un alto uso de memoria debido a la ramificación. Por lo tanto, proponemos la primera búsqueda de cuantización de precisión mixta en un solo paso que elimina la necesidad de reentrenamiento tanto en modelos de enteros como de punto flotante de baja precisión. Evaluamos nuestra búsqueda de cuantización de punto flotante y enteros (FLIQS) en múltiples redes convolucionales y modelos de transformadores de visión para descubrir modelos Pareto-óptimos. Nuestro enfoque descubre modelos que superan a la precisión uniforme, la precisión mixta manual y los métodos recientes de búsqueda de cuantización de enteros. Con la búsqueda de cuantización de enteros propuesta, aumentamos la precisión de ResNet-18 en ImageNet en 1.31 puntos porcentuales y de ResNet-50 en 0.90 puntos porcentuales con un costo de modelo equivalente en comparación con métodos anteriores. Además, por primera vez, exploramos una novedosa búsqueda de precisión mixta en punto flotante y mejoramos MobileNetV2 hasta en 0.98 puntos porcentuales en comparación con los modelos FP8 más avanzados anteriores. Finalmente, extendemos FLIQS para buscar simultáneamente un espacio conjunto de cuantización y arquitectura neuronal, mejorando la precisión en ImageNet en 2.69 puntos porcentuales con un costo de modelo similar en un espacio de búsqueda de MobileNetV2.
English
Quantization has become a mainstream compression technique for reducing model
size, computational requirements, and energy consumption for modern deep neural
networks (DNNs). With the improved numerical support in recent hardware,
including multiple variants of integer and floating point, mixed-precision
quantization has become necessary to achieve high-quality results with low
model cost. Prior mixed-precision quantization methods have performed a
post-training quantization search, which compromises on accuracy, or a
differentiable quantization search, which leads to high memory usage from
branching. Therefore, we propose the first one-shot mixed-precision
quantization search that eliminates the need for retraining in both integer and
low-precision floating point models. We evaluate our floating-point and integer
quantization search (FLIQS) on multiple convolutional networks and vision
transformer models to discover Pareto-optimal models. Our approach discovers
models that improve upon uniform precision, manual mixed-precision, and recent
integer quantization search methods. With the proposed integer quantization
search, we increase the accuracy of ResNet-18 on ImageNet by 1.31% points and
ResNet-50 by 0.90% points with equivalent model cost over previous methods.
Additionally, for the first time, we explore a novel mixed-precision
floating-point search and improve MobileNetV2 by up to 0.98% points compared to
prior state-of-the-art FP8 models. Finally, we extend FLIQS to simultaneously
search a joint quantization and neural architecture space and improve the
ImageNet accuracy by 2.69% points with similar model cost on a MobileNetV2
search space.