FLIQS: Búsqueda de Cuantización en un Solo Paso para Punto Flotante y Entero de Precisión Mixta

Resumen

La cuantización se ha convertido en una técnica de compresión predominante para reducir el tamaño de los modelos, los requisitos computacionales y el consumo de energía en las redes neuronales profundas (DNN) modernas. Con el mejor soporte numérico en hardware reciente, que incluye múltiples variantes de enteros y punto flotante, la cuantización de precisión mixta se ha vuelto necesaria para lograr resultados de alta calidad con un costo de modelo reducido. Los métodos previos de cuantización de precisión mixta han realizado una búsqueda de cuantización post-entrenamiento, lo que compromete la precisión, o una búsqueda de cuantización diferenciable, lo que genera un alto uso de memoria debido a la ramificación. Por lo tanto, proponemos la primera búsqueda de cuantización de precisión mixta en un solo paso que elimina la necesidad de reentrenamiento tanto en modelos de enteros como de punto flotante de baja precisión. Evaluamos nuestra búsqueda de cuantización de punto flotante y enteros (FLIQS) en múltiples redes convolucionales y modelos de transformadores de visión para descubrir modelos Pareto-óptimos. Nuestro enfoque descubre modelos que superan a la precisión uniforme, la precisión mixta manual y los métodos recientes de búsqueda de cuantización de enteros. Con la búsqueda de cuantización de enteros propuesta, aumentamos la precisión de ResNet-18 en ImageNet en 1.31 puntos porcentuales y de ResNet-50 en 0.90 puntos porcentuales con un costo de modelo equivalente en comparación con métodos anteriores. Además, por primera vez, exploramos una novedosa búsqueda de precisión mixta en punto flotante y mejoramos MobileNetV2 hasta en 0.98 puntos porcentuales en comparación con los modelos FP8 más avanzados anteriores. Finalmente, extendemos FLIQS para buscar simultáneamente un espacio conjunto de cuantización y arquitectura neuronal, mejorando la precisión en ImageNet en 2.69 puntos porcentuales con un costo de modelo similar en un espacio de búsqueda de MobileNetV2.

English

Quantization has become a mainstream compression technique for reducing model size, computational requirements, and energy consumption for modern deep neural networks (DNNs). With the improved numerical support in recent hardware, including multiple variants of integer and floating point, mixed-precision quantization has become necessary to achieve high-quality results with low model cost. Prior mixed-precision quantization methods have performed a post-training quantization search, which compromises on accuracy, or a differentiable quantization search, which leads to high memory usage from branching. Therefore, we propose the first one-shot mixed-precision quantization search that eliminates the need for retraining in both integer and low-precision floating point models. We evaluate our floating-point and integer quantization search (FLIQS) on multiple convolutional networks and vision transformer models to discover Pareto-optimal models. Our approach discovers models that improve upon uniform precision, manual mixed-precision, and recent integer quantization search methods. With the proposed integer quantization search, we increase the accuracy of ResNet-18 on ImageNet by 1.31% points and ResNet-50 by 0.90% points with equivalent model cost over previous methods. Additionally, for the first time, we explore a novel mixed-precision floating-point search and improve MobileNetV2 by up to 0.98% points compared to prior state-of-the-art FP8 models. Finally, we extend FLIQS to simultaneously search a joint quantization and neural architecture space and improve the ImageNet accuracy by 2.69% points with similar model cost on a MobileNetV2 search space.

FLIQS: Búsqueda de Cuantización en un Solo Paso para Punto Flotante y Entero de Precisión Mixta

FLIQS: One-Shot Mixed-Precision Floating-Point and Integer Quantization Search

Resumen

Support