ChatPaper.aiChatPaper

FLIQS : Recherche de quantification en une étape pour les nombres flottants et entiers en précision mixte

FLIQS: One-Shot Mixed-Precision Floating-Point and Integer Quantization Search

August 7, 2023
papers.authors: Jordan Dotzel, Gang Wu, Andrew Li, Muhammad Umar, Yun Ni, Mohamed S. Abdelfattah, Zhiru Zhang, Liqun Cheng, Martin G. Dixon, Norman P. Jouppi, Quoc V. Le, Sheng Li
cs.AI

papers.abstract

La quantification est devenue une technique de compression largement adoptée pour réduire la taille des modèles, les besoins en calcul et la consommation d'énergie des réseaux de neurones profonds (DNN) modernes. Avec l'amélioration du support numérique dans les matériels récents, incluant plusieurs variantes d'entiers et de nombres flottants, la quantification en précision mixte est devenue nécessaire pour obtenir des résultats de haute qualité à faible coût de modèle. Les méthodes précédentes de quantification en précision mixte ont effectué une recherche de quantification post-entraînement, ce qui compromet la précision, ou une recherche de quantification différentiable, ce qui entraîne une utilisation élevée de mémoire due au branchement. Par conséquent, nous proposons la première recherche de quantification en précision mixte en une seule étape, éliminant le besoin de réentraînement pour les modèles en entiers et en nombres flottants de faible précision. Nous évaluons notre recherche de quantification en nombres flottants et entiers (FLIQS) sur plusieurs réseaux convolutifs et modèles de transformeurs visuels pour découvrir des modèles Pareto-optimaux. Notre approche découvre des modèles qui surpassent la précision uniforme, la précision mixte manuelle et les méthodes récentes de recherche de quantification en entiers. Avec la recherche de quantification en entiers proposée, nous augmentons la précision de ResNet-18 sur ImageNet de 1,31 points de pourcentage et de ResNet-50 de 0,90 points de pourcentage à coût de modèle équivalent par rapport aux méthodes précédentes. De plus, pour la première fois, nous explorons une nouvelle recherche de précision mixte en nombres flottants et améliorons MobileNetV2 jusqu'à 0,98 points de pourcentage par rapport aux modèles FP8 de pointe précédents. Enfin, nous étendons FLIQS pour rechercher simultanément un espace de quantification et d'architecture neuronale conjoints et améliorons la précision sur ImageNet de 2,69 points de pourcentage à coût de modèle similaire sur un espace de recherche MobileNetV2.
English
Quantization has become a mainstream compression technique for reducing model size, computational requirements, and energy consumption for modern deep neural networks (DNNs). With the improved numerical support in recent hardware, including multiple variants of integer and floating point, mixed-precision quantization has become necessary to achieve high-quality results with low model cost. Prior mixed-precision quantization methods have performed a post-training quantization search, which compromises on accuracy, or a differentiable quantization search, which leads to high memory usage from branching. Therefore, we propose the first one-shot mixed-precision quantization search that eliminates the need for retraining in both integer and low-precision floating point models. We evaluate our floating-point and integer quantization search (FLIQS) on multiple convolutional networks and vision transformer models to discover Pareto-optimal models. Our approach discovers models that improve upon uniform precision, manual mixed-precision, and recent integer quantization search methods. With the proposed integer quantization search, we increase the accuracy of ResNet-18 on ImageNet by 1.31% points and ResNet-50 by 0.90% points with equivalent model cost over previous methods. Additionally, for the first time, we explore a novel mixed-precision floating-point search and improve MobileNetV2 by up to 0.98% points compared to prior state-of-the-art FP8 models. Finally, we extend FLIQS to simultaneously search a joint quantization and neural architecture space and improve the ImageNet accuracy by 2.69% points with similar model cost on a MobileNetV2 search space.
PDF60December 15, 2024