FLIQS: Ricerca One-Shot per la Quantizzazione Mista in Precisione Floating-Point e Integer

Abstract

La quantizzazione è diventata una tecnica di compressione mainstream per ridurre le dimensioni del modello, i requisiti computazionali e il consumo energetico delle moderne reti neurali profonde (DNN). Con il miglioramento del supporto numerico nell'hardware recente, che include molteplici varianti di numeri interi e in virgola mobile, la quantizzazione a precisione mista è diventata necessaria per ottenere risultati di alta qualità con un costo del modello ridotto. I precedenti metodi di quantizzazione a precisione mista hanno eseguito una ricerca di quantizzazione post-addestramento, che compromette l'accuratezza, o una ricerca di quantizzazione differenziabile, che porta a un elevato utilizzo di memoria a causa del branching. Pertanto, proponiamo la prima ricerca di quantizzazione a precisione mista one-shot che elimina la necessità di riaddestramento sia per i modelli interi che per quelli a bassa precisione in virgola mobile. Valutiamo la nostra ricerca di quantizzazione in virgola mobile e intera (FLIQS) su molteplici reti convoluzionali e modelli di vision transformer per scoprire modelli Pareto-ottimali. Il nostro approccio individua modelli che migliorano rispetto alla precisione uniforme, alla precisione mista manuale e ai recenti metodi di ricerca di quantizzazione intera. Con la proposta ricerca di quantizzazione intera, aumentiamo l'accuratezza di ResNet-18 su ImageNet di 1,31 punti percentuali e di ResNet-50 di 0,90 punti percentuali, mantenendo un costo del modello equivalente rispetto ai metodi precedenti. Inoltre, per la prima volta, esploriamo una nuova ricerca di quantizzazione a precisione mista in virgola mobile e miglioriamo MobileNetV2 fino a 0,98 punti percentuali rispetto ai precedenti modelli FP8 all'avanguardia. Infine, estendiamo FLIQS per cercare simultaneamente uno spazio di quantizzazione congiunto e di architettura neurale, migliorando l'accuratezza su ImageNet di 2,69 punti percentuali con un costo del modello simile in uno spazio di ricerca MobileNetV2.

English

Quantization has become a mainstream compression technique for reducing model size, computational requirements, and energy consumption for modern deep neural networks (DNNs). With the improved numerical support in recent hardware, including multiple variants of integer and floating point, mixed-precision quantization has become necessary to achieve high-quality results with low model cost. Prior mixed-precision quantization methods have performed a post-training quantization search, which compromises on accuracy, or a differentiable quantization search, which leads to high memory usage from branching. Therefore, we propose the first one-shot mixed-precision quantization search that eliminates the need for retraining in both integer and low-precision floating point models. We evaluate our floating-point and integer quantization search (FLIQS) on multiple convolutional networks and vision transformer models to discover Pareto-optimal models. Our approach discovers models that improve upon uniform precision, manual mixed-precision, and recent integer quantization search methods. With the proposed integer quantization search, we increase the accuracy of ResNet-18 on ImageNet by 1.31% points and ResNet-50 by 0.90% points with equivalent model cost over previous methods. Additionally, for the first time, we explore a novel mixed-precision floating-point search and improve MobileNetV2 by up to 0.98% points compared to prior state-of-the-art FP8 models. Finally, we extend FLIQS to simultaneously search a joint quantization and neural architecture space and improve the ImageNet accuracy by 2.69% points with similar model cost on a MobileNetV2 search space.

FLIQS: Ricerca One-Shot per la Quantizzazione Mista in Precisione Floating-Point e Integer

FLIQS: One-Shot Mixed-Precision Floating-Point and Integer Quantization Search

Abstract

Support