FLIQS: Ricerca One-Shot per la Quantizzazione Mista in Precisione Floating-Point e Integer
FLIQS: One-Shot Mixed-Precision Floating-Point and Integer Quantization Search
August 7, 2023
Autori: Jordan Dotzel, Gang Wu, Andrew Li, Muhammad Umar, Yun Ni, Mohamed S. Abdelfattah, Zhiru Zhang, Liqun Cheng, Martin G. Dixon, Norman P. Jouppi, Quoc V. Le, Sheng Li
cs.AI
Abstract
La quantizzazione è diventata una tecnica di compressione mainstream per ridurre le dimensioni del modello, i requisiti computazionali e il consumo energetico delle moderne reti neurali profonde (DNN). Con il miglioramento del supporto numerico nell'hardware recente, che include molteplici varianti di numeri interi e in virgola mobile, la quantizzazione a precisione mista è diventata necessaria per ottenere risultati di alta qualità con un costo del modello ridotto. I precedenti metodi di quantizzazione a precisione mista hanno eseguito una ricerca di quantizzazione post-addestramento, che compromette l'accuratezza, o una ricerca di quantizzazione differenziabile, che porta a un elevato utilizzo di memoria a causa del branching. Pertanto, proponiamo la prima ricerca di quantizzazione a precisione mista one-shot che elimina la necessità di riaddestramento sia per i modelli interi che per quelli a bassa precisione in virgola mobile. Valutiamo la nostra ricerca di quantizzazione in virgola mobile e intera (FLIQS) su molteplici reti convoluzionali e modelli di vision transformer per scoprire modelli Pareto-ottimali. Il nostro approccio individua modelli che migliorano rispetto alla precisione uniforme, alla precisione mista manuale e ai recenti metodi di ricerca di quantizzazione intera. Con la proposta ricerca di quantizzazione intera, aumentiamo l'accuratezza di ResNet-18 su ImageNet di 1,31 punti percentuali e di ResNet-50 di 0,90 punti percentuali, mantenendo un costo del modello equivalente rispetto ai metodi precedenti. Inoltre, per la prima volta, esploriamo una nuova ricerca di quantizzazione a precisione mista in virgola mobile e miglioriamo MobileNetV2 fino a 0,98 punti percentuali rispetto ai precedenti modelli FP8 all'avanguardia. Infine, estendiamo FLIQS per cercare simultaneamente uno spazio di quantizzazione congiunto e di architettura neurale, migliorando l'accuratezza su ImageNet di 2,69 punti percentuali con un costo del modello simile in uno spazio di ricerca MobileNetV2.
English
Quantization has become a mainstream compression technique for reducing model
size, computational requirements, and energy consumption for modern deep neural
networks (DNNs). With the improved numerical support in recent hardware,
including multiple variants of integer and floating point, mixed-precision
quantization has become necessary to achieve high-quality results with low
model cost. Prior mixed-precision quantization methods have performed a
post-training quantization search, which compromises on accuracy, or a
differentiable quantization search, which leads to high memory usage from
branching. Therefore, we propose the first one-shot mixed-precision
quantization search that eliminates the need for retraining in both integer and
low-precision floating point models. We evaluate our floating-point and integer
quantization search (FLIQS) on multiple convolutional networks and vision
transformer models to discover Pareto-optimal models. Our approach discovers
models that improve upon uniform precision, manual mixed-precision, and recent
integer quantization search methods. With the proposed integer quantization
search, we increase the accuracy of ResNet-18 on ImageNet by 1.31% points and
ResNet-50 by 0.90% points with equivalent model cost over previous methods.
Additionally, for the first time, we explore a novel mixed-precision
floating-point search and improve MobileNetV2 by up to 0.98% points compared to
prior state-of-the-art FP8 models. Finally, we extend FLIQS to simultaneously
search a joint quantization and neural architecture space and improve the
ImageNet accuracy by 2.69% points with similar model cost on a MobileNetV2
search space.