MobileQuant : Quantification adaptée aux appareils mobiles pour les modèles de langage sur appareil.
MobileQuant: Mobile-friendly Quantization for On-device Language Models
August 25, 2024
Auteurs: Fuwen Tan, Royson Lee, Łukasz Dudziak, Shell Xu Hu, Sourav Bhattacharya, Timothy Hospedales, Georgios Tzimiropoulos, Brais Martinez
cs.AI
Résumé
Les grands modèles de langage (LLM) ont révolutionné le traitement du langage, offrant des résultats exceptionnels dans de multiples applications. Cependant, le déploiement des LLM sur des appareils périphériques pose plusieurs défis en termes de mémoire, d'énergie et de coûts de calcul, limitant leur utilisation généralisée sur des appareils tels que les téléphones mobiles. Une solution prometteuse consiste à réduire le nombre de bits utilisés pour représenter les poids et les activations. Bien que des travaux existants aient obtenu un succès partiel en quantifiant les LLM à des largeurs de bits inférieures, par exemple des poids sur 4 bits, quantifier les activations au-delà de 16 bits entraîne souvent des surcoûts computationnels importants en raison d'un support de quantification médiocre sur l'appareil ou d'une chute de précision considérable. Cependant, les activations sur 8 bits sont très attrayantes pour le déploiement sur appareil car elles permettraient aux LLM d'exploiter pleinement le matériel adapté aux mobiles, par exemple les unités de traitement neuronal (NPU). Dans ce travail, nous faisons une première tentative pour faciliter le déploiement sur appareil des LLM en utilisant une quantification entièrement entière. Nous examinons d'abord les limites des méthodes de quantification existantes pour le déploiement sur appareil, en mettant l'accent sur la quantification des activations. Nous abordons ensuite ces limites en introduisant une méthode de quantification post-entraînement simple, appelée MobileQuant, qui étend les travaux précédents sur la transformation équivalente des poids en optimisant conjointement la transformation des poids et les paramètres de plage d'activation de manière intégrée. MobileQuant démontre des capacités supérieures aux méthodes existantes en 1) atteignant une quantification quasi sans perte sur un large éventail de références LLM, 2) réduisant la latence et la consommation d'énergie de 20 à 50 % par rapport aux stratégies actuelles de quantification sur appareil, 3) nécessitant un budget de calcul limité, 4) étant compatible avec les unités de calcul adaptées aux mobiles, par exemple les NPU.
English
Large language models (LLMs) have revolutionized language processing,
delivering outstanding results across multiple applications. However, deploying
LLMs on edge devices poses several challenges with respect to memory, energy,
and compute costs, limiting their widespread use in devices such as mobile
phones. A promising solution is to reduce the number of bits used to represent
weights and activations. While existing works have found partial success at
quantizing LLMs to lower bitwidths, e.g. 4-bit weights, quantizing activations
beyond 16 bits often leads to large computational overheads due to poor
on-device quantization support, or a considerable accuracy drop. Yet, 8-bit
activations are very attractive for on-device deployment as they would enable
LLMs to fully exploit mobile-friendly hardware, e.g. Neural Processing Units
(NPUs). In this work, we make a first attempt to facilitate the on-device
deployment of LLMs using integer-only quantization. We first investigate the
limitations of existing quantization methods for on-device deployment, with a
special focus on activation quantization. We then address these limitations by
introducing a simple post-training quantization method, named MobileQuant, that
extends previous weight equivalent transformation works by jointly optimizing
the weight transformation and activation range parameters in an end-to-end
manner. MobileQuant demonstrates superior capabilities over existing methods by
1) achieving near-lossless quantization on a wide range of LLM benchmarks, 2)
reducing latency and energy consumption by 20\%-50\% compared to current
on-device quantization strategies, 3) requiring limited compute budget, 4)
being compatible with mobile-friendly compute units, e.g. NPU.Summary
AI-Generated Summary