ChatPaper.aiChatPaper

MobileQuant: Quantizzazione Ottimizzata per Dispositivi Mobili nei Modelli Linguistici On-device

MobileQuant: Mobile-friendly Quantization for On-device Language Models

August 25, 2024
Autori: Fuwen Tan, Royson Lee, Łukasz Dudziak, Shell Xu Hu, Sourav Bhattacharya, Timothy Hospedales, Georgios Tzimiropoulos, Brais Martinez
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno rivoluzionato l'elaborazione del linguaggio, ottenendo risultati eccezionali in molteplici applicazioni. Tuttavia, l'implementazione degli LLM su dispositivi edge presenta diverse sfide relative alla memoria, all'energia e ai costi computazionali, limitando il loro utilizzo diffuso in dispositivi come i telefoni cellulari. Una soluzione promettente è ridurre il numero di bit utilizzati per rappresentare pesi e attivazioni. Sebbene i lavori esistenti abbiano ottenuto un parziale successo nella quantizzazione degli LLM a bitwidth inferiori, ad esempio pesi a 4 bit, la quantizzazione delle attivazioni oltre i 16 bit spesso comporta un elevato sovraccarico computazionale a causa del supporto limitato per la quantizzazione sui dispositivi, o un significativo calo di accuratezza. Tuttavia, le attivazioni a 8 bit sono molto attraenti per l'implementazione sui dispositivi, poiché consentirebbero agli LLM di sfruttare appieno l'hardware ottimizzato per dispositivi mobili, come le Unità di Elaborazione Neurale (NPU). In questo lavoro, facciamo un primo tentativo per facilitare l'implementazione degli LLM sui dispositivi utilizzando la quantizzazione esclusivamente intera. Iniziamo analizzando i limiti dei metodi di quantizzazione esistenti per l'implementazione sui dispositivi, con un focus particolare sulla quantizzazione delle attivazioni. Successivamente, affrontiamo questi limiti introducendo un semplice metodo di quantizzazione post-addestramento, denominato MobileQuant, che estende i precedenti lavori sulla trasformazione equivalente dei pesi ottimizzando congiuntamente la trasformazione dei pesi e i parametri dell'intervallo di attivazione in modo end-to-end. MobileQuant dimostra capacità superiori rispetto ai metodi esistenti: 1) ottenendo una quantizzazione quasi senza perdite su un'ampia gamma di benchmark LLM, 2) riducendo la latenza e il consumo energetico del 20\%-50\% rispetto alle attuali strategie di quantizzazione sui dispositivi, 3) richiedendo un budget computazionale limitato, 4) essendo compatibile con unità di calcolo ottimizzate per dispositivi mobili, come le NPU.
English
Large language models (LLMs) have revolutionized language processing, delivering outstanding results across multiple applications. However, deploying LLMs on edge devices poses several challenges with respect to memory, energy, and compute costs, limiting their widespread use in devices such as mobile phones. A promising solution is to reduce the number of bits used to represent weights and activations. While existing works have found partial success at quantizing LLMs to lower bitwidths, e.g. 4-bit weights, quantizing activations beyond 16 bits often leads to large computational overheads due to poor on-device quantization support, or a considerable accuracy drop. Yet, 8-bit activations are very attractive for on-device deployment as they would enable LLMs to fully exploit mobile-friendly hardware, e.g. Neural Processing Units (NPUs). In this work, we make a first attempt to facilitate the on-device deployment of LLMs using integer-only quantization. We first investigate the limitations of existing quantization methods for on-device deployment, with a special focus on activation quantization. We then address these limitations by introducing a simple post-training quantization method, named MobileQuant, that extends previous weight equivalent transformation works by jointly optimizing the weight transformation and activation range parameters in an end-to-end manner. MobileQuant demonstrates superior capabilities over existing methods by 1) achieving near-lossless quantization on a wide range of LLM benchmarks, 2) reducing latency and energy consumption by 20\%-50\% compared to current on-device quantization strategies, 3) requiring limited compute budget, 4) being compatible with mobile-friendly compute units, e.g. NPU.
PDF162November 16, 2024