ChatPaper.aiChatPaper

MobileQuant: Kwantizering voor mobiel gebruik voor taalmodellen op apparaten

MobileQuant: Mobile-friendly Quantization for On-device Language Models

August 25, 2024
Auteurs: Fuwen Tan, Royson Lee, Łukasz Dudziak, Shell Xu Hu, Sourav Bhattacharya, Timothy Hospedales, Georgios Tzimiropoulos, Brais Martinez
cs.AI

Samenvatting

Grote taalmodellen (LLMs) hebben een revolutie teweeggebracht in taalverwerking, waarbij ze uitstekende resultaten leveren in diverse toepassingen. Het implementeren van LLMs op edge-apparaten brengt echter verschillende uitdagingen met zich mee op het gebied van geheugen, energie en rekenkosten, wat hun brede inzet in apparaten zoals mobiele telefoons beperkt. Een veelbelovende oplossing is het verminderen van het aantal bits dat wordt gebruikt om gewichten en activeringen weer te geven. Hoewel bestaande werken gedeeltelijk succes hebben geboekt bij het kwantiseren van LLMs naar lagere bitbreedtes, bijvoorbeeld 4-bit gewichten, leidt het kwantiseren van activeringen voorbij 16 bits vaak tot grote rekenkundige overhead door slechte ondersteuning voor kwantisatie op het apparaat, of tot een aanzienlijke nauwkeurigheidsdaling. Toch zijn 8-bit activeringen zeer aantrekkelijk voor implementatie op het apparaat, omdat ze LLMs in staat zouden stellen om volledig gebruik te maken van mobielvriendelijke hardware, zoals Neural Processing Units (NPUs). In dit werk doen we een eerste poging om de implementatie van LLMs op het apparaat te vergemakkelijken door gebruik te maken van integer-only kwantisatie. We onderzoeken eerst de beperkingen van bestaande kwantiseringsmethoden voor implementatie op het apparaat, met speciale aandacht voor activeringskwantisatie. Vervolgens pakken we deze beperkingen aan door een eenvoudige post-training kwantiseringsmethode te introduceren, genaamd MobileQuant, die eerdere werken over gewichtsequivalenttransformatie uitbreidt door gezamenlijk de gewichtstransformatie en activeringsbereikparameters te optimaliseren op een end-to-end manier. MobileQuant toont superieure capaciteiten ten opzichte van bestaande methoden door 1) bijna verliesvrije kwantisatie te bereiken op een breed scala aan LLM-benchmarks, 2) latentie en energieverbruik met 20\%-50\% te verminderen in vergelijking met huidige kwantiseringsstrategieën op het apparaat, 3) een beperkt rekenbudget te vereisen, 4) compatibel te zijn met mobielvriendelijke rekenunits, zoals NPU.
English
Large language models (LLMs) have revolutionized language processing, delivering outstanding results across multiple applications. However, deploying LLMs on edge devices poses several challenges with respect to memory, energy, and compute costs, limiting their widespread use in devices such as mobile phones. A promising solution is to reduce the number of bits used to represent weights and activations. While existing works have found partial success at quantizing LLMs to lower bitwidths, e.g. 4-bit weights, quantizing activations beyond 16 bits often leads to large computational overheads due to poor on-device quantization support, or a considerable accuracy drop. Yet, 8-bit activations are very attractive for on-device deployment as they would enable LLMs to fully exploit mobile-friendly hardware, e.g. Neural Processing Units (NPUs). In this work, we make a first attempt to facilitate the on-device deployment of LLMs using integer-only quantization. We first investigate the limitations of existing quantization methods for on-device deployment, with a special focus on activation quantization. We then address these limitations by introducing a simple post-training quantization method, named MobileQuant, that extends previous weight equivalent transformation works by jointly optimizing the weight transformation and activation range parameters in an end-to-end manner. MobileQuant demonstrates superior capabilities over existing methods by 1) achieving near-lossless quantization on a wide range of LLM benchmarks, 2) reducing latency and energy consumption by 20\%-50\% compared to current on-device quantization strategies, 3) requiring limited compute budget, 4) being compatible with mobile-friendly compute units, e.g. NPU.
PDF162November 16, 2024