MobileQuant: Mobile-freundliche Quantisierung für On-Device Sprachmodelle
MobileQuant: Mobile-friendly Quantization for On-device Language Models
August 25, 2024
Autoren: Fuwen Tan, Royson Lee, Łukasz Dudziak, Shell Xu Hu, Sourav Bhattacharya, Timothy Hospedales, Georgios Tzimiropoulos, Brais Martinez
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben die Sprachverarbeitung revolutioniert und liefern herausragende Ergebnisse in verschiedenen Anwendungen. Die Bereitstellung von LLMs auf Edge-Geräten stellt jedoch mehrere Herausforderungen hinsichtlich Speicher, Energie und Rechenkosten dar, was ihre weitreichende Verwendung in Geräten wie Mobiltelefonen einschränkt. Eine vielversprechende Lösung besteht darin, die Anzahl der Bits zur Darstellung von Gewichten und Aktivierungen zu reduzieren. Während bestehende Arbeiten teilweise erfolgreich waren, LLMs auf niedrigere Bitbreiten zu quantisieren, z. B. 4-Bit-Gewichte, führt die Quantisierung von Aktivierungen über 16 Bits oft zu großen Rechenüberlastungen aufgrund unzureichender Unterstützung für die Gerätequantisierung oder einem erheblichen Genauigkeitsverlust. Dennoch sind 8-Bit-Aktivierungen für die Bereitstellung auf Geräten sehr attraktiv, da sie es LLMs ermöglichen würden, die hardwarefreundlichen Funktionen von Mobilgeräten voll auszuschöpfen, z. B. Neural Processing Units (NPUs). In dieser Arbeit unternehmen wir den ersten Versuch, die Bereitstellung von LLMs auf Geräten mithilfe der ausschließlichen Ganzzahl-Quantisierung zu erleichtern. Zunächst untersuchen wir die Grenzen bestehender Quantisierungsmethoden für die Bereitstellung auf Geräten, wobei wir uns besonders auf die Aktivierungsquantisierung konzentrieren. Anschließend beheben wir diese Einschränkungen, indem wir eine einfache Post-Training-Quantisierungsmethode namens MobileQuant vorstellen, die frühere Arbeiten zur Gewichtsäquivalenttransformation erweitert, indem sie die Gewichtstransformation und Aktivierungsbereichsparameter gemeinsam in einem End-to-End-Verfahren optimiert. MobileQuant zeigt überlegene Fähigkeiten im Vergleich zu bestehenden Methoden, indem es 1) eine nahezu verlustfreie Quantisierung auf einer Vielzahl von LLM-Benchmarks erreicht, 2) Latenz und Energieverbrauch um 20\%-50\% im Vergleich zu aktuellen On-Device-Quantisierungsstrategien reduziert, 3) einen begrenzten Rechenbudgetbedarf hat und 4) mit hardwarefreundlichen Recheneinheiten wie NPU kompatibel ist.
English
Large language models (LLMs) have revolutionized language processing,
delivering outstanding results across multiple applications. However, deploying
LLMs on edge devices poses several challenges with respect to memory, energy,
and compute costs, limiting their widespread use in devices such as mobile
phones. A promising solution is to reduce the number of bits used to represent
weights and activations. While existing works have found partial success at
quantizing LLMs to lower bitwidths, e.g. 4-bit weights, quantizing activations
beyond 16 bits often leads to large computational overheads due to poor
on-device quantization support, or a considerable accuracy drop. Yet, 8-bit
activations are very attractive for on-device deployment as they would enable
LLMs to fully exploit mobile-friendly hardware, e.g. Neural Processing Units
(NPUs). In this work, we make a first attempt to facilitate the on-device
deployment of LLMs using integer-only quantization. We first investigate the
limitations of existing quantization methods for on-device deployment, with a
special focus on activation quantization. We then address these limitations by
introducing a simple post-training quantization method, named MobileQuant, that
extends previous weight equivalent transformation works by jointly optimizing
the weight transformation and activation range parameters in an end-to-end
manner. MobileQuant demonstrates superior capabilities over existing methods by
1) achieving near-lossless quantization on a wide range of LLM benchmarks, 2)
reducing latency and energy consumption by 20\%-50\% compared to current
on-device quantization strategies, 3) requiring limited compute budget, 4)
being compatible with mobile-friendly compute units, e.g. NPU.Summary
AI-Generated Summary