MobileQuant: Mobile-freundliche Quantisierung für On-Device Sprachmodelle

papers.abstract

Große Sprachmodelle (LLMs) haben die Sprachverarbeitung revolutioniert und liefern herausragende Ergebnisse in verschiedenen Anwendungen. Die Bereitstellung von LLMs auf Edge-Geräten stellt jedoch mehrere Herausforderungen hinsichtlich Speicher, Energie und Rechenkosten dar, was ihre weitreichende Verwendung in Geräten wie Mobiltelefonen einschränkt. Eine vielversprechende Lösung besteht darin, die Anzahl der Bits zur Darstellung von Gewichten und Aktivierungen zu reduzieren. Während bestehende Arbeiten teilweise erfolgreich waren, LLMs auf niedrigere Bitbreiten zu quantisieren, z. B. 4-Bit-Gewichte, führt die Quantisierung von Aktivierungen über 16 Bits oft zu großen Rechenüberlastungen aufgrund unzureichender Unterstützung für die Gerätequantisierung oder einem erheblichen Genauigkeitsverlust. Dennoch sind 8-Bit-Aktivierungen für die Bereitstellung auf Geräten sehr attraktiv, da sie es LLMs ermöglichen würden, die hardwarefreundlichen Funktionen von Mobilgeräten voll auszuschöpfen, z. B. Neural Processing Units (NPUs). In dieser Arbeit unternehmen wir den ersten Versuch, die Bereitstellung von LLMs auf Geräten mithilfe der ausschließlichen Ganzzahl-Quantisierung zu erleichtern. Zunächst untersuchen wir die Grenzen bestehender Quantisierungsmethoden für die Bereitstellung auf Geräten, wobei wir uns besonders auf die Aktivierungsquantisierung konzentrieren. Anschließend beheben wir diese Einschränkungen, indem wir eine einfache Post-Training-Quantisierungsmethode namens MobileQuant vorstellen, die frühere Arbeiten zur Gewichtsäquivalenttransformation erweitert, indem sie die Gewichtstransformation und Aktivierungsbereichsparameter gemeinsam in einem End-to-End-Verfahren optimiert. MobileQuant zeigt überlegene Fähigkeiten im Vergleich zu bestehenden Methoden, indem es 1) eine nahezu verlustfreie Quantisierung auf einer Vielzahl von LLM-Benchmarks erreicht, 2) Latenz und Energieverbrauch um 20\%-50\% im Vergleich zu aktuellen On-Device-Quantisierungsstrategien reduziert, 3) einen begrenzten Rechenbudgetbedarf hat und 4) mit hardwarefreundlichen Recheneinheiten wie NPU kompatibel ist.

English

Large language models (LLMs) have revolutionized language processing, delivering outstanding results across multiple applications. However, deploying LLMs on edge devices poses several challenges with respect to memory, energy, and compute costs, limiting their widespread use in devices such as mobile phones. A promising solution is to reduce the number of bits used to represent weights and activations. While existing works have found partial success at quantizing LLMs to lower bitwidths, e.g. 4-bit weights, quantizing activations beyond 16 bits often leads to large computational overheads due to poor on-device quantization support, or a considerable accuracy drop. Yet, 8-bit activations are very attractive for on-device deployment as they would enable LLMs to fully exploit mobile-friendly hardware, e.g. Neural Processing Units (NPUs). In this work, we make a first attempt to facilitate the on-device deployment of LLMs using integer-only quantization. We first investigate the limitations of existing quantization methods for on-device deployment, with a special focus on activation quantization. We then address these limitations by introducing a simple post-training quantization method, named MobileQuant, that extends previous weight equivalent transformation works by jointly optimizing the weight transformation and activation range parameters in an end-to-end manner. MobileQuant demonstrates superior capabilities over existing methods by 1) achieving near-lossless quantization on a wide range of LLM benchmarks, 2) reducing latency and energy consumption by 20\%-50\% compared to current on-device quantization strategies, 3) requiring limited compute budget, 4) being compatible with mobile-friendly compute units, e.g. NPU.

MobileQuant: Mobile-freundliche Quantisierung für On-Device Sprachmodelle

MobileQuant: Mobile-friendly Quantization for On-device Language Models

papers.abstract

Support