ChatPaper.aiChatPaper

MobileQuant: Cuantificación amigable para dispositivos móviles para modelos de lenguaje en el dispositivo.

MobileQuant: Mobile-friendly Quantization for On-device Language Models

August 25, 2024
Autores: Fuwen Tan, Royson Lee, Łukasz Dudziak, Shell Xu Hu, Sourav Bhattacharya, Timothy Hospedales, Georgios Tzimiropoulos, Brais Martinez
cs.AI

Resumen

Los modelos de lenguaje grandes (LLMs) han revolucionado el procesamiento del lenguaje, ofreciendo resultados sobresalientes en múltiples aplicaciones. Sin embargo, desplegar LLMs en dispositivos periféricos plantea varios desafíos en cuanto a memoria, energía y costos de cómputo, limitando su uso generalizado en dispositivos como teléfonos móviles. Una solución prometedora es reducir el número de bits utilizados para representar pesos y activaciones. Si bien trabajos existentes han tenido cierto éxito al cuantificar LLMs a anchos de bits más bajos, por ejemplo, pesos de 4 bits, cuantificar activaciones más allá de 16 bits a menudo conlleva grandes sobrecargas computacionales debido al escaso soporte de cuantificación en el dispositivo, o una considerable disminución de precisión. Sin embargo, las activaciones de 8 bits son muy atractivas para el despliegue en dispositivos, ya que permitirían a los LLMs aprovechar plenamente el hardware amigable para móviles, por ejemplo, las Unidades de Procesamiento Neural (NPUs). En este trabajo, realizamos un primer intento de facilitar el despliegue en dispositivos de LLMs utilizando cuantificación solo con números enteros. Primero investigamos las limitaciones de los métodos de cuantificación existentes para el despliegue en dispositivos, con un enfoque especial en la cuantificación de activaciones. Luego abordamos estas limitaciones al introducir un método simple de cuantificación posterior al entrenamiento, llamado MobileQuant, que amplía trabajos previos de transformación equivalente de pesos optimizando conjuntamente la transformación de pesos y los parámetros del rango de activación de manera integral. MobileQuant demuestra capacidades superiores sobre los métodos existentes al 1) lograr una cuantificación casi sin pérdidas en una amplia gama de benchmarks de LLMs, 2) reducir la latencia y el consumo de energía en un 20\%-50\% en comparación con las estrategias actuales de cuantificación en dispositivos, 3) requerir un presupuesto de cómputo limitado, 4) ser compatible con unidades de cómputo amigables para móviles, por ejemplo, NPU.
English
Large language models (LLMs) have revolutionized language processing, delivering outstanding results across multiple applications. However, deploying LLMs on edge devices poses several challenges with respect to memory, energy, and compute costs, limiting their widespread use in devices such as mobile phones. A promising solution is to reduce the number of bits used to represent weights and activations. While existing works have found partial success at quantizing LLMs to lower bitwidths, e.g. 4-bit weights, quantizing activations beyond 16 bits often leads to large computational overheads due to poor on-device quantization support, or a considerable accuracy drop. Yet, 8-bit activations are very attractive for on-device deployment as they would enable LLMs to fully exploit mobile-friendly hardware, e.g. Neural Processing Units (NPUs). In this work, we make a first attempt to facilitate the on-device deployment of LLMs using integer-only quantization. We first investigate the limitations of existing quantization methods for on-device deployment, with a special focus on activation quantization. We then address these limitations by introducing a simple post-training quantization method, named MobileQuant, that extends previous weight equivalent transformation works by jointly optimizing the weight transformation and activation range parameters in an end-to-end manner. MobileQuant demonstrates superior capabilities over existing methods by 1) achieving near-lossless quantization on a wide range of LLM benchmarks, 2) reducing latency and energy consumption by 20\%-50\% compared to current on-device quantization strategies, 3) requiring limited compute budget, 4) being compatible with mobile-friendly compute units, e.g. NPU.

Summary

AI-Generated Summary

PDF152November 16, 2024