MobileQuant: Quantização Amigável a Dispositivos Móveis para Modelos de Linguagem em Dispositivos.

Resumo

Os modelos de linguagem de grande escala (LLMs) revolucionaram o processamento de linguagem, fornecendo resultados excepcionais em diversas aplicações. No entanto, a implementação de LLMs em dispositivos de borda apresenta vários desafios relacionados à memória, energia e custos computacionais, limitando seu uso generalizado em dispositivos como telefones móveis. Uma solução promissora é reduzir o número de bits usados para representar pesos e ativações. Embora trabalhos existentes tenham obtido sucesso parcial ao quantizar LLMs para larguras de bits menores, como pesos de 4 bits, a quantização de ativações além de 16 bits frequentemente resulta em grandes sobrecargas computacionais devido ao suporte deficiente à quantização no dispositivo ou a uma queda considerável na precisão. No entanto, ativações de 8 bits são muito atraentes para implantação em dispositivos, pois permitiriam que LLMs explorassem totalmente hardware amigável para dispositivos móveis, como Unidades de Processamento Neural (NPUs). Neste trabalho, fazemos uma primeira tentativa de facilitar a implantação em dispositivos de LLMs usando quantização apenas com inteiros. Primeiramente, investigamos as limitações dos métodos de quantização existentes para implantação em dispositivos, com um foco especial na quantização de ativações. Em seguida, abordamos essas limitações introduzindo um método simples de quantização pós-treinamento, chamado MobileQuant, que estende trabalhos anteriores de transformação equivalente de pesos otimizando conjuntamente a transformação de pesos e os parâmetros de faixa de ativação de forma integrada. O MobileQuant demonstra capacidades superiores em relação aos métodos existentes ao 1) alcançar quantização quase sem perdas em uma ampla gama de benchmarks de LLM, 2) reduzir a latência e o consumo de energia em 20\%-50\% em comparação com as estratégias atuais de quantização em dispositivos, 3) exigir um orçamento computacional limitado, 4) ser compatível com unidades de computação amigáveis para dispositivos móveis, como NPUs.

English

Large language models (LLMs) have revolutionized language processing, delivering outstanding results across multiple applications. However, deploying LLMs on edge devices poses several challenges with respect to memory, energy, and compute costs, limiting their widespread use in devices such as mobile phones. A promising solution is to reduce the number of bits used to represent weights and activations. While existing works have found partial success at quantizing LLMs to lower bitwidths, e.g. 4-bit weights, quantizing activations beyond 16 bits often leads to large computational overheads due to poor on-device quantization support, or a considerable accuracy drop. Yet, 8-bit activations are very attractive for on-device deployment as they would enable LLMs to fully exploit mobile-friendly hardware, e.g. Neural Processing Units (NPUs). In this work, we make a first attempt to facilitate the on-device deployment of LLMs using integer-only quantization. We first investigate the limitations of existing quantization methods for on-device deployment, with a special focus on activation quantization. We then address these limitations by introducing a simple post-training quantization method, named MobileQuant, that extends previous weight equivalent transformation works by jointly optimizing the weight transformation and activation range parameters in an end-to-end manner. MobileQuant demonstrates superior capabilities over existing methods by 1) achieving near-lossless quantization on a wide range of LLM benchmarks, 2) reducing latency and energy consumption by 20\%-50\% compared to current on-device quantization strategies, 3) requiring limited compute budget, 4) being compatible with mobile-friendly compute units, e.g. NPU.

MobileQuant: Quantização Amigável a Dispositivos Móveis para Modelos de Linguagem em Dispositivos.

MobileQuant: Mobile-friendly Quantization for On-device Language Models

Resumo

Summary

Support

Support