UniQL: Quantização Unificada e Compressão de Baixo Posto para LLMs Adaptativos em Edge

Resumo

A implantação de modelos de grandes linguagens (LLM) em plataformas móveis enfrenta desafios significativos devido à memória limitada e aos recursos computacionais partilhados do dispositivo. A disponibilidade de recursos pode ser um problema, uma vez que é diretamente afetada pela carga de trabalho atual do dispositivo, acrescentando incerteza à implantação do modelo. Apresentamos o UniQL, um framework unificado de quantização pós-treinamento e compressão de baixo posto com taxas de poda configuráveis no dispositivo para LLMs de edge. O UniQL é um framework geral que integra quantização e compressão de baixo posto para Transformers, Modelos de Espaço de Estados (SSMs) e modelos híbridos para suportar diversas aplicações de edge. No nosso framework conjunto proposto, introduzimos um método eficiente de ordenação estrutural de pesos que acelera a computação em 20x, uma decomposição em valores singulares (SVD) consciente da quantização para minimizar erros de quantização, uma ordenação de pesos com consciência de estado para SSMs, e um kernel fundido de incorporação posicional rotativa (RoPE) para modelos podados. O nosso framework executa a ordenação de pesos, o ajuste fino e a quantização na cloud num fluxo de trabalho de passagem única, permitindo ao mesmo tempo taxas de poda configuráveis no dispositivo de até 35%. As nossas experiências mostram que os modelos quantizados e podados alcançam uma redução de memória de 4x-5.7x e uma melhoria de produção de tokens de 2.7x-3.4x, mantendo a precisão dentro de 5% dos modelos originais com uma poda de 15% em Transformers (Llama3 e Qwen2.5), SSMs (Mamba2) e modelos híbridos (Nemotron-H e Bamba-v2). O código e os modelos quantizados estão disponíveis em: https://github.com/enyac-group/UniQL.

English

Deploying large language model (LLM) models on mobile platforms faces significant challenges due to the limited memory and shared computational resources of the device. Resource availability may be an issue as it is directly impacted by the current device workload, adding to the uncertainty of model deployment. We introduce UniQL, a unified post-training quantization and low-rank compression framework with on-device configurable pruning rates for edge LLMs. UniQL is a general framework that integrates quantization and low-rank compression for Transformers, State Space Models (SSMs), and hybrid models to support diverse edge applications. In our proposed joint framework, we introduce an efficient structured weight-sorting method that speeds up computation by 20x, quantization-aware singular value decomposition (SVD) to minimize quantization errors, state-aware weight sorting for SSMs, and a fused rotary positional embedding (RoPE) kernel for pruned models. Our framework performs weight-sorting, fine-tuning, and quantization in the cloud in a single-pass workflow, while enabling on-device configurable pruning rates up to 35%. Our experiments show that quantized and pruned models achieve a memory reduction of 4x-5.7x and a token-throughput improvement of 2.7x-3.4x, maintaining accuracy within 5% of the original models at 15% pruning across Transformers (Llama3 and Qwen2.5), SSMs (Mamba2), and hybrid models (Nemotron-H and Bamba-v2). The code and quantized models are available at: https://github.com/enyac-group/UniQL.

UniQL: Quantização Unificada e Compressão de Baixo Posto para LLMs Adaptativos em Edge

UniQL: Unified Quantization and Low-rank Compression for Adaptive Edge LLMs

Resumo

Support