Transformer-Lite: Hoogrenderende implementatie van grote taalmodelen op mobiele telefoon-GPU's

Samenvatting

Het Large Language Model (LLM) wordt veelvuldig ingezet voor taken zoals intelligente assistenten, tekstsamenvatting, vertaling en multimodale toepassingen op mobiele telefoons. De huidige methoden voor on-device LLM-implementatie behouden echter een trage inferentiesnelheid, wat resulteert in een slechte gebruikerservaring. Om een efficiënte LLM-implementatie op apparaat-GPU's te faciliteren, stellen we vier optimalisatietechnieken voor: (a) een symbolische expressie-gebaseerde aanpak om dynamische vormmodelinferentie te ondersteunen; (b) operatoroptimalisaties en uitvoeringsprioriteitsinstelling om de inferentiesnelheid te verhogen en telefoonvertraging te verminderen; (c) een FP4-kwantisatiemethode genaamd M0E4 om de dekwantisatie-overhead te verminderen; (d) een sub-tensor-gebaseerde techniek om de noodzaak van het kopiëren van de KV-cache na LLM-inferentie te elimineren. Bovendien implementeren we deze methoden in onze mobiele inferentie-engine, Transformer-Lite, die compatibel is met zowel Qualcomm- als MTK-processoren. We hebben de prestaties van Transformer-Lite geëvalueerd met LLM's met verschillende architecturen en parameters variërend van 2B tot 14B. Specifiek behaalden we prefill- en decodering snelheden van 121 tokens/s en 14 tokens/s voor ChatGLM2 6B, en 330 tokens/s en 30 tokens/s voor de kleinere Gemma 2B, respectievelijk. Vergeleken met CPU-gebaseerde FastLLM en GPU-gebaseerde MLC-LLM, bereikt onze engine een versnelling van meer dan 10x voor de prefill-snelheid en 2~3x voor de decodering snelheid.

English

The Large Language Model (LLM) is widely employed for tasks such as intelligent assistants, text summarization, translation, and multi-modality on mobile phones. However, the current methods for on-device LLM deployment maintain slow inference speed, which causes poor user experience. To facilitate high-efficiency LLM deployment on device GPUs, we propose four optimization techniques: (a) a symbolic expression-based approach to support dynamic shape model inference; (b) operator optimizations and execution priority setting to enhance inference speed and reduce phone lagging; (c) an FP4 quantization method termed M0E4 to reduce dequantization overhead; (d) a sub-tensor-based technique to eliminate the need for copying KV cache after LLM inference. Furthermore, we implement these methods in our mobile inference engine, Transformer-Lite, which is compatible with both Qualcomm and MTK processors. We evaluated Transformer-Lite's performance using LLMs with varied architectures and parameters ranging from 2B to 14B. Specifically, we achieved prefill and decoding speeds of 121 token/s and 14 token/s for ChatGLM2 6B, and 330 token/s and 30 token/s for smaller Gemma 2B, respectively. Compared with CPU-based FastLLM and GPU-based MLC-LLM, our engine attains over 10x speedup for the prefill speed and 2~3x speedup for the decoding speed.

Transformer-Lite: Hoogrenderende implementatie van grote taalmodelen op mobiele telefoon-GPU's

Transformer-Lite: High-efficiency Deployment of Large Language Models on Mobile Phone GPUs

Samenvatting

Support