ChatPaper.aiChatPaper

Transformer-Lite: Hoogrenderende implementatie van grote taalmodelen op mobiele telefoon-GPU's

Transformer-Lite: High-efficiency Deployment of Large Language Models on Mobile Phone GPUs

March 29, 2024
Auteurs: Luchang Li, Sheng Qian, Jie Lu, Lunxi Yuan, Rui Wang, Qin Xie
cs.AI

Samenvatting

Het Large Language Model (LLM) wordt veelvuldig ingezet voor taken zoals intelligente assistenten, tekstsamenvatting, vertaling en multimodale toepassingen op mobiele telefoons. De huidige methoden voor on-device LLM-implementatie behouden echter een trage inferentiesnelheid, wat resulteert in een slechte gebruikerservaring. Om een efficiënte LLM-implementatie op apparaat-GPU's te faciliteren, stellen we vier optimalisatietechnieken voor: (a) een symbolische expressie-gebaseerde aanpak om dynamische vormmodelinferentie te ondersteunen; (b) operatoroptimalisaties en uitvoeringsprioriteitsinstelling om de inferentiesnelheid te verhogen en telefoonvertraging te verminderen; (c) een FP4-kwantisatiemethode genaamd M0E4 om de dekwantisatie-overhead te verminderen; (d) een sub-tensor-gebaseerde techniek om de noodzaak van het kopiëren van de KV-cache na LLM-inferentie te elimineren. Bovendien implementeren we deze methoden in onze mobiele inferentie-engine, Transformer-Lite, die compatibel is met zowel Qualcomm- als MTK-processoren. We hebben de prestaties van Transformer-Lite geëvalueerd met LLM's met verschillende architecturen en parameters variërend van 2B tot 14B. Specifiek behaalden we prefill- en decodering snelheden van 121 tokens/s en 14 tokens/s voor ChatGLM2 6B, en 330 tokens/s en 30 tokens/s voor de kleinere Gemma 2B, respectievelijk. Vergeleken met CPU-gebaseerde FastLLM en GPU-gebaseerde MLC-LLM, bereikt onze engine een versnelling van meer dan 10x voor de prefill-snelheid en 2~3x voor de decodering snelheid.
English
The Large Language Model (LLM) is widely employed for tasks such as intelligent assistants, text summarization, translation, and multi-modality on mobile phones. However, the current methods for on-device LLM deployment maintain slow inference speed, which causes poor user experience. To facilitate high-efficiency LLM deployment on device GPUs, we propose four optimization techniques: (a) a symbolic expression-based approach to support dynamic shape model inference; (b) operator optimizations and execution priority setting to enhance inference speed and reduce phone lagging; (c) an FP4 quantization method termed M0E4 to reduce dequantization overhead; (d) a sub-tensor-based technique to eliminate the need for copying KV cache after LLM inference. Furthermore, we implement these methods in our mobile inference engine, Transformer-Lite, which is compatible with both Qualcomm and MTK processors. We evaluated Transformer-Lite's performance using LLMs with varied architectures and parameters ranging from 2B to 14B. Specifically, we achieved prefill and decoding speeds of 121 token/s and 14 token/s for ChatGLM2 6B, and 330 token/s and 30 token/s for smaller Gemma 2B, respectively. Compared with CPU-based FastLLM and GPU-based MLC-LLM, our engine attains over 10x speedup for the prefill speed and 2~3x speedup for the decoding speed.
PDF343November 26, 2024