ChatPaper.aiChatPaper

PowerInfer-2 : Inférence rapide de grands modèles de langage sur un smartphone

PowerInfer-2: Fast Large Language Model Inference on a Smartphone

June 10, 2024
papers.authors: Zhenliang Xue, Yixin Song, Zeyu Mi, Le Chen, Yubin Xia, Haibo Chen
cs.AI

papers.abstract

Cet article présente PowerInfer-2, un cadre conçu pour l'inférence rapide de modèles de langage de grande taille (LLM) sur les smartphones, particulièrement efficace pour les modèles dont la taille dépasse la capacité mémoire de l'appareil. L'idée clé de PowerInfer-2 est d'exploiter les ressources hétérogènes de calcul, de mémoire et d'E/S des smartphones en décomposant les calculs matriciels traditionnels en calculs granulaires par clusters de neurones. Plus précisément, PowerInfer-2 intègre un moteur de neurones polymorphe qui adapte les stratégies de calcul pour les différentes étapes de l'inférence des LLM. De plus, il introduit un cache segmenté des neurones et un pipelining granulaire au niveau des clusters de neurones, ce qui minimise et masque efficacement les surcharges causées par les opérations d'E/S. L'implémentation et l'évaluation de PowerInfer-2 démontrent sa capacité à prendre en charge une large gamme de modèles LLM sur deux smartphones, atteignant une accélération allant jusqu'à 29,2 fois par rapport aux cadres les plus avancés. Notamment, PowerInfer-2 est le premier système à servir le modèle TurboSparse-Mixtral-47B avec un taux de génération de 11,68 tokens par seconde sur un smartphone. Pour les modèles qui tiennent entièrement en mémoire, PowerInfer-2 peut réduire l'utilisation de la mémoire d'environ 40 % tout en maintenant des vitesses d'inférence comparables à llama.cpp et MLC-LLM. Pour plus de détails, y compris une vidéo de démonstration, veuillez visiter le site du projet à l'adresse www.powerinfer.ai/v2.
English
This paper introduces PowerInfer-2, a framework designed for high-speed inference of Large Language Models (LLMs) on smartphones, particularly effective for models whose sizes exceed the device's memory capacity. The key insight of PowerInfer-2 is to utilize the heterogeneous computation, memory, and I/O resources in smartphones by decomposing traditional matrix computations into fine-grained neuron cluster computations. Specifically, PowerInfer-2 features a polymorphic neuron engine that adapts computational strategies for various stages of LLM inference. Additionally, it introduces segmented neuron caching and fine-grained neuron-cluster-level pipelining, which effectively minimize and conceal the overhead caused by I/O operations. The implementation and evaluation of PowerInfer-2 demonstrate its capability to support a wide array of LLM models on two smartphones, achieving up to a 29.2x speed increase compared with state-of-the-art frameworks. Notably, PowerInfer-2 is the first system to serve the TurboSparse-Mixtral-47B model with a generation rate of 11.68 tokens per second on a smartphone. For models that fit entirely within the memory, PowerInfer-2 can achieve approximately a 40% reduction in memory usage while maintaining inference speeds comparable to llama.cpp and MLC-LLM. For more details, including a demonstration video, please visit the project site at www.powerinfer.ai/v2.
PDF395December 8, 2024