PowerInfer-2: Schnelle Inferenz von großen Sprachmodellen auf einem Smartphone

papers.abstract

Dieses Papier stellt PowerInfer-2 vor, ein Framework, das für die schnelle Inferenz von Large Language Models (LLMs) auf Smartphones entwickelt wurde und besonders effektiv für Modelle ist, deren Größe die Speicherkapazität des Geräts übersteigt. Der Schlüsselgedanke von PowerInfer-2 besteht darin, die heterogenen Rechen-, Speicher- und I/O-Ressourcen in Smartphones zu nutzen, indem traditionelle Matrixberechnungen in feinkörnige Neuronencluster-Berechnungen zerlegt werden. Speziell verfügt PowerInfer-2 über einen polymorphen Neuronen-Engine, der sich an verschiedene Phasen der LLM-Inferenz anpasst. Darüber hinaus führt es segmentiertes Neuronen-Caching und feinkörniges Neuronencluster-Level-Pipelining ein, um die durch I/O-Operationen verursachten Overheads effektiv zu minimieren und zu verbergen. Die Implementierung und Evaluation von PowerInfer-2 zeigen seine Fähigkeit, eine Vielzahl von LLM-Modellen auf zwei Smartphones zu unterstützen und dabei eine bis zu 29,2-fache Geschwindigkeitssteigerung im Vergleich zu State-of-the-Art-Frameworks zu erreichen. Beachtenswert ist, dass PowerInfer-2 das erste System ist, das das TurboSparse-Mixtral-47B-Modell mit einer Generierungsrate von 11,68 Tokens pro Sekunde auf einem Smartphone bedienen kann. Für Modelle, die vollständig in den Speicher passen, kann PowerInfer-2 eine Speichernutzung von etwa 40% reduzieren, während die Inferenzgeschwindigkeiten vergleichbar mit llama.cpp und MLC-LLM bleiben. Für weitere Details, einschließlich eines Demonstrationsvideos, besuchen Sie bitte die Projektseite unter www.powerinfer.ai/v2.

English

This paper introduces PowerInfer-2, a framework designed for high-speed inference of Large Language Models (LLMs) on smartphones, particularly effective for models whose sizes exceed the device's memory capacity. The key insight of PowerInfer-2 is to utilize the heterogeneous computation, memory, and I/O resources in smartphones by decomposing traditional matrix computations into fine-grained neuron cluster computations. Specifically, PowerInfer-2 features a polymorphic neuron engine that adapts computational strategies for various stages of LLM inference. Additionally, it introduces segmented neuron caching and fine-grained neuron-cluster-level pipelining, which effectively minimize and conceal the overhead caused by I/O operations. The implementation and evaluation of PowerInfer-2 demonstrate its capability to support a wide array of LLM models on two smartphones, achieving up to a 29.2x speed increase compared with state-of-the-art frameworks. Notably, PowerInfer-2 is the first system to serve the TurboSparse-Mixtral-47B model with a generation rate of 11.68 tokens per second on a smartphone. For models that fit entirely within the memory, PowerInfer-2 can achieve approximately a 40% reduction in memory usage while maintaining inference speeds comparable to llama.cpp and MLC-LLM. For more details, including a demonstration video, please visit the project site at www.powerinfer.ai/v2.

PowerInfer-2: Schnelle Inferenz von großen Sprachmodellen auf einem Smartphone

PowerInfer-2: Fast Large Language Model Inference on a Smartphone

papers.abstract

Support