PowerInfer-2: Schnelle Inferenz von großen Sprachmodellen auf einem Smartphone
PowerInfer-2: Fast Large Language Model Inference on a Smartphone
June 10, 2024
Autoren: Zhenliang Xue, Yixin Song, Zeyu Mi, Le Chen, Yubin Xia, Haibo Chen
cs.AI
Zusammenfassung
Dieses Papier stellt PowerInfer-2 vor, ein Framework, das für die schnelle Inferenz von Large Language Models (LLMs) auf Smartphones entwickelt wurde und besonders effektiv für Modelle ist, deren Größe die Speicherkapazität des Geräts übersteigt. Der Schlüsselgedanke von PowerInfer-2 besteht darin, die heterogenen Rechen-, Speicher- und I/O-Ressourcen in Smartphones zu nutzen, indem traditionelle Matrixberechnungen in feinkörnige Neuronencluster-Berechnungen zerlegt werden. Speziell verfügt PowerInfer-2 über einen polymorphen Neuronen-Engine, der sich an verschiedene Phasen der LLM-Inferenz anpasst. Darüber hinaus führt es segmentiertes Neuronen-Caching und feinkörniges Neuronencluster-Level-Pipelining ein, um die durch I/O-Operationen verursachten Overheads effektiv zu minimieren und zu verbergen. Die Implementierung und Evaluation von PowerInfer-2 zeigen seine Fähigkeit, eine Vielzahl von LLM-Modellen auf zwei Smartphones zu unterstützen und dabei eine bis zu 29,2-fache Geschwindigkeitssteigerung im Vergleich zu State-of-the-Art-Frameworks zu erreichen. Beachtenswert ist, dass PowerInfer-2 das erste System ist, das das TurboSparse-Mixtral-47B-Modell mit einer Generierungsrate von 11,68 Tokens pro Sekunde auf einem Smartphone bedienen kann. Für Modelle, die vollständig in den Speicher passen, kann PowerInfer-2 eine Speichernutzung von etwa 40% reduzieren, während die Inferenzgeschwindigkeiten vergleichbar mit llama.cpp und MLC-LLM bleiben. Für weitere Details, einschließlich eines Demonstrationsvideos, besuchen Sie bitte die Projektseite unter www.powerinfer.ai/v2.
English
This paper introduces PowerInfer-2, a framework designed for high-speed
inference of Large Language Models (LLMs) on smartphones, particularly
effective for models whose sizes exceed the device's memory capacity. The key
insight of PowerInfer-2 is to utilize the heterogeneous computation, memory,
and I/O resources in smartphones by decomposing traditional matrix computations
into fine-grained neuron cluster computations. Specifically, PowerInfer-2
features a polymorphic neuron engine that adapts computational strategies for
various stages of LLM inference. Additionally, it introduces segmented neuron
caching and fine-grained neuron-cluster-level pipelining, which effectively
minimize and conceal the overhead caused by I/O operations. The implementation
and evaluation of PowerInfer-2 demonstrate its capability to support a wide
array of LLM models on two smartphones, achieving up to a 29.2x speed increase
compared with state-of-the-art frameworks. Notably, PowerInfer-2 is the first
system to serve the TurboSparse-Mixtral-47B model with a generation rate of
11.68 tokens per second on a smartphone. For models that fit entirely within
the memory, PowerInfer-2 can achieve approximately a 40% reduction in memory
usage while maintaining inference speeds comparable to llama.cpp and MLC-LLM.
For more details, including a demonstration video, please visit the project
site at www.powerinfer.ai/v2.Summary
AI-Generated Summary