PowerInfer-2: Snelle Inferentie van Grote Taalmodellen op een Smartphone
PowerInfer-2: Fast Large Language Model Inference on a Smartphone
June 10, 2024
Auteurs: Zhenliang Xue, Yixin Song, Zeyu Mi, Le Chen, Yubin Xia, Haibo Chen
cs.AI
Samenvatting
Dit artikel introduceert PowerInfer-2, een framework ontworpen voor snelle inferentie van Large Language Models (LLM's) op smartphones, met name effectief voor modellen waarvan de grootte de geheugencapaciteit van het apparaat overschrijdt. De kern van PowerInfer-2 is het benutten van de heterogene reken-, geheugen- en I/O-bronnen in smartphones door traditionele matrixberekeningen op te splitsen in fijnmazige neuronclusterberekeningen. Specifiek beschikt PowerInfer-2 over een polymorfe neuron-engine die rekenstrategieën aanpast voor verschillende fasen van LLM-inferentie. Daarnaast introduceert het gesegmenteerde neuron-caching en fijnmazige pipelining op neuronclusterniveau, wat de overhead veroorzaakt door I/O-operaties effectief minimaliseert en verbergt. De implementatie en evaluatie van PowerInfer-2 tonen aan dat het een breed scala aan LLM-modellen kan ondersteunen op twee smartphones, met een snelheidstoename van tot 29,2x vergeleken met state-of-the-art frameworks. Opmerkelijk is dat PowerInfer-2 het eerste systeem is dat het TurboSparse-Mixtral-47B-model kan bedienen met een generatiesnelheid van 11,68 tokens per seconde op een smartphone. Voor modellen die volledig in het geheugen passen, kan PowerInfer-2 een vermindering van ongeveer 40% in geheugengebruik bereiken, terwijl de inferentiesnelheden vergelijkbaar blijven met die van llama.cpp en MLC-LLM. Voor meer details, inclusief een demonstratievideo, bezoek de projectsite op www.powerinfer.ai/v2.
English
This paper introduces PowerInfer-2, a framework designed for high-speed
inference of Large Language Models (LLMs) on smartphones, particularly
effective for models whose sizes exceed the device's memory capacity. The key
insight of PowerInfer-2 is to utilize the heterogeneous computation, memory,
and I/O resources in smartphones by decomposing traditional matrix computations
into fine-grained neuron cluster computations. Specifically, PowerInfer-2
features a polymorphic neuron engine that adapts computational strategies for
various stages of LLM inference. Additionally, it introduces segmented neuron
caching and fine-grained neuron-cluster-level pipelining, which effectively
minimize and conceal the overhead caused by I/O operations. The implementation
and evaluation of PowerInfer-2 demonstrate its capability to support a wide
array of LLM models on two smartphones, achieving up to a 29.2x speed increase
compared with state-of-the-art frameworks. Notably, PowerInfer-2 is the first
system to serve the TurboSparse-Mixtral-47B model with a generation rate of
11.68 tokens per second on a smartphone. For models that fit entirely within
the memory, PowerInfer-2 can achieve approximately a 40% reduction in memory
usage while maintaining inference speeds comparable to llama.cpp and MLC-LLM.
For more details, including a demonstration video, please visit the project
site at www.powerinfer.ai/v2.