ChatPaper.aiChatPaper

PowerInfer-2: Inferência Rápida de Modelos de Linguagem de Grande Escala em um Smartphone

PowerInfer-2: Fast Large Language Model Inference on a Smartphone

June 10, 2024
Autores: Zhenliang Xue, Yixin Song, Zeyu Mi, Le Chen, Yubin Xia, Haibo Chen
cs.AI

Resumo

Este artigo apresenta o PowerInfer-2, um framework projetado para inferência de alta velocidade de Modelos de Linguagem de Grande Escala (LLMs) em smartphones, especialmente eficaz para modelos cujos tamanhos excedem a capacidade de memória do dispositivo. A principal inovação do PowerInfer-2 é a utilização dos recursos heterogêneos de computação, memória e E/S em smartphones, decompondo cálculos matriciais tradicionais em cálculos de clusters de neurônios de granularidade fina. Especificamente, o PowerInfer-2 apresenta um motor de neurônios polimórfico que adapta estratégias computacionais para várias etapas da inferência de LLMs. Além disso, ele introduz o cache segmentado de neurônios e o pipelining em nível de cluster de neurônios de granularidade fina, que minimizam e ocultam efetivamente a sobrecarga causada por operações de E/S. A implementação e avaliação do PowerInfer-2 demonstram sua capacidade de suportar uma ampla gama de modelos LLMs em dois smartphones, alcançando um aumento de velocidade de até 29,2x em comparação com frameworks state-of-the-art. Notavelmente, o PowerInfer-2 é o primeiro sistema a servir o modelo TurboSparse-Mixtral-47B com uma taxa de geração de 11,68 tokens por segundo em um smartphone. Para modelos que cabem inteiramente na memória, o PowerInfer-2 pode alcançar uma redução de aproximadamente 40% no uso de memória, mantendo velocidades de inferência comparáveis ao llama.cpp e MLC-LLM. Para mais detalhes, incluindo um vídeo de demonstração, visite o site do projeto em www.powerinfer.ai/v2.
English
This paper introduces PowerInfer-2, a framework designed for high-speed inference of Large Language Models (LLMs) on smartphones, particularly effective for models whose sizes exceed the device's memory capacity. The key insight of PowerInfer-2 is to utilize the heterogeneous computation, memory, and I/O resources in smartphones by decomposing traditional matrix computations into fine-grained neuron cluster computations. Specifically, PowerInfer-2 features a polymorphic neuron engine that adapts computational strategies for various stages of LLM inference. Additionally, it introduces segmented neuron caching and fine-grained neuron-cluster-level pipelining, which effectively minimize and conceal the overhead caused by I/O operations. The implementation and evaluation of PowerInfer-2 demonstrate its capability to support a wide array of LLM models on two smartphones, achieving up to a 29.2x speed increase compared with state-of-the-art frameworks. Notably, PowerInfer-2 is the first system to serve the TurboSparse-Mixtral-47B model with a generation rate of 11.68 tokens per second on a smartphone. For models that fit entirely within the memory, PowerInfer-2 can achieve approximately a 40% reduction in memory usage while maintaining inference speeds comparable to llama.cpp and MLC-LLM. For more details, including a demonstration video, please visit the project site at www.powerinfer.ai/v2.
PDF385December 8, 2024