PowerInfer-2: Inferencia Rápida de Modelos de Lenguaje Grande en un Smartphone

Resumen

Este artículo presenta PowerInfer-2, un marco diseñado para la inferencia de alta velocidad de Modelos de Lenguaje de Gran Escala (LLMs) en smartphones, particularmente efectivo para modelos cuyo tamaño excede la capacidad de memoria del dispositivo. La idea clave de PowerInfer-2 es aprovechar los recursos heterogéneos de computación, memoria y E/S en smartphones mediante la descomposición de cálculos matriciales tradicionales en cálculos de clústeres de neuronas de grano fino. Específicamente, PowerInfer-2 incluye un motor de neuronas polimórfico que adapta las estrategias computacionales para diversas etapas de la inferencia de LLMs. Además, introduce un almacenamiento en caché segmentado de neuronas y un pipeline a nivel de clústeres de neuronas de grano fino, lo que minimiza y oculta eficazmente la sobrecarga causada por las operaciones de E/S. La implementación y evaluación de PowerInfer-2 demuestran su capacidad para soportar una amplia gama de modelos LLM en dos smartphones, logrando un aumento de velocidad de hasta 29.2x en comparación con los marcos más avanzados. Cabe destacar que PowerInfer-2 es el primer sistema en servir el modelo TurboSparse-Mixtral-47B con una tasa de generación de 11.68 tokens por segundo en un smartphone. Para modelos que caben completamente en la memoria, PowerInfer-2 puede lograr una reducción aproximada del 40% en el uso de memoria mientras mantiene velocidades de inferencia comparables a llama.cpp y MLC-LLM. Para más detalles, incluyendo un video de demostración, visite el sitio del proyecto en www.powerinfer.ai/v2.

English

This paper introduces PowerInfer-2, a framework designed for high-speed inference of Large Language Models (LLMs) on smartphones, particularly effective for models whose sizes exceed the device's memory capacity. The key insight of PowerInfer-2 is to utilize the heterogeneous computation, memory, and I/O resources in smartphones by decomposing traditional matrix computations into fine-grained neuron cluster computations. Specifically, PowerInfer-2 features a polymorphic neuron engine that adapts computational strategies for various stages of LLM inference. Additionally, it introduces segmented neuron caching and fine-grained neuron-cluster-level pipelining, which effectively minimize and conceal the overhead caused by I/O operations. The implementation and evaluation of PowerInfer-2 demonstrate its capability to support a wide array of LLM models on two smartphones, achieving up to a 29.2x speed increase compared with state-of-the-art frameworks. Notably, PowerInfer-2 is the first system to serve the TurboSparse-Mixtral-47B model with a generation rate of 11.68 tokens per second on a smartphone. For models that fit entirely within the memory, PowerInfer-2 can achieve approximately a 40% reduction in memory usage while maintaining inference speeds comparable to llama.cpp and MLC-LLM. For more details, including a demonstration video, please visit the project site at www.powerinfer.ai/v2.

PowerInfer-2: Inferencia Rápida de Modelos de Lenguaje Grande en un Smartphone

PowerInfer-2: Fast Large Language Model Inference on a Smartphone

Resumen

Support