PowerInfer-2: Inferencia Rápida de Modelos de Lenguaje Grande en un Smartphone
PowerInfer-2: Fast Large Language Model Inference on a Smartphone
June 10, 2024
Autores: Zhenliang Xue, Yixin Song, Zeyu Mi, Le Chen, Yubin Xia, Haibo Chen
cs.AI
Resumen
Este artículo presenta PowerInfer-2, un marco diseñado para la inferencia de alta velocidad de Modelos de Lenguaje de Gran Escala (LLMs) en smartphones, particularmente efectivo para modelos cuyo tamaño excede la capacidad de memoria del dispositivo. La idea clave de PowerInfer-2 es aprovechar los recursos heterogéneos de computación, memoria y E/S en smartphones mediante la descomposición de cálculos matriciales tradicionales en cálculos de clústeres de neuronas de grano fino. Específicamente, PowerInfer-2 incluye un motor de neuronas polimórfico que adapta las estrategias computacionales para diversas etapas de la inferencia de LLMs. Además, introduce un almacenamiento en caché segmentado de neuronas y un pipeline a nivel de clústeres de neuronas de grano fino, lo que minimiza y oculta eficazmente la sobrecarga causada por las operaciones de E/S. La implementación y evaluación de PowerInfer-2 demuestran su capacidad para soportar una amplia gama de modelos LLM en dos smartphones, logrando un aumento de velocidad de hasta 29.2x en comparación con los marcos más avanzados. Cabe destacar que PowerInfer-2 es el primer sistema en servir el modelo TurboSparse-Mixtral-47B con una tasa de generación de 11.68 tokens por segundo en un smartphone. Para modelos que caben completamente en la memoria, PowerInfer-2 puede lograr una reducción aproximada del 40% en el uso de memoria mientras mantiene velocidades de inferencia comparables a llama.cpp y MLC-LLM. Para más detalles, incluyendo un video de demostración, visite el sitio del proyecto en www.powerinfer.ai/v2.
English
This paper introduces PowerInfer-2, a framework designed for high-speed
inference of Large Language Models (LLMs) on smartphones, particularly
effective for models whose sizes exceed the device's memory capacity. The key
insight of PowerInfer-2 is to utilize the heterogeneous computation, memory,
and I/O resources in smartphones by decomposing traditional matrix computations
into fine-grained neuron cluster computations. Specifically, PowerInfer-2
features a polymorphic neuron engine that adapts computational strategies for
various stages of LLM inference. Additionally, it introduces segmented neuron
caching and fine-grained neuron-cluster-level pipelining, which effectively
minimize and conceal the overhead caused by I/O operations. The implementation
and evaluation of PowerInfer-2 demonstrate its capability to support a wide
array of LLM models on two smartphones, achieving up to a 29.2x speed increase
compared with state-of-the-art frameworks. Notably, PowerInfer-2 is the first
system to serve the TurboSparse-Mixtral-47B model with a generation rate of
11.68 tokens per second on a smartphone. For models that fit entirely within
the memory, PowerInfer-2 can achieve approximately a 40% reduction in memory
usage while maintaining inference speeds comparable to llama.cpp and MLC-LLM.
For more details, including a demonstration video, please visit the project
site at www.powerinfer.ai/v2.Summary
AI-Generated Summary