ChatPaper.aiChatPaper

PowerInfer-2: Быстрый вывод крупной модели языка на смартфоне

PowerInfer-2: Fast Large Language Model Inference on a Smartphone

June 10, 2024
Авторы: Zhenliang Xue, Yixin Song, Zeyu Mi, Le Chen, Yubin Xia, Haibo Chen
cs.AI

Аннотация

Данный документ представляет PowerInfer-2, фреймворк, разработанный для высокоскоростного вывода больших языковых моделей (LLM) на смартфонах, особенно эффективный для моделей, размер которых превышает объем памяти устройства. Основная идея PowerInfer-2 заключается в использовании гетерогенных вычислительных, памятных и ввод-выводных ресурсов в смартфонах путем декомпозиции традиционных матричных вычислений на мелкозернистые вычисления кластеров нейронов. В частности, PowerInfer-2 предлагает полиморфный нейронный движок, который адаптирует вычислительные стратегии для различных этапов вывода LLM. Кроме того, он вводит сегментированный кэш нейронов и мелкозернистое кластерное конвейерное выполнение нейронов, что эффективно минимизирует и скрывает накладные расходы, вызванные операциями ввода-вывода. Реализация и оценка PowerInfer-2 демонстрируют его способность поддерживать широкий спектр моделей LLM на двух смартфонах, достигая увеличения скорости до 29,2 раза по сравнению с современными фреймворками. Следует отметить, что PowerInfer-2 является первой системой, обслуживающей модель TurboSparse-Mixtral-47B с частотой генерации 11,68 токенов в секунду на смартфоне. Для моделей, которые полностью помещаются в память, PowerInfer-2 может достичь примерно 40% снижения использования памяти, сохраняя скорость вывода, сравнимую с llama.cpp и MLC-LLM. Для получения дополнительной информации, включая демонстрационное видео, посетите сайт проекта по адресу www.powerinfer.ai/v2.
English
This paper introduces PowerInfer-2, a framework designed for high-speed inference of Large Language Models (LLMs) on smartphones, particularly effective for models whose sizes exceed the device's memory capacity. The key insight of PowerInfer-2 is to utilize the heterogeneous computation, memory, and I/O resources in smartphones by decomposing traditional matrix computations into fine-grained neuron cluster computations. Specifically, PowerInfer-2 features a polymorphic neuron engine that adapts computational strategies for various stages of LLM inference. Additionally, it introduces segmented neuron caching and fine-grained neuron-cluster-level pipelining, which effectively minimize and conceal the overhead caused by I/O operations. The implementation and evaluation of PowerInfer-2 demonstrate its capability to support a wide array of LLM models on two smartphones, achieving up to a 29.2x speed increase compared with state-of-the-art frameworks. Notably, PowerInfer-2 is the first system to serve the TurboSparse-Mixtral-47B model with a generation rate of 11.68 tokens per second on a smartphone. For models that fit entirely within the memory, PowerInfer-2 can achieve approximately a 40% reduction in memory usage while maintaining inference speeds comparable to llama.cpp and MLC-LLM. For more details, including a demonstration video, please visit the project site at www.powerinfer.ai/v2.

Summary

AI-Generated Summary

PDF395December 8, 2024