ChatPaper.aiChatPaper

PowerInfer: Serviço Rápido de Modelos de Linguagem de Grande Escala com uma GPU de Consumo

PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU

December 16, 2023
Autores: Yixin Song, Zeyu Mi, Haotong Xie, Haibo Chen
cs.AI

Resumo

Este artigo apresenta o PowerInfer, um motor de inferência de alta velocidade para modelos de linguagem de grande escala (LLM) em um computador pessoal (PC) equipado com uma única GPU de nível consumidor. A base do design do PowerInfer é a exploração da alta localidade inerente à inferência de LLMs, caracterizada por uma distribuição de lei de potência na ativação de neurônios. Essa distribuição indica que um pequeno subconjunto de neurônios, denominados neurônios quentes, é consistentemente ativado em diferentes entradas, enquanto a maioria, os neurônios frios, varia de acordo com entradas específicas. O PowerInfer aproveita essa percepção para projetar um motor de inferência híbrido GPU-CPU: os neurônios quentes são pré-carregados na GPU para acesso rápido, enquanto os neurônios frios são computados na CPU, reduzindo significativamente as demandas de memória da GPU e as transferências de dados entre CPU e GPU. O PowerInfer ainda integra preditores adaptativos e operadores esparsos conscientes dos neurônios, otimizando a eficiência da ativação de neurônios e da esparsidade computacional. A avaliação mostra que o PowerInfer atinge uma taxa média de geração de tokens de 13,20 tokens/s, com um pico de 29,08 tokens/s, em vários LLMs (incluindo o OPT-175B) em uma única GPU NVIDIA RTX 4090, apenas 18% menor do que a alcançada por uma GPU de servidor de alto desempenho A100. Isso supera significativamente o llama.cpp em até 11,69x, mantendo a precisão do modelo.
English
This paper introduces PowerInfer, a high-speed Large Language Model (LLM) inference engine on a personal computer (PC) equipped with a single consumer-grade GPU. The key underlying the design of PowerInfer is exploiting the high locality inherent in LLM inference, characterized by a power-law distribution in neuron activation. This distribution indicates that a small subset of neurons, termed hot neurons, are consistently activated across inputs, while the majority, cold neurons, vary based on specific inputs. PowerInfer exploits such an insight to design a GPU-CPU hybrid inference engine: hot-activated neurons are preloaded onto the GPU for fast access, while cold-activated neurons are computed on the CPU, thus significantly reducing GPU memory demands and CPU-GPU data transfers. PowerInfer further integrates adaptive predictors and neuron-aware sparse operators, optimizing the efficiency of neuron activation and computational sparsity. Evaluation shows that PowerInfer attains an average token generation rate of 13.20 tokens/s, with a peak of 29.08 tokens/s, across various LLMs (including OPT-175B) on a single NVIDIA RTX 4090 GPU, only 18% lower than that achieved by a top-tier server-grade A100 GPU. This significantly outperforms llama.cpp by up to 11.69x while retaining model accuracy.
PDF444December 15, 2024