Compreender e Acelerar o Pipeline de Processamento de Memória para Inferência de LLM Desagregada

Resumo

Os modernos grandes modelos de linguagem (LLMs) dependem cada vez mais de mecanismos eficientes de processamento e geração de contexto longo, incluindo atenção esparsa, geração aumentada por recuperação (RAG) e memória contextual comprimida, para suportar raciocínios complexos. Demonstramos que essas otimizações podem ser unificadas em um pipeline de processamento de memória de quatro etapas: Preparar Memória, Calcular Relevância, Recuperação e Aplicação à Inferência. Através de uma análise sistemática, identificamos uma sobrecarga de 22% a 97% no processamento de memória durante a inferência de LLMs e uma forte heterogeneidade nas suas características computacionais. Motivados por esta perceção, argumentamos que sistemas heterogéneos são adequados para acelerar o processamento de memória e, consequentemente, a inferência de ponta a ponta. Demonstramos esta abordagem num sistema GPU-FPGA, descarregando operações esparsas, irregulares e limitadas por memória para FPGAs, enquanto mantemos as operações computacionalmente intensivas nas GPUs. Avaliado numa GPU AMD MI210 e numa FPGA Alveo U55C, o nosso sistema é 1,04 a 2,2 vezes mais rápido e requer 1,11 a 4,7 vezes menos energia em várias otimizações de inferência de LLMs em comparação com a linha de base da GPU (resultados semelhantes mantêm-se na NVIDIA A100). Estes resultados estabelecem os sistemas heterogéneos como uma direção prática para o processamento eficiente de memória em LLMs e informam o futuro desenvolvimento de hardware heterogéneo.

English

Modern large language models (LLMs) increasingly depends on efficient long-context processing and generation mechanisms, including sparse attention, retrieval-augmented generation (RAG), and compressed contextual memory, to support complex reasoning. We show that these optimizations can be unified into a four-step memory processing pipeline: Prepare Memory, Compute Relevancy, Retrieval, and Apply to Inference. Through systematic profiling, we identify a 22%-97% memory processing overhead in LLM inference and strong heterogeneity in its computational characteristics. Motivated by this insight, we argue that heterogeneous systems are well-suited to accelerate memory processing and thus end-to-end inference. We demonstrate this approach on a GPU-FPGA system by offloading sparse, irregular, and memory-bounded operations to FPGAs while retaining compute-intensive operations on GPUs. Evaluated on an AMD MI210 GPU and an Alveo U55C FPGA, our system is 1.04sim2.2times faster and requires 1.11sim4.7times less energy across multiple LLM inference optimizations than the GPU baseline (similar results hold on NVIDIA A100). These results establish heterogeneous systems as a practical direction for efficient LLM memory processing and inform future heterogeneous hardware design.

Compreender e Acelerar o Pipeline de Processamento de Memória para Inferência de LLM Desagregada

Understand and Accelerate Memory Processing Pipeline for Disaggregated LLM Inference

Resumo

Support