Comprender y Acelerar la Tubería de Procesamiento de Memoria para la Inferencia de LLM Disgregados

Resumen

Los modelos de lenguaje modernos a gran escala (LLM) dependen cada vez más de mecanismos eficientes de procesamiento y generación de contexto extenso, incluyendo atención dispersa, generación aumentada por recuperación (RAG) y memoria contextual comprimida, para respaldar el razonamiento complejo. Demostramos que estas optimizaciones pueden unificarse en un proceso de cuatro pasos para el manejo de memoria: Preparar Memoria, Calcular Relevancia, Recuperación y Aplicación a la Inferencia. Mediante un análisis sistemático, identificamos una sobrecarga del 22% al 97% en el procesamiento de memoria durante la inferencia de LLM y una fuerte heterogeneidad en sus características computacionales. Motivados por esta observación, argumentamos que los sistemas heterogéneos son adecuados para acelerar el procesamiento de memoria y, por ende, la inferencia de extremo a extremo. Demostramos este enfoque en un sistema GPU-FPGA mediante la descarga de operaciones dispersas, irregulares y limitadas por memoria a las FPGA, mientras se retienen las operaciones intensivas en cálculo en las GPU. Evaluado en una GPU AMD MI210 y una FPGA Alveo U55C, nuestro sistema es entre 1.04 y 2.2 veces más rápido y requiere entre 1.11 y 4.7 veces menos energía en múltiples optimizaciones de inferencia de LLM, en comparación con la línea base de solo GPU (resultados similares se mantienen en NVIDIA A100). Estos resultados establecen a los sistemas heterogéneos como una dirección práctica para un procesamiento de memoria eficiente en LLM e informan el futuro diseño de hardware heterogéneo.

English

Modern large language models (LLMs) increasingly depends on efficient long-context processing and generation mechanisms, including sparse attention, retrieval-augmented generation (RAG), and compressed contextual memory, to support complex reasoning. We show that these optimizations can be unified into a four-step memory processing pipeline: Prepare Memory, Compute Relevancy, Retrieval, and Apply to Inference. Through systematic profiling, we identify a 22%-97% memory processing overhead in LLM inference and strong heterogeneity in its computational characteristics. Motivated by this insight, we argue that heterogeneous systems are well-suited to accelerate memory processing and thus end-to-end inference. We demonstrate this approach on a GPU-FPGA system by offloading sparse, irregular, and memory-bounded operations to FPGAs while retaining compute-intensive operations on GPUs. Evaluated on an AMD MI210 GPU and an Alveo U55C FPGA, our system is 1.04sim2.2times faster and requires 1.11sim4.7times less energy across multiple LLM inference optimizations than the GPU baseline (similar results hold on NVIDIA A100). These results establish heterogeneous systems as a practical direction for efficient LLM memory processing and inform future heterogeneous hardware design.

Comprender y Acelerar la Tubería de Procesamiento de Memoria para la Inferencia de LLM Disgregados

Understand and Accelerate Memory Processing Pipeline for Disaggregated LLM Inference

Resumen

Support