Comprendere e accelerare la pipeline di elaborazione della memoria per l'inferenza disaggregata di LLM

Abstract

I moderni grandi modelli linguistici (LLM) dipendono sempre più da meccanismi efficienti di elaborazione e generazione di contesti lunghi, inclusi l'attenzione sparsa, la generazione aumentata tramite recupero (RAG) e la memoria contestuale compressa, per supportare ragionamenti complessi. Dimostriamo che queste ottimizzazioni possono essere unificate in una pipeline di elaborazione della memoria in quattro fasi: Prepara Memoria, Calcola Rilevanza, Recupero e Applica all'Inferenza. Attraverso un'analisi sistematica, identifichiamo un sovraccarico dell'elaborazione della memoria compreso tra il 22% e il 97% durante l'inferenza degli LLM e una forte eterogeneità nelle sue caratteristiche computazionali. Sulla base di questa intuizione, sosteniamo che i sistemi eterogenei siano adatti ad accelerare l'elaborazione della memoria e, di conseguenza, l'inferenza end-to-end. Dimostriamo questo approccio su un sistema GPU-FPGA, scaricando le operazioni sparse, irregolari e vincolate dalla memoria sulle FPGA, mentre si mantengono le operazioni ad alta intensità computazionale sulle GPU. Valutato su una GPU AMD MI210 e una FPGA Alveo U55C, il nostro sistema è da 1,04 a 2,2 volte più veloce e richiede da 1,11 a 4,7 volte meno energia attraverso molteplici ottimizzazioni dell'inferenza degli LLM rispetto al baseline su GPU (risultati simili valgono per NVIDIA A100). Questi risultati stabiliscono i sistemi eterogenei come una direzione pratica per un'efficiente elaborazione della memoria negli LLM e forniscono indicazioni per la futura progettazione di hardware eterogeneo.

English

Modern large language models (LLMs) increasingly depends on efficient long-context processing and generation mechanisms, including sparse attention, retrieval-augmented generation (RAG), and compressed contextual memory, to support complex reasoning. We show that these optimizations can be unified into a four-step memory processing pipeline: Prepare Memory, Compute Relevancy, Retrieval, and Apply to Inference. Through systematic profiling, we identify a 22%-97% memory processing overhead in LLM inference and strong heterogeneity in its computational characteristics. Motivated by this insight, we argue that heterogeneous systems are well-suited to accelerate memory processing and thus end-to-end inference. We demonstrate this approach on a GPU-FPGA system by offloading sparse, irregular, and memory-bounded operations to FPGAs while retaining compute-intensive operations on GPUs. Evaluated on an AMD MI210 GPU and an Alveo U55C FPGA, our system is 1.04sim2.2times faster and requires 1.11sim4.7times less energy across multiple LLM inference optimizations than the GPU baseline (similar results hold on NVIDIA A100). These results establish heterogeneous systems as a practical direction for efficient LLM memory processing and inform future heterogeneous hardware design.

Comprendere e accelerare la pipeline di elaborazione della memoria per l'inferenza disaggregata di LLM

Understand and Accelerate Memory Processing Pipeline for Disaggregated LLM Inference

Abstract

Support