Verstehen und Beschleunigen der Speicherverarbeitungspipeline für disaggregiertes LLM-Inferenz
Understand and Accelerate Memory Processing Pipeline for Disaggregated LLM Inference
March 30, 2026
Autoren: Zifan He, Rui Ma, Yizhou Sun, Jason Cong
cs.AI
Zusammenfassung
Moderne große Sprachmodelle (LLMs) sind zunehmend auf effiziente Langkontext-Verarbeitungs- und Generierungsmechanismen angewiesen, wie sparse Attention, retrieval-augmented generation (RAG) und komprimierten kontextuellen Speicher, um komplexes Schließen zu unterstützen. Wir zeigen, dass diese Optimierungen in einer vierstufigen Speicherverarbeitungspipeline vereinheitlicht werden können: Prepare Memory, Compute Relevancy, Retrieval und Apply to Inference. Durch systematisches Profiling identifizieren wir einen Speicherverarbeitungs-Overhead von 22–97 % bei der LLM-Inferenz und eine starke Heterogenität in ihren rechenbezogenen Charakteristiken. Aufbauend auf dieser Erkenntnis argumentieren wir, dass heterogene Systeme gut geeignet sind, um die Speicherverarbeitung und damit die Ende-zu-Ende-Inferenz zu beschleunigen. Wir demonstrieren diesen Ansatz auf einem GPU-FPGA-System, indem wir spärliche, unregelmäßige und speicherbegrenzte Operationen auf FPGAs auslagern, während rechenintensive Operationen auf den GPUs verbleiben. Bewertet auf einem AMD MI210 GPU und einem Alveo U55C FPGA ist unser System bei verschiedenen LLM-Inferenzoptimierungen 1,04–2,2-mal schneller und benötigt 1,11–4,7-mal weniger Energie als die GPU-Basislinie (ähnliche Ergebnisse gelten für NVIDIA A100). Diese Ergebnisse etablieren heterogene Systeme als praktischen Ansatz für effiziente LLM-Speicherverarbeitung und liefern Erkenntnisse für zukünftiges heterogenes Hardware-Design.
English
Modern large language models (LLMs) increasingly depends on efficient long-context processing and generation mechanisms, including sparse attention, retrieval-augmented generation (RAG), and compressed contextual memory, to support complex reasoning. We show that these optimizations can be unified into a four-step memory processing pipeline: Prepare Memory, Compute Relevancy, Retrieval, and Apply to Inference. Through systematic profiling, we identify a 22%-97% memory processing overhead in LLM inference and strong heterogeneity in its computational characteristics. Motivated by this insight, we argue that heterogeneous systems are well-suited to accelerate memory processing and thus end-to-end inference. We demonstrate this approach on a GPU-FPGA system by offloading sparse, irregular, and memory-bounded operations to FPGAs while retaining compute-intensive operations on GPUs. Evaluated on an AMD MI210 GPU and an Alveo U55C FPGA, our system is 1.04sim2.2times faster and requires 1.11sim4.7times less energy across multiple LLM inference optimizations than the GPU baseline (similar results hold on NVIDIA A100). These results establish heterogeneous systems as a practical direction for efficient LLM memory processing and inform future heterogeneous hardware design.