Comprendre et Accélérer le Pipeline de Traitement de la Mémoire pour l'Inférence de LLM Disaggregés
Understand and Accelerate Memory Processing Pipeline for Disaggregated LLM Inference
March 30, 2026
Auteurs: Zifan He, Rui Ma, Yizhou Sun, Jason Cong
cs.AI
Résumé
Les grands modèles de langage modernes (LLM) dépendent de plus en plus de mécanismes efficaces de traitement et de génération de contextes longs, incluant l'attention éparse, la génération augmentée par recherche (RAG) et la mémoire contextuelle compressée, pour supporter des raisonnements complexes. Nous montrons que ces optimisations peuvent être unifiées en un pipeline de traitement de la mémoire en quatre étapes : Préparation de la Mémoire, Calcul de la Pertinence, Récupération et Application à l'Inférence. Par un profilage systématique, nous identifions une surcharge de traitement de la mémoire de 22 % à 97 % lors de l'inférence des LLM et une forte hétérogénéité dans ses caractéristiques computationnelles. Motivés par cette observation, nous soutenons que les systèmes hétérogènes sont bien adaptés pour accélérer le traitement de la mémoire et donc l'inférence de bout en bout. Nous démontrons cette approche sur un système GPU-FPGA en déléguant les opérations éparses, irrégulières et limitées par la mémoire aux FPGA, tout en conservant les opérations intensives en calcul sur les GPU. Évalué sur un GPU AMD MI210 et un FPGA Alveo U55C, notre système est 1,04 à 2,2 fois plus rapide et nécessite 1,11 à 4,7 fois moins d'énergie pour diverses optimisations d'inférence de LLM que la référence GPU (des résultats similaires sont valables sur NVIDIA A100). Ces résultats établissent les systèmes hétérogènes comme une direction pratique pour un traitement efficace de la mémoire des LLM et éclairent la conception future de matériel hétérogène.
English
Modern large language models (LLMs) increasingly depends on efficient long-context processing and generation mechanisms, including sparse attention, retrieval-augmented generation (RAG), and compressed contextual memory, to support complex reasoning. We show that these optimizations can be unified into a four-step memory processing pipeline: Prepare Memory, Compute Relevancy, Retrieval, and Apply to Inference. Through systematic profiling, we identify a 22%-97% memory processing overhead in LLM inference and strong heterogeneity in its computational characteristics. Motivated by this insight, we argue that heterogeneous systems are well-suited to accelerate memory processing and thus end-to-end inference. We demonstrate this approach on a GPU-FPGA system by offloading sparse, irregular, and memory-bounded operations to FPGAs while retaining compute-intensive operations on GPUs. Evaluated on an AMD MI210 GPU and an Alveo U55C FPGA, our system is 1.04sim2.2times faster and requires 1.11sim4.7times less energy across multiple LLM inference optimizations than the GPU baseline (similar results hold on NVIDIA A100). These results establish heterogeneous systems as a practical direction for efficient LLM memory processing and inform future heterogeneous hardware design.