ChatPaper.aiChatPaper

Begrijpen en Versnellen van de Geheugenverwerkingspijplijn voor Gedisaggregeerde LLM-inferentie

Understand and Accelerate Memory Processing Pipeline for Disaggregated LLM Inference

March 30, 2026
Auteurs: Zifan He, Rui Ma, Yizhou Sun, Jason Cong
cs.AI

Samenvatting

Moderne grote taalmodelen (LLM's) zijn in toenemende mate afhankelijk van efficiënte mechanismen voor het verwerken en genereren van lange contexten, waaronder *sparse attention*, *retrieval-augmented generation* (RAG) en gecomprimeerd contextueel geheugen, om complex redeneren te ondersteunen. Wij tonen aan dat deze optimalisaties kunnen worden samengebracht in een pijplijn voor geheugenverwerking met vier stappen: Geheugen Voorbereiden, Relevantie Bepalen, Ophalen en Toepassen bij Inferentie. Door middel van systematische profilering identificeren we een overhead voor geheugenverwerking van 22% tot 97% bij LLM-inferentie en een sterke heterogeniteit in de rekenkundige karakteristieken ervan. Gemotiveerd door dit inzicht, stellen wij dat heterogene systemen bij uitstek geschikt zijn om de geheugenverwerking en daarmee de end-to-end inferentie te versnellen. Wij demonstreren deze aanpak op een GPU-FPGA-systeem door spaarzame, onregelmatige en geheugengebonden bewerkingen uit te besteden aan FPGA's, terwijl rekenintensieve bewerkingen op GPU's worden gehandhaafd. Geëvalueerd op een AMD MI210 GPU en een Alveo U55C FPGA is ons systeem 1,04 tot 2,2 keer sneller en verbruikt het 1,11 tot 4,7 keer minder energie bij diverse LLM-inferentie-optimalisaties in vergelijking met de GPU-basislijn (vergelijkbare resultaten gelden voor NVIDIA A100). Deze resultaten vestigen heterogene systemen als een praktische richting voor efficiënte LLM-geheugenverwerking en geven richting aan toekomstig heterogeen hardware-ontwerp.
English
Modern large language models (LLMs) increasingly depends on efficient long-context processing and generation mechanisms, including sparse attention, retrieval-augmented generation (RAG), and compressed contextual memory, to support complex reasoning. We show that these optimizations can be unified into a four-step memory processing pipeline: Prepare Memory, Compute Relevancy, Retrieval, and Apply to Inference. Through systematic profiling, we identify a 22%-97% memory processing overhead in LLM inference and strong heterogeneity in its computational characteristics. Motivated by this insight, we argue that heterogeneous systems are well-suited to accelerate memory processing and thus end-to-end inference. We demonstrate this approach on a GPU-FPGA system by offloading sparse, irregular, and memory-bounded operations to FPGAs while retaining compute-intensive operations on GPUs. Evaluated on an AMD MI210 GPU and an Alveo U55C FPGA, our system is 1.04sim2.2times faster and requires 1.11sim4.7times less energy across multiple LLM inference optimizations than the GPU baseline (similar results hold on NVIDIA A100). These results establish heterogeneous systems as a practical direction for efficient LLM memory processing and inform future heterogeneous hardware design.
PDF21April 3, 2026