ChatPaper.aiChatPaper

分散化LLM推論におけるメモリ処理パイプラインの理解と高速化

Understand and Accelerate Memory Processing Pipeline for Disaggregated LLM Inference

March 30, 2026
著者: Zifan He, Rui Ma, Yizhou Sun, Jason Cong
cs.AI

要旨

現代の大規模言語モデル(LLM)は、複雑な推論を支援するために、スパースアテンション、検索拡張生成(RAG)、圧縮された文脈メモリなどの効率的な長文脈処理・生成メカニズムへの依存度を高めている。本論文では、これらの最適化技術が、「メモリ準備」「関連性計算」「検索」「推論への適用」という4段階のメモリ処理パイプラインに統一的に整理できることを示す。系統的なプロファイリングを通じて、LLM推論における22%〜97%のメモリ処理オーバーヘッドと、その計算特性における強い不均一性を明らかにする。この知見に基づき、不均一なシステムがメモリ処理、ひいてはエンドツーエンドの推論を加速するのに適していると論じる。我々はこのアプローチをGPU-FPGAシステム上で実証し、疎で不規則かつメモリ律速となる演算をFPGAにオフロードし、計算集約的な演算はGPU上に維持する。AMD MI210 GPUとAlveo U55C FPGAを用いた評価では、複数のLLM推論最適化タスクにおいて、GPUベースラインと比較してシステム速度が1.04〜2.2倍、エネルギー消費量が1.11〜4.7倍削減されることを確認した(NVIDIA A100でも同様の結果が得られる)。これらの結果は、効率的なLLMメモリ処理における不均一システムの実用性を確立し、将来の不均一ハードウェア設計に指針を与えるものである。
English
Modern large language models (LLMs) increasingly depends on efficient long-context processing and generation mechanisms, including sparse attention, retrieval-augmented generation (RAG), and compressed contextual memory, to support complex reasoning. We show that these optimizations can be unified into a four-step memory processing pipeline: Prepare Memory, Compute Relevancy, Retrieval, and Apply to Inference. Through systematic profiling, we identify a 22%-97% memory processing overhead in LLM inference and strong heterogeneity in its computational characteristics. Motivated by this insight, we argue that heterogeneous systems are well-suited to accelerate memory processing and thus end-to-end inference. We demonstrate this approach on a GPU-FPGA system by offloading sparse, irregular, and memory-bounded operations to FPGAs while retaining compute-intensive operations on GPUs. Evaluated on an AMD MI210 GPU and an Alveo U55C FPGA, our system is 1.04sim2.2times faster and requires 1.11sim4.7times less energy across multiple LLM inference optimizations than the GPU baseline (similar results hold on NVIDIA A100). These results establish heterogeneous systems as a practical direction for efficient LLM memory processing and inform future heterogeneous hardware design.
PDF21April 3, 2026