ChatPaper.aiChatPaper

Понимание и ускорение конвейера обработки памяти для распределенного вывода больших языковых моделей

Understand and Accelerate Memory Processing Pipeline for Disaggregated LLM Inference

March 30, 2026
Авторы: Zifan He, Rui Ma, Yizhou Sun, Jason Cong
cs.AI

Аннотация

Современные большие языковые модели (БЯМ) все больше зависят от эффективных механизмов обработки и генерации длинного контекста, включая разреженное внимание, генерацию с расширением на основе извлечения (RAG) и сжатую контекстную память, для поддержки сложных рассуждений. Мы показываем, что эти оптимизации можно объединить в четырехэтапный конвейер обработки памяти: Подготовка Памяти, Вычисление Релевантности, Извлечение и Применение при Выводе. Систематическое профилирование выявило накладные расходы на обработку памяти в размере 22–97% при выводе БЯМ и сильную гетерогенность их вычислительных характеристик. Руководствуясь этим наблюдением, мы утверждаем, что гетерогенные системы хорошо подходят для ускорения обработки памяти и, следовательно, сквозного вывода. Мы демонстрируем этот подход на системе GPU-FPGA, перенося разреженные, нерегулярные и ограниченные памятью операции на ПЛИС, сохраняя при этом вычислениятельно интенсивные операции на графических процессорах. Оценка на системе с GPU AMD MI210 и ПЛИС Alveo U55C показывает, что наше решение работает в 1.04–2.2 раза быстрее и требует в 1.11–4.7 раза меньше энергии при различных оптимизациях вывода БЯМ по сравнению с базовым GPU-вариантом (аналогичные результаты получены для NVIDIA A100). Эти результаты подтверждают гетерогенные системы как практическое направление для эффективной обработки памяти в БЯМ и дают информацию для будущего проектирования гетерогенных аппаратных средств.
English
Modern large language models (LLMs) increasingly depends on efficient long-context processing and generation mechanisms, including sparse attention, retrieval-augmented generation (RAG), and compressed contextual memory, to support complex reasoning. We show that these optimizations can be unified into a four-step memory processing pipeline: Prepare Memory, Compute Relevancy, Retrieval, and Apply to Inference. Through systematic profiling, we identify a 22%-97% memory processing overhead in LLM inference and strong heterogeneity in its computational characteristics. Motivated by this insight, we argue that heterogeneous systems are well-suited to accelerate memory processing and thus end-to-end inference. We demonstrate this approach on a GPU-FPGA system by offloading sparse, irregular, and memory-bounded operations to FPGAs while retaining compute-intensive operations on GPUs. Evaluated on an AMD MI210 GPU and an Alveo U55C FPGA, our system is 1.04sim2.2times faster and requires 1.11sim4.7times less energy across multiple LLM inference optimizations than the GPU baseline (similar results hold on NVIDIA A100). These results establish heterogeneous systems as a practical direction for efficient LLM memory processing and inform future heterogeneous hardware design.
PDF21April 3, 2026