HybriMoE: Гибридное планирование на CPU-GPU и управление кэшем для эффективного вывода моделей MoE
HybriMoE: Hybrid CPU-GPU Scheduling and Cache Management for Efficient MoE Inference
April 8, 2025
Авторы: Shuzhang Zhong, Yanfan Sun, Ling Liang, Runsheng Wang, Ru Huang, Meng Li
cs.AI
Аннотация
Архитектура Mixture of Experts (MoE) продемонстрировала значительные преимущества, так как позволяет увеличить ёмкость модели без пропорционального роста вычислительных затрат. Однако большой размер моделей MoE по-прежнему создаёт существенные требования к памяти, что обычно требует выгрузки экспертов на платформах с ограниченными ресурсами и приводит к значительным накладным расходам. Гибридный CPU-GPU подход к выводу был предложен для использования вычислений на CPU с целью снижения накладных расходов на загрузку экспертов, но сталкивается с серьёзными проблемами: с одной стороны, паттерны активации экспертов в моделях MoE крайне нестабильны, что делает фиксированные стратегии распределения в существующих работах неэффективными; с другой стороны, гибридное расписание CPU-GPU для MoE изначально сложно из-за разнообразия размеров экспертов, их структур, неравномерного распределения нагрузки и т.д. Для решения этих проблем в данной статье мы предлагаем HybriMoE — гибридный CPU-GPU фреймворк для вывода, который повышает эффективность использования ресурсов за счёт новой системы планирования и управления кэшем. HybriMoE включает (i) динамическую стратегию внутрислойного планирования для балансировки нагрузки между CPU и GPU, (ii) алгоритм межслойного предварительного извлечения, основанный на влиянии, и (iii) алгоритм кэширования на основе оценок для смягчения нестабильности активации экспертов. Мы реализовали HybriMoE на основе фреймворка kTransformers и оценили его на трёх широко используемых LLM, основанных на MoE. Экспериментальные результаты показывают, что HybriMoE обеспечивает среднее ускорение в 1.33 раза на этапе предварительного заполнения и 1.70 раза на этапе декодирования по сравнению с современным гибридным фреймворком для вывода MoE. Наш код доступен по адресу: https://github.com/PKU-SEC-Lab/HybriMoE.
English
The Mixture of Experts (MoE) architecture has demonstrated significant
advantages as it enables to increase the model capacity without a proportional
increase in computation. However, the large MoE model size still introduces
substantial memory demands, which usually requires expert offloading on
resource-constrained platforms and incurs significant overhead. Hybrid CPU-GPU
inference has been proposed to leverage CPU computation to reduce expert
loading overhead but faces major challenges: on one hand, the expert activation
patterns of MoE models are highly unstable, rendering the fixed mapping
strategies in existing works inefficient; on the other hand, the hybrid CPU-GPU
schedule for MoE is inherently complex due to the diverse expert sizes,
structures, uneven workload distribution, etc. To address these challenges, in
this paper, we propose HybriMoE, a hybrid CPU-GPU inference framework that
improves resource utilization through a novel CPU-GPU scheduling and cache
management system. HybriMoE introduces (i) a dynamic intra-layer scheduling
strategy to balance workloads across CPU and GPU, (ii) an impact-driven
inter-layer prefetching algorithm, and (iii) a score-based caching algorithm to
mitigate expert activation instability. We implement HybriMoE on top of the
kTransformers framework and evaluate it on three widely used MoE-based LLMs.
Experimental results demonstrate that HybriMoE achieves an average speedup of
1.33times in the prefill stage and 1.70times in the decode stage compared
to state-of-the-art hybrid MoE inference framework. Our code is available at:
https://github.com/PKU-SEC-Lab/HybriMoE.Summary
AI-Generated Summary