HybriMoE: Гибридное планирование на CPU-GPU и управление кэшем для эффективного вывода моделей MoE

Аннотация

Архитектура Mixture of Experts (MoE) продемонстрировала значительные преимущества, так как позволяет увеличить ёмкость модели без пропорционального роста вычислительных затрат. Однако большой размер моделей MoE по-прежнему создаёт существенные требования к памяти, что обычно требует выгрузки экспертов на платформах с ограниченными ресурсами и приводит к значительным накладным расходам. Гибридный CPU-GPU подход к выводу был предложен для использования вычислений на CPU с целью снижения накладных расходов на загрузку экспертов, но сталкивается с серьёзными проблемами: с одной стороны, паттерны активации экспертов в моделях MoE крайне нестабильны, что делает фиксированные стратегии распределения в существующих работах неэффективными; с другой стороны, гибридное расписание CPU-GPU для MoE изначально сложно из-за разнообразия размеров экспертов, их структур, неравномерного распределения нагрузки и т.д. Для решения этих проблем в данной статье мы предлагаем HybriMoE — гибридный CPU-GPU фреймворк для вывода, который повышает эффективность использования ресурсов за счёт новой системы планирования и управления кэшем. HybriMoE включает (i) динамическую стратегию внутрислойного планирования для балансировки нагрузки между CPU и GPU, (ii) алгоритм межслойного предварительного извлечения, основанный на влиянии, и (iii) алгоритм кэширования на основе оценок для смягчения нестабильности активации экспертов. Мы реализовали HybriMoE на основе фреймворка kTransformers и оценили его на трёх широко используемых LLM, основанных на MoE. Экспериментальные результаты показывают, что HybriMoE обеспечивает среднее ускорение в 1.33 раза на этапе предварительного заполнения и 1.70 раза на этапе декодирования по сравнению с современным гибридным фреймворком для вывода MoE. Наш код доступен по адресу: https://github.com/PKU-SEC-Lab/HybriMoE.

English

The Mixture of Experts (MoE) architecture has demonstrated significant advantages as it enables to increase the model capacity without a proportional increase in computation. However, the large MoE model size still introduces substantial memory demands, which usually requires expert offloading on resource-constrained platforms and incurs significant overhead. Hybrid CPU-GPU inference has been proposed to leverage CPU computation to reduce expert loading overhead but faces major challenges: on one hand, the expert activation patterns of MoE models are highly unstable, rendering the fixed mapping strategies in existing works inefficient; on the other hand, the hybrid CPU-GPU schedule for MoE is inherently complex due to the diverse expert sizes, structures, uneven workload distribution, etc. To address these challenges, in this paper, we propose HybriMoE, a hybrid CPU-GPU inference framework that improves resource utilization through a novel CPU-GPU scheduling and cache management system. HybriMoE introduces (i) a dynamic intra-layer scheduling strategy to balance workloads across CPU and GPU, (ii) an impact-driven inter-layer prefetching algorithm, and (iii) a score-based caching algorithm to mitigate expert activation instability. We implement HybriMoE on top of the kTransformers framework and evaluate it on three widely used MoE-based LLMs. Experimental results demonstrate that HybriMoE achieves an average speedup of 1.33times in the prefill stage and 1.70times in the decode stage compared to state-of-the-art hybrid MoE inference framework. Our code is available at: https://github.com/PKU-SEC-Lab/HybriMoE.

HybriMoE: Гибридное планирование на CPU-GPU и управление кэшем для эффективного вывода моделей MoE

HybriMoE: Hybrid CPU-GPU Scheduling and Cache Management for Efficient MoE Inference

Аннотация

Support