HybriMoE: Hybride CPU-GPU-Planung und Cache-Verwaltung für effiziente MoE-Inferenz

papers.abstract

Die Mixture-of-Experts (MoE)-Architektur hat erhebliche Vorteile gezeigt, da sie es ermöglicht, die Modellkapazität zu erhöhen, ohne den Rechenaufwand proportional zu steigern. Allerdings führt die große Modellgröße von MoE immer noch zu erheblichen Speicheranforderungen, was in der Regel ein Auslagern von Experten auf ressourcenbeschränkten Plattformen erfordert und erheblichen Overhead verursacht. Hybrides CPU-GPU-Inferenz wurde vorgeschlagen, um die CPU-Berechnung zu nutzen und den Overhead beim Laden von Experten zu reduzieren, steht jedoch vor großen Herausforderungen: Einerseits sind die Expertenaktivierungsmuster von MoE-Modellen äußerst instabil, was die festen Zuordnungsstrategien in bestehenden Arbeiten ineffizient macht; andererseits ist der hybride CPU-GPU-Zeitplan für MoE aufgrund der unterschiedlichen Expertengrößen, -strukturen und ungleichmäßigen Arbeitslastverteilung von Natur aus komplex. Um diese Herausforderungen zu bewältigen, schlagen wir in diesem Artikel HybriMoE vor, ein hybrides CPU-GPU-Inferenz-Framework, das die Ressourcennutzung durch ein neuartiges CPU-GPU-Zeitplanungs- und Cache-Management-System verbessert. HybriMoE führt (i) eine dynamische Intra-Layer-Zeitplanungsstrategie ein, um die Arbeitslast zwischen CPU und GPU auszugleichen, (ii) einen impact-gesteuerten Inter-Layer-Prefetching-Algorithmus und (iii) einen score-basierten Caching-Algorithmus, um die Instabilität der Expertenaktivierung zu mildern. Wir implementieren HybriMoE auf Basis des kTransformers-Frameworks und evaluieren es an drei weit verbreiteten MoE-basierten LLMs. Die experimentellen Ergebnisse zeigen, dass HybriMoE im Vergleich zum state-of-the-art hybriden MoE-Inferenz-Framework eine durchschnittliche Beschleunigung von 1,33x in der Prefill-Phase und 1,70x in der Decode-Phase erreicht. Unser Code ist verfügbar unter: https://github.com/PKU-SEC-Lab/HybriMoE.

English

The Mixture of Experts (MoE) architecture has demonstrated significant advantages as it enables to increase the model capacity without a proportional increase in computation. However, the large MoE model size still introduces substantial memory demands, which usually requires expert offloading on resource-constrained platforms and incurs significant overhead. Hybrid CPU-GPU inference has been proposed to leverage CPU computation to reduce expert loading overhead but faces major challenges: on one hand, the expert activation patterns of MoE models are highly unstable, rendering the fixed mapping strategies in existing works inefficient; on the other hand, the hybrid CPU-GPU schedule for MoE is inherently complex due to the diverse expert sizes, structures, uneven workload distribution, etc. To address these challenges, in this paper, we propose HybriMoE, a hybrid CPU-GPU inference framework that improves resource utilization through a novel CPU-GPU scheduling and cache management system. HybriMoE introduces (i) a dynamic intra-layer scheduling strategy to balance workloads across CPU and GPU, (ii) an impact-driven inter-layer prefetching algorithm, and (iii) a score-based caching algorithm to mitigate expert activation instability. We implement HybriMoE on top of the kTransformers framework and evaluate it on three widely used MoE-based LLMs. Experimental results demonstrate that HybriMoE achieves an average speedup of 1.33times in the prefill stage and 1.70times in the decode stage compared to state-of-the-art hybrid MoE inference framework. Our code is available at: https://github.com/PKU-SEC-Lab/HybriMoE.

HybriMoE: Hybride CPU-GPU-Planung und Cache-Verwaltung für effiziente MoE-Inferenz

HybriMoE: Hybrid CPU-GPU Scheduling and Cache Management for Efficient MoE Inference

papers.abstract

Support