HybriMoE: Hybride CPU-GPU Planning en Cachebeheer voor Efficiënte MoE-Inferentie

Samenvatting

De Mixture of Experts (MoE)-architectuur heeft aanzienlijke voordelen getoond, omdat het mogelijk maakt om de modelcapaciteit te vergroten zonder een proportionele toename in rekenkracht. Echter, de grote omvang van MoE-modellen brengt nog steeds aanzienlijke geheugeneisen met zich mee, wat meestal expert offloading vereist op platforms met beperkte middelen en aanzienlijke overhead veroorzaakt. Hybride CPU-GPU-inferentie is voorgesteld om CPU-berekening te benutten om de overhead van het laden van experts te verminderen, maar staat voor grote uitdagingen: enerzijds zijn de expert activatiepatronen van MoE-modellen zeer onstabiel, waardoor de vaste mappingstrategieën in bestaande werken inefficiënt zijn; anderzijds is het hybride CPU-GPU-schema voor MoE inherent complex vanwege de diverse expertgroottes, structuren, ongelijke werkverdeling, enz. Om deze uitdagingen aan te pakken, stellen we in dit artikel HybriMoE voor, een hybride CPU-GPU-inferentiekader dat de resourcebenutting verbetert door een nieuw CPU-GPU-schedulings- en cachebeheersysteem. HybriMoE introduceert (i) een dynamische intra-layer schedulingsstrategie om workloads over CPU en GPU te balanceren, (ii) een impact-gestuurd inter-layer prefetching-algoritme, en (iii) een score-gebaseerd caching-algoritme om de instabiliteit van expertactivatie te verminderen. We implementeren HybriMoE bovenop het kTransformers-framework en evalueren het op drie veelgebruikte MoE-gebaseerde LLM's. Experimentele resultaten tonen aan dat HybriMoE een gemiddelde versnelling bereikt van 1.33 keer in de prefill-fase en 1.70 keer in de decode-fase vergeleken met state-of-the-art hybride MoE-inferentiekaders. Onze code is beschikbaar op: https://github.com/PKU-SEC-Lab/HybriMoE.

English

The Mixture of Experts (MoE) architecture has demonstrated significant advantages as it enables to increase the model capacity without a proportional increase in computation. However, the large MoE model size still introduces substantial memory demands, which usually requires expert offloading on resource-constrained platforms and incurs significant overhead. Hybrid CPU-GPU inference has been proposed to leverage CPU computation to reduce expert loading overhead but faces major challenges: on one hand, the expert activation patterns of MoE models are highly unstable, rendering the fixed mapping strategies in existing works inefficient; on the other hand, the hybrid CPU-GPU schedule for MoE is inherently complex due to the diverse expert sizes, structures, uneven workload distribution, etc. To address these challenges, in this paper, we propose HybriMoE, a hybrid CPU-GPU inference framework that improves resource utilization through a novel CPU-GPU scheduling and cache management system. HybriMoE introduces (i) a dynamic intra-layer scheduling strategy to balance workloads across CPU and GPU, (ii) an impact-driven inter-layer prefetching algorithm, and (iii) a score-based caching algorithm to mitigate expert activation instability. We implement HybriMoE on top of the kTransformers framework and evaluate it on three widely used MoE-based LLMs. Experimental results demonstrate that HybriMoE achieves an average speedup of 1.33times in the prefill stage and 1.70times in the decode stage compared to state-of-the-art hybrid MoE inference framework. Our code is available at: https://github.com/PKU-SEC-Lab/HybriMoE.

HybriMoE: Hybride CPU-GPU Planning en Cachebeheer voor Efficiënte MoE-Inferentie

HybriMoE: Hybrid CPU-GPU Scheduling and Cache Management for Efficient MoE Inference

Samenvatting

Support