Niet Alle Modellen Zijn Geschikt voor Expert Offloading: Over Lokale Routeringsconsistentie van Mixture-of-Expert Modellen

Samenvatting

Mixture-of-Experts (MoE) maakt efficiënte schaalvergroting van grote taalmodel- len (LLMs) mogelijk met spaarzaam geactiveerde experts tijdens inferentie. Om grote MoE-modellen effectief te implementeren op apparaten met beperkt geheugen, introduceren veel systemen *expert offloading*, waarbij een subset van experts in snel geheugen wordt gecachet, terwijl andere op langzaam geheugen blijven om op de CPU te draaien of op aanvraag te laden. Hoewel sommig onderzoek gebruik maakt van de localiteit van expertactivaties, waarbij opeenvolgende tokens vergelijkbare experts activeren, varieert de mate van deze **lokale routerings- consistentie** tussen modellen en blijft deze onderbelicht. In dit artikel stellen we twee metrieken voor om de lokale routeringsconsistentie van MoE- modellen te meten: (1) **Segment Routing Best Performance (SRP)**, dat evalueert hoe goed een vaste groep experts de behoeften van een segment tokens kan afdekken, en (2) **Segment Cache Best Hit Rate (SCH)**, dat de optimale cache- treffersnelheid op segmentniveau meet binnen een gegeven cachegrootte. We analyseerden 20 MoE LLMs met diverse formaten en architecturen en ontdekten dat modellen die MoE op elke laag toepassen en geen gedeelde experts gebruiken, de hoogste lokale routeringsconsistentie vertonen. We toonden verder aan dat domeingespecialiseerde experts meer bijdragen aan routeringsconsistentie dan vocabulairgespecialiseerde experts, en dat de meeste modellen een balans kunnen vinden tussen cache-effectiviteit en efficiëntie met cachegroottes van ongeveer 2x de actieve experts. Deze bevindingen bieden mogelijkheden voor geheugen- efficiënt MoE-ontwerp en -implementatie zonder in te leveren op inferentiesnel- heid. We publiceren de code voor het repliceren van experimenten op https:// github.com/ljcleo/moe-lrc.

English

Mixture-of-Experts (MoE) enables efficient scaling of large language models (LLMs) with sparsely activated experts during inference. To effectively deploy large MoE models on memory-constrained devices, many systems introduce *expert offloading* that caches a subset of experts in fast memory, leaving others on slow memory to run on CPU or load on demand. While some research has exploited the locality of expert activations, where consecutive tokens activate similar experts, the degree of this **local routing consistency** varies across models and remains understudied. In this paper, we propose two metrics to measure local routing consistency of MoE models: (1) **Segment Routing Best Performance (SRP)**, which evaluates how well a fixed group of experts can cover the needs of a segment of tokens, and (2) **Segment Cache Best Hit Rate (SCH)**, which measures the optimal segment-level cache hit rate under a given cache size limit. We analyzed 20 MoE LLMs with diverse sizes and architectures and found that models that apply MoE on every layer and do not use shared experts exhibit the highest local routing consistency. We further showed that domain-specialized experts contribute more to routing consistency than vocabulary-specialized ones, and that most models can balance between cache effectiveness and efficiency with cache sizes approximately 2x the active experts. These findings pave the way for memory-efficient MoE design and deployment without compromising inference speed. We publish the code for replicating experiments at https://github.com/ljcleo/moe-lrc .

Niet Alle Modellen Zijn Geschikt voor Expert Offloading: Over Lokale Routeringsconsistentie van Mixture-of-Expert Modellen

Not All Models Suit Expert Offloading: On Local Routing Consistency of Mixture-of-Expert Models

Samenvatting

Support