Niet Alle Modellen Zijn Geschikt voor Expert Offloading: Over Lokale Routeringsconsistentie van Mixture-of-Expert Modellen
Not All Models Suit Expert Offloading: On Local Routing Consistency of Mixture-of-Expert Models
May 21, 2025
Auteurs: Jingcong Liang, Siyuan Wang, Miren Tian, Yitong Li, Duyu Tang, Zhongyu Wei
cs.AI
Samenvatting
Mixture-of-Experts (MoE) maakt efficiënte schaalvergroting van grote taalmodel-
len (LLMs) mogelijk met spaarzaam geactiveerde experts tijdens inferentie. Om
grote MoE-modellen effectief te implementeren op apparaten met beperkt geheugen,
introduceren veel systemen *expert offloading*, waarbij een subset van experts
in snel geheugen wordt gecachet, terwijl andere op langzaam geheugen blijven om
op de CPU te draaien of op aanvraag te laden. Hoewel sommig onderzoek gebruik
maakt van de localiteit van expertactivaties, waarbij opeenvolgende tokens
vergelijkbare experts activeren, varieert de mate van deze **lokale routerings-
consistentie** tussen modellen en blijft deze onderbelicht. In dit artikel
stellen we twee metrieken voor om de lokale routeringsconsistentie van MoE-
modellen te meten: (1) **Segment Routing Best Performance (SRP)**, dat evalueert
hoe goed een vaste groep experts de behoeften van een segment tokens kan
afdekken, en (2) **Segment Cache Best Hit Rate (SCH)**, dat de optimale cache-
treffersnelheid op segmentniveau meet binnen een gegeven cachegrootte. We
analyseerden 20 MoE LLMs met diverse formaten en architecturen en ontdekten dat
modellen die MoE op elke laag toepassen en geen gedeelde experts gebruiken, de
hoogste lokale routeringsconsistentie vertonen. We toonden verder aan dat
domeingespecialiseerde experts meer bijdragen aan routeringsconsistentie dan
vocabulairgespecialiseerde experts, en dat de meeste modellen een balans kunnen
vinden tussen cache-effectiviteit en efficiëntie met cachegroottes van ongeveer
2x de actieve experts. Deze bevindingen bieden mogelijkheden voor geheugen-
efficiënt MoE-ontwerp en -implementatie zonder in te leveren op inferentiesnel-
heid. We publiceren de code voor het repliceren van experimenten op https://
github.com/ljcleo/moe-lrc.
English
Mixture-of-Experts (MoE) enables efficient scaling of large language models
(LLMs) with sparsely activated experts during inference. To effectively deploy
large MoE models on memory-constrained devices, many systems introduce *expert
offloading* that caches a subset of experts in fast memory, leaving others on
slow memory to run on CPU or load on demand. While some research has exploited
the locality of expert activations, where consecutive tokens activate similar
experts, the degree of this **local routing consistency** varies across models
and remains understudied. In this paper, we propose two metrics to measure
local routing consistency of MoE models: (1) **Segment Routing Best Performance
(SRP)**, which evaluates how well a fixed group of experts can cover the needs
of a segment of tokens, and (2) **Segment Cache Best Hit Rate (SCH)**, which
measures the optimal segment-level cache hit rate under a given cache size
limit. We analyzed 20 MoE LLMs with diverse sizes and architectures and found
that models that apply MoE on every layer and do not use shared experts exhibit
the highest local routing consistency. We further showed that
domain-specialized experts contribute more to routing consistency than
vocabulary-specialized ones, and that most models can balance between cache
effectiveness and efficiency with cache sizes approximately 2x the active
experts. These findings pave the way for memory-efficient MoE design and
deployment without compromising inference speed. We publish the code for
replicating experiments at https://github.com/ljcleo/moe-lrc .