Non Tutti i Modelli Sono Adatti per il Deferimento agli Esperti: Sulla Coerenza del Routing Locale nei Modelli Mixture-of-Expert
Not All Models Suit Expert Offloading: On Local Routing Consistency of Mixture-of-Expert Models
May 21, 2025
Autori: Jingcong Liang, Siyuan Wang, Miren Tian, Yitong Li, Duyu Tang, Zhongyu Wei
cs.AI
Abstract
Il modello Mixture-of-Experts (MoE) consente un efficiente ridimensionamento di grandi modelli linguistici (LLM) attraverso l'attivazione sparsa di esperti durante l'inferenza. Per implementare efficacemente grandi modelli MoE su dispositivi con memoria limitata, molti sistemi introducono il *caricamento differito degli esperti* (expert offloading), che memorizza un sottoinsieme di esperti nella memoria veloce, lasciando gli altri nella memoria lenta per essere eseguiti sulla CPU o caricati su richiesta. Sebbene alcune ricerche abbiano sfruttato la località delle attivazioni degli esperti, dove token consecutivi attivano esperti simili, il grado di questa **consistenza locale del routing** varia tra i modelli e rimane poco studiato. In questo articolo, proponiamo due metriche per misurare la consistenza locale del routing nei modelli MoE: (1) **Segment Routing Best Performance (SRP)**, che valuta quanto bene un gruppo fisso di esperti può soddisfare le esigenze di un segmento di token, e (2) **Segment Cache Best Hit Rate (SCH)**, che misura il tasso ottimale di cache hit a livello di segmento con un limite di dimensione della cache. Abbiamo analizzato 20 LLM MoE con dimensioni e architetture diverse e abbiamo scoperto che i modelli che applicano MoE su ogni livello e non utilizzano esperti condivisi mostrano la più alta consistenza locale del routing. Inoltre, abbiamo dimostrato che esperti specializzati per dominio contribuiscono maggiormente alla consistenza del routing rispetto a quelli specializzati per vocabolario, e che la maggior parte dei modelli può bilanciare efficacia ed efficienza della cache con dimensioni della cache approssimativamente 2x rispetto agli esperti attivi. Questi risultati aprono la strada a una progettazione e implementazione efficiente in termini di memoria dei modelli MoE senza compromettere la velocità di inferenza. Pubblichiamo il codice per replicare gli esperimenti all'indirizzo https://github.com/ljcleo/moe-lrc.
English
Mixture-of-Experts (MoE) enables efficient scaling of large language models
(LLMs) with sparsely activated experts during inference. To effectively deploy
large MoE models on memory-constrained devices, many systems introduce *expert
offloading* that caches a subset of experts in fast memory, leaving others on
slow memory to run on CPU or load on demand. While some research has exploited
the locality of expert activations, where consecutive tokens activate similar
experts, the degree of this **local routing consistency** varies across models
and remains understudied. In this paper, we propose two metrics to measure
local routing consistency of MoE models: (1) **Segment Routing Best Performance
(SRP)**, which evaluates how well a fixed group of experts can cover the needs
of a segment of tokens, and (2) **Segment Cache Best Hit Rate (SCH)**, which
measures the optimal segment-level cache hit rate under a given cache size
limit. We analyzed 20 MoE LLMs with diverse sizes and architectures and found
that models that apply MoE on every layer and do not use shared experts exhibit
the highest local routing consistency. We further showed that
domain-specialized experts contribute more to routing consistency than
vocabulary-specialized ones, and that most models can balance between cache
effectiveness and efficiency with cache sizes approximately 2x the active
experts. These findings pave the way for memory-efficient MoE design and
deployment without compromising inference speed. We publish the code for
replicating experiments at https://github.com/ljcleo/moe-lrc .