Tous les modèles ne conviennent pas à la délégation experte : Sur la cohérence du routage local dans les modèles de mélange d'experts
Not All Models Suit Expert Offloading: On Local Routing Consistency of Mixture-of-Expert Models
May 21, 2025
Auteurs: Jingcong Liang, Siyuan Wang, Miren Tian, Yitong Li, Duyu Tang, Zhongyu Wei
cs.AI
Résumé
Le modèle Mixture-of-Experts (MoE) permet une mise à l'échelle efficace des grands modèles de langage (LLMs) grâce à l'activation parcimonieuse d'experts lors de l'inférence. Pour déployer efficacement de grands modèles MoE sur des appareils à mémoire limitée, de nombreux systèmes introduisent le *déchargement d'experts*, qui met en cache un sous-ensemble d'experts dans la mémoire rapide, laissant les autres dans la mémoire lente pour fonctionner sur le CPU ou être chargés à la demande. Bien que certaines recherches aient exploité la localité des activations d'experts, où des tokens consécutifs activent des experts similaires, le degré de cette **cohérence de routage locale** varie selon les modèles et reste peu étudié. Dans cet article, nous proposons deux métriques pour mesurer la cohérence de routage locale des modèles MoE : (1) **Segment Routing Best Performance (SRP)**, qui évalue dans quelle mesure un groupe fixe d'experts peut couvrir les besoins d'un segment de tokens, et (2) **Segment Cache Best Hit Rate (SCH)**, qui mesure le taux optimal de succès du cache au niveau du segment sous une limite de taille de cache donnée. Nous avons analysé 20 LLMs MoE de tailles et architectures variées et constaté que les modèles appliquant MoE à chaque couche et n'utilisant pas d'experts partagés présentent la plus forte cohérence de routage locale. Nous avons également montré que les experts spécialisés par domaine contribuent davantage à la cohérence de routage que ceux spécialisés par vocabulaire, et que la plupart des modèles peuvent équilibrer efficacité et efficience du cache avec des tailles de cache environ 2 fois supérieures au nombre d'experts actifs. Ces résultats ouvrent la voie à une conception et un déploiement de MoE économes en mémoire sans compromettre la vitesse d'inférence. Nous publions le code pour reproduire les expériences à l'adresse https://github.com/ljcleo/moe-lrc.
English
Mixture-of-Experts (MoE) enables efficient scaling of large language models
(LLMs) with sparsely activated experts during inference. To effectively deploy
large MoE models on memory-constrained devices, many systems introduce *expert
offloading* that caches a subset of experts in fast memory, leaving others on
slow memory to run on CPU or load on demand. While some research has exploited
the locality of expert activations, where consecutive tokens activate similar
experts, the degree of this **local routing consistency** varies across models
and remains understudied. In this paper, we propose two metrics to measure
local routing consistency of MoE models: (1) **Segment Routing Best Performance
(SRP)**, which evaluates how well a fixed group of experts can cover the needs
of a segment of tokens, and (2) **Segment Cache Best Hit Rate (SCH)**, which
measures the optimal segment-level cache hit rate under a given cache size
limit. We analyzed 20 MoE LLMs with diverse sizes and architectures and found
that models that apply MoE on every layer and do not use shared experts exhibit
the highest local routing consistency. We further showed that
domain-specialized experts contribute more to routing consistency than
vocabulary-specialized ones, and that most models can balance between cache
effectiveness and efficiency with cache sizes approximately 2x the active
experts. These findings pave the way for memory-efficient MoE design and
deployment without compromising inference speed. We publish the code for
replicating experiments at https://github.com/ljcleo/moe-lrc .Summary
AI-Generated Summary