Nicht alle Modelle eignen sich für Expert-Offloading: Zur lokalen Routing-Konsistenz von Mixture-of-Expert-Modellen
Not All Models Suit Expert Offloading: On Local Routing Consistency of Mixture-of-Expert Models
May 21, 2025
Autoren: Jingcong Liang, Siyuan Wang, Miren Tian, Yitong Li, Duyu Tang, Zhongyu Wei
cs.AI
Zusammenfassung
Mixture-of-Experts (MoE) ermöglicht eine effiziente Skalierung großer Sprachmodelle (LLMs) durch spärlich aktivierte Experten während der Inferenz. Um große MoE-Modelle auf speicherbeschränkten Geräten effektiv bereitzustellen, führen viele Systeme *Expert Offloading* ein, bei dem eine Teilmenge der Experten im schnellen Speicher zwischengespeichert wird, während andere im langsamen Speicher verbleiben, um auf der CPU ausgeführt oder bei Bedarf geladen zu werden. Während einige Forschungsarbeiten die Lokalität von Expertenaktivierungen ausgenutzt haben, bei der aufeinanderfolgende Token ähnliche Experten aktivieren, variiert das Ausmaß dieser **lokalen Routing-Konsistenz** zwischen den Modellen und bleibt weitgehend unerforscht. In diesem Artikel schlagen wir zwei Metriken zur Messung der lokalen Routing-Konsistenz von MoE-Modellen vor: (1) **Segment Routing Best Performance (SRP)**, die bewertet, wie gut eine feste Gruppe von Experten die Anforderungen eines Token-Segments abdecken kann, und (2) **Segment Cache Best Hit Rate (SCH)**, die die optimale Cache-Trefferrate auf Segmentebene bei einer gegebenen Cache-Größenbeschränkung misst. Wir analysierten 20 MoE-LLMs mit unterschiedlichen Größen und Architekturen und fanden heraus, dass Modelle, die MoE auf jeder Schicht anwenden und keine gemeinsamen Experten verwenden, die höchste lokale Routing-Konsistenz aufweisen. Weiterhin zeigten wir, dass domänenspezialisierte Experten mehr zur Routing-Konsistenz beitragen als vokabularspezialisierte, und dass die meisten Modelle mit Cache-Größen von etwa dem 2-fachen der aktiven Experten einen Ausgleich zwischen Cache-Effektivität und Effizienz erreichen können. Diese Erkenntnisse ebnen den Weg für speichereffizientes MoE-Design und -Bereitstellung ohne Kompromisse bei der Inferenzgeschwindigkeit. Wir veröffentlichen den Code zur Reproduktion der Experimente unter https://github.com/ljcleo/moe-lrc.
English
Mixture-of-Experts (MoE) enables efficient scaling of large language models
(LLMs) with sparsely activated experts during inference. To effectively deploy
large MoE models on memory-constrained devices, many systems introduce *expert
offloading* that caches a subset of experts in fast memory, leaving others on
slow memory to run on CPU or load on demand. While some research has exploited
the locality of expert activations, where consecutive tokens activate similar
experts, the degree of this **local routing consistency** varies across models
and remains understudied. In this paper, we propose two metrics to measure
local routing consistency of MoE models: (1) **Segment Routing Best Performance
(SRP)**, which evaluates how well a fixed group of experts can cover the needs
of a segment of tokens, and (2) **Segment Cache Best Hit Rate (SCH)**, which
measures the optimal segment-level cache hit rate under a given cache size
limit. We analyzed 20 MoE LLMs with diverse sizes and architectures and found
that models that apply MoE on every layer and do not use shared experts exhibit
the highest local routing consistency. We further showed that
domain-specialized experts contribute more to routing consistency than
vocabulary-specialized ones, and that most models can balance between cache
effectiveness and efficiency with cache sizes approximately 2x the active
experts. These findings pave the way for memory-efficient MoE design and
deployment without compromising inference speed. We publish the code for
replicating experiments at https://github.com/ljcleo/moe-lrc .Summary
AI-Generated Summary