Non Tutti i Modelli Sono Adatti per il Deferimento agli Esperti: Sulla Coerenza del Routing Locale nei Modelli Mixture-of-Expert

Abstract

Il modello Mixture-of-Experts (MoE) consente un efficiente ridimensionamento di grandi modelli linguistici (LLM) attraverso l'attivazione sparsa di esperti durante l'inferenza. Per implementare efficacemente grandi modelli MoE su dispositivi con memoria limitata, molti sistemi introducono il *caricamento differito degli esperti* (expert offloading), che memorizza un sottoinsieme di esperti nella memoria veloce, lasciando gli altri nella memoria lenta per essere eseguiti sulla CPU o caricati su richiesta. Sebbene alcune ricerche abbiano sfruttato la località delle attivazioni degli esperti, dove token consecutivi attivano esperti simili, il grado di questa **consistenza locale del routing** varia tra i modelli e rimane poco studiato. In questo articolo, proponiamo due metriche per misurare la consistenza locale del routing nei modelli MoE: (1) **Segment Routing Best Performance (SRP)**, che valuta quanto bene un gruppo fisso di esperti può soddisfare le esigenze di un segmento di token, e (2) **Segment Cache Best Hit Rate (SCH)**, che misura il tasso ottimale di cache hit a livello di segmento con un limite di dimensione della cache. Abbiamo analizzato 20 LLM MoE con dimensioni e architetture diverse e abbiamo scoperto che i modelli che applicano MoE su ogni livello e non utilizzano esperti condivisi mostrano la più alta consistenza locale del routing. Inoltre, abbiamo dimostrato che esperti specializzati per dominio contribuiscono maggiormente alla consistenza del routing rispetto a quelli specializzati per vocabolario, e che la maggior parte dei modelli può bilanciare efficacia ed efficienza della cache con dimensioni della cache approssimativamente 2x rispetto agli esperti attivi. Questi risultati aprono la strada a una progettazione e implementazione efficiente in termini di memoria dei modelli MoE senza compromettere la velocità di inferenza. Pubblichiamo il codice per replicare gli esperimenti all'indirizzo https://github.com/ljcleo/moe-lrc.

English

Mixture-of-Experts (MoE) enables efficient scaling of large language models (LLMs) with sparsely activated experts during inference. To effectively deploy large MoE models on memory-constrained devices, many systems introduce *expert offloading* that caches a subset of experts in fast memory, leaving others on slow memory to run on CPU or load on demand. While some research has exploited the locality of expert activations, where consecutive tokens activate similar experts, the degree of this **local routing consistency** varies across models and remains understudied. In this paper, we propose two metrics to measure local routing consistency of MoE models: (1) **Segment Routing Best Performance (SRP)**, which evaluates how well a fixed group of experts can cover the needs of a segment of tokens, and (2) **Segment Cache Best Hit Rate (SCH)**, which measures the optimal segment-level cache hit rate under a given cache size limit. We analyzed 20 MoE LLMs with diverse sizes and architectures and found that models that apply MoE on every layer and do not use shared experts exhibit the highest local routing consistency. We further showed that domain-specialized experts contribute more to routing consistency than vocabulary-specialized ones, and that most models can balance between cache effectiveness and efficiency with cache sizes approximately 2x the active experts. These findings pave the way for memory-efficient MoE design and deployment without compromising inference speed. We publish the code for replicating experiments at https://github.com/ljcleo/moe-lrc .

Non Tutti i Modelli Sono Adatti per il Deferimento agli Esperti: Sulla Coerenza del Routing Locale nei Modelli Mixture-of-Expert

Not All Models Suit Expert Offloading: On Local Routing Consistency of Mixture-of-Expert Models

Abstract

Support