Nem Todos os Modelos São Adequados para o Descarte de Especialistas: Sobre a Consistência de Roteamento Local em Modelos de Mistura de Especialistas
Not All Models Suit Expert Offloading: On Local Routing Consistency of Mixture-of-Expert Models
May 21, 2025
Autores: Jingcong Liang, Siyuan Wang, Miren Tian, Yitong Li, Duyu Tang, Zhongyu Wei
cs.AI
Resumo
O Mixture-of-Experts (MoE) permite a escalabilidade eficiente de grandes modelos de linguagem (LLMs) com especialistas esparsamente ativados durante a inferência. Para implantar efetivamente grandes modelos MoE em dispositivos com memória limitada, muitos sistemas introduzem o *offloading de especialistas*, que armazena em cache um subconjunto de especialistas na memória rápida, deixando outros na memória lenta para serem executados na CPU ou carregados sob demanda. Embora algumas pesquisas tenham explorado a localidade das ativações de especialistas, onde tokens consecutivos ativam especialistas semelhantes, o grau dessa **consistência de roteamento local** varia entre os modelos e permanece pouco estudado. Neste artigo, propomos duas métricas para medir a consistência de roteamento local de modelos MoE: (1) **Segment Routing Best Performance (SRP)**, que avalia quão bem um grupo fixo de especialistas pode cobrir as necessidades de um segmento de tokens, e (2) **Segment Cache Best Hit Rate (SCH)**, que mede a taxa de acerto ideal em nível de segmento sob um limite de tamanho de cache. Analisamos 20 LLMs MoE com diversos tamanhos e arquiteturas e descobrimos que modelos que aplicam MoE em todas as camadas e não usam especialistas compartilhados exibem a maior consistência de roteamento local. Além disso, mostramos que especialistas especializados em domínios contribuem mais para a consistência de roteamento do que aqueles especializados em vocabulário, e que a maioria dos modelos pode equilibrar eficácia e eficiência de cache com tamanhos de cache aproximadamente 2x o número de especialistas ativos. Essas descobertas abrem caminho para o design e implantação de MoE com eficiência de memória sem comprometer a velocidade de inferência. Publicamos o código para replicar os experimentos em https://github.com/ljcleo/moe-lrc.
English
Mixture-of-Experts (MoE) enables efficient scaling of large language models
(LLMs) with sparsely activated experts during inference. To effectively deploy
large MoE models on memory-constrained devices, many systems introduce *expert
offloading* that caches a subset of experts in fast memory, leaving others on
slow memory to run on CPU or load on demand. While some research has exploited
the locality of expert activations, where consecutive tokens activate similar
experts, the degree of this **local routing consistency** varies across models
and remains understudied. In this paper, we propose two metrics to measure
local routing consistency of MoE models: (1) **Segment Routing Best Performance
(SRP)**, which evaluates how well a fixed group of experts can cover the needs
of a segment of tokens, and (2) **Segment Cache Best Hit Rate (SCH)**, which
measures the optimal segment-level cache hit rate under a given cache size
limit. We analyzed 20 MoE LLMs with diverse sizes and architectures and found
that models that apply MoE on every layer and do not use shared experts exhibit
the highest local routing consistency. We further showed that
domain-specialized experts contribute more to routing consistency than
vocabulary-specialized ones, and that most models can balance between cache
effectiveness and efficiency with cache sizes approximately 2x the active
experts. These findings pave the way for memory-efficient MoE design and
deployment without compromising inference speed. We publish the code for
replicating experiments at https://github.com/ljcleo/moe-lrc .