ChatPaper.aiChatPaper

No todos los modelos son adecuados para la descarga experta: Sobre la consistencia del enrutamiento local en modelos de mezcla de expertos

Not All Models Suit Expert Offloading: On Local Routing Consistency of Mixture-of-Expert Models

May 21, 2025
Autores: Jingcong Liang, Siyuan Wang, Miren Tian, Yitong Li, Duyu Tang, Zhongyu Wei
cs.AI

Resumen

Mixture-of-Experts (MoE) permite escalar de manera eficiente los modelos de lenguaje grandes (LLMs) mediante la activación dispersa de expertos durante la inferencia. Para implementar de manera efectiva grandes modelos MoE en dispositivos con memoria limitada, muchos sistemas introducen la *descarga de expertos*, que almacena un subconjunto de expertos en memoria rápida, dejando otros en memoria lenta para ejecutarse en la CPU o cargarse bajo demanda. Aunque algunas investigaciones han aprovechado la localidad de las activaciones de expertos, donde tokens consecutivos activan expertos similares, el grado de esta **consistencia de enrutamiento local** varía entre modelos y sigue siendo poco estudiado. En este artículo, proponemos dos métricas para medir la consistencia de enrutamiento local en modelos MoE: (1) **Rendimiento Óptimo de Enrutamiento por Segmento (SRP)**, que evalúa qué tan bien un grupo fijo de expertos puede cubrir las necesidades de un segmento de tokens, y (2) **Tasa Óptima de Aciertos en Caché por Segmento (SCH)**, que mide la tasa óptima de aciertos en caché a nivel de segmento bajo un límite de tamaño de caché dado. Analizamos 20 LLMs MoE con diversos tamaños y arquitecturas y descubrimos que los modelos que aplican MoE en cada capa y no utilizan expertos compartidos exhiben la mayor consistencia de enrutamiento local. Además, demostramos que los expertos especializados en dominios contribuyen más a la consistencia de enrutamiento que los especializados en vocabulario, y que la mayoría de los modelos pueden equilibrar la efectividad y eficiencia de la caché con tamaños de caché aproximadamente 2 veces mayores que los expertos activos. Estos hallazgos allanan el camino para un diseño e implementación eficiente en memoria de MoE sin comprometer la velocidad de inferencia. Publicamos el código para replicar los experimentos en https://github.com/ljcleo/moe-lrc.
English
Mixture-of-Experts (MoE) enables efficient scaling of large language models (LLMs) with sparsely activated experts during inference. To effectively deploy large MoE models on memory-constrained devices, many systems introduce *expert offloading* that caches a subset of experts in fast memory, leaving others on slow memory to run on CPU or load on demand. While some research has exploited the locality of expert activations, where consecutive tokens activate similar experts, the degree of this **local routing consistency** varies across models and remains understudied. In this paper, we propose two metrics to measure local routing consistency of MoE models: (1) **Segment Routing Best Performance (SRP)**, which evaluates how well a fixed group of experts can cover the needs of a segment of tokens, and (2) **Segment Cache Best Hit Rate (SCH)**, which measures the optimal segment-level cache hit rate under a given cache size limit. We analyzed 20 MoE LLMs with diverse sizes and architectures and found that models that apply MoE on every layer and do not use shared experts exhibit the highest local routing consistency. We further showed that domain-specialized experts contribute more to routing consistency than vocabulary-specialized ones, and that most models can balance between cache effectiveness and efficiency with cache sizes approximately 2x the active experts. These findings pave the way for memory-efficient MoE design and deployment without compromising inference speed. We publish the code for replicating experiments at https://github.com/ljcleo/moe-lrc .

Summary

AI-Generated Summary

PDF32May 26, 2025