ChatPaper.aiChatPaper

Не все модели подходят для передачи экспертам: о локальной согласованности маршрутизации в моделях смеси экспертов

Not All Models Suit Expert Offloading: On Local Routing Consistency of Mixture-of-Expert Models

May 21, 2025
Авторы: Jingcong Liang, Siyuan Wang, Miren Tian, Yitong Li, Duyu Tang, Zhongyu Wei
cs.AI

Аннотация

Модели типа Mixture-of-Experts (MoE) позволяют эффективно масштабировать большие языковые модели (LLM) с использованием редко активируемых экспертов во время вывода. Для успешного развертывания крупных MoE-моделей на устройствах с ограниченной памятью многие системы внедряют *выгрузку экспертов*, при которой подмножество экспертов кэшируется в быстрой памяти, а остальные остаются в медленной памяти для выполнения на CPU или загружаются по требованию. Хотя некоторые исследования используют локальность активаций экспертов, где последовательные токены активируют схожих экспертов, степень этой **локальной согласованности маршрутизации** варьируется между моделями и остается недостаточно изученной. В данной работе мы предлагаем две метрики для измерения локальной согласованности маршрутизации MoE-моделей: (1) **Лучшая производительность маршрутизации сегмента (SRP)**, которая оценивает, насколько хорошо фиксированная группа экспертов может покрыть потребности сегмента токенов, и (2) **Лучший показатель попадания в кэш сегмента (SCH)**, который измеряет оптимальный уровень попадания в кэш на уровне сегмента при заданном ограничении на размер кэша. Мы проанализировали 20 MoE LLM с различными размерами и архитектурами и обнаружили, что модели, применяющие MoE на каждом слое и не использующие общих экспертов, демонстрируют наивысшую локальную согласованность маршрутизации. Мы также показали, что эксперты, специализированные на конкретной предметной области, вносят больший вклад в согласованность маршрутизации, чем эксперты, специализированные на словарном запасе, и что большинство моделей могут балансировать между эффективностью кэширования и производительностью при размерах кэша, примерно в 2 раза превышающих количество активных экспертов. Эти результаты открывают путь к проектированию и развертыванию MoE-моделей с эффективным использованием памяти без ущерба для скорости вывода. Мы публикуем код для воспроизведения экспериментов по адресу https://github.com/ljcleo/moe-lrc.
English
Mixture-of-Experts (MoE) enables efficient scaling of large language models (LLMs) with sparsely activated experts during inference. To effectively deploy large MoE models on memory-constrained devices, many systems introduce *expert offloading* that caches a subset of experts in fast memory, leaving others on slow memory to run on CPU or load on demand. While some research has exploited the locality of expert activations, where consecutive tokens activate similar experts, the degree of this **local routing consistency** varies across models and remains understudied. In this paper, we propose two metrics to measure local routing consistency of MoE models: (1) **Segment Routing Best Performance (SRP)**, which evaluates how well a fixed group of experts can cover the needs of a segment of tokens, and (2) **Segment Cache Best Hit Rate (SCH)**, which measures the optimal segment-level cache hit rate under a given cache size limit. We analyzed 20 MoE LLMs with diverse sizes and architectures and found that models that apply MoE on every layer and do not use shared experts exhibit the highest local routing consistency. We further showed that domain-specialized experts contribute more to routing consistency than vocabulary-specialized ones, and that most models can balance between cache effectiveness and efficiency with cache sizes approximately 2x the active experts. These findings pave the way for memory-efficient MoE design and deployment without compromising inference speed. We publish the code for replicating experiments at https://github.com/ljcleo/moe-lrc .

Summary

AI-Generated Summary

PDF32May 26, 2025