Модели автономии экспертов
Autonomy-of-Experts Models
January 22, 2025
Авторы: Ang Lv, Ruobing Xie, Yining Qian, Songhao Wu, Xingwu Sun, Zhanhui Kang, Di Wang, Rui Yan
cs.AI
Аннотация
Модели Mixture-of-Experts (MoE) в основном используют маршрутизатор для назначения токенов конкретным модулям экспертов, активируя только частичные параметры и часто превосходя плотные модели. Мы утверждаем, что разделение между принятием решений маршрутизатором и выполнением экспертами является критической, но недооцененной проблемой, приводящей к неоптимальному выбору экспертов и неэффективному обучению. Для решения этой проблемы мы предлагаем модель Autonomy-of-Experts (AoE), новую парадигму MoE, в которой эксперты автономно выбирают себя для обработки входных данных. AoE основан на понимании того, что эксперт осознает свою способность эффективно обрабатывать токен, осознание которой отражается в масштабе его внутренних активаций. В AoE маршрутизаторы убраны; вместо этого эксперты предварительно вычисляют внутренние активации для входных данных и ранжируются на основе их норм активации. Только эксперты с высшим рангом продолжают прямой проход, в то время как другие прекращают работу. Накладные расходы на предварительное вычисление активаций снижаются за счет факторизации весов низкого ранга. Этот подход самооценки-затем-сравнения-с-партнером обеспечивает улучшенный выбор экспертов и эффективное обучение. Мы предварительно обучаем языковые модели с 700M до 4B параметров, демонстрируя, что AoE превосходит традиционные модели MoE с сопоставимой эффективностью.
English
Mixture-of-Experts (MoE) models mostly use a router to assign tokens to
specific expert modules, activating only partial parameters and often
outperforming dense models. We argue that the separation between the router's
decision-making and the experts' execution is a critical yet overlooked issue,
leading to suboptimal expert selection and ineffective learning. To address
this, we propose Autonomy-of-Experts (AoE), a novel MoE paradigm in which
experts autonomously select themselves to process inputs. AoE is based on the
insight that an expert is aware of its own capacity to effectively process a
token, an awareness reflected in the scale of its internal activations. In AoE,
routers are removed; instead, experts pre-compute internal activations for
inputs and are ranked based on their activation norms. Only the top-ranking
experts proceed with the forward pass, while the others abort. The overhead of
pre-computing activations is reduced through a low-rank weight factorization.
This self-evaluating-then-partner-comparing approach ensures improved expert
selection and effective learning. We pre-train language models having 700M up
to 4B parameters, demonstrating that AoE outperforms traditional MoE models
with comparable efficiency.Summary
AI-Generated Summary