UniPool: Глобально разделяемый пул экспертов для смеси экспертов
UniPool: A Globally Shared Expert Pool for Mixture-of-Experts
May 7, 2026
Авторы: Minbin Huang, Han Shi, Chuanyang Zheng, Yimeng Wu, Guoxuan Chen, Xintong Yu, Yichun Yin, Hong Cheng
cs.AI
Аннотация
Современные архитектуры смеси экспертов (MoE) распределяют емкость экспертов по жесткому правилу для каждого слоя: каждый трансформаторный слой обладает собственным набором экспертов. Эта практика связывает масштабирование по глубине с линейным ростом числа параметров экспертов и предполагает, что каждому слою требуется изолированная емкость экспертов. Однако последние анализы и наши эксперименты с маршрутизацией ставят под сомнение это правило: замена обученного top-k маршрутизатора в более глубоком слое на равномерную случайную маршрутизацию снижает итоговую точность всего на 1.0–1.6 пункта в нескольких промышленных MoE-моделях. </think>Мотивированные этой избыточностью, мы предлагаем UniPool — архитектуру MoE, которая рассматривает емкость экспертов как глобальный архитектурный ресурс, заменяя владение экспертами на уровне слоя единым общим пулом, доступным для независимых маршрутизаторов каждого слоя. Для обеспечения стабильного и сбалансированного обучения в условиях разделения пула мы вводим вспомогательную функцию потерь на уровне пула, которая балансирует использование экспертов во всем пуле, и применяем NormRouter для обеспечения разреженной и масштабно-стабильной маршрутизации в общий пул экспертов. </think>На пяти масштабах моделей архитектуры LLaMA (182M, 469M, 650M, 830M и 978M параметров), обученных на 30B токенах из The Pile, UniPool последовательно улучшает потери на валидации и перплексию по сравнению с соответствующими базовыми MoE-моделями. На этих масштабах UniPool снижает потери на валидации до 0.0386 относительно ванильного MoE. Помимо улучшения самих потерь, наши результаты идентифицируют размер пула как явный гиперпараметр масштабирования по глубине: варианты UniPool с уменьшенным пулом, использующие лишь 41.6%–66.7% бюджета параметров экспертов ванильного MoE, соответствуют или превосходят послойный MoE на протестированных масштабах. Это показывает, что в рамках архитектуры с общим пулом параметры экспертов не обязаны расти линейно с глубиной; они могут расти сублинейно, оставаясь при этом более эффективными и результативными, чем ванильный MoE. Дальнейший анализ показывает, что преимущества UniPool сочетаются с более детализированной декомпозицией экспертов.
English
Modern Mixture-of-Experts (MoE) architectures allocate expert capacity through a rigid per-layer rule: each transformer layer owns a separate expert set. This convention couples depth scaling with linear expert-parameter growth and assumes that every layer needs isolated expert capacity. However, recent analyses and our routing probe challenge this allocation rule: replacing a deeper layer's learned top-k router with uniform random routing drops downstream accuracy by only 1.0-1.6 points across multiple production MoE models. Motivated by this redundancy, we propose UniPool, an MoE architecture that treats expert capacity as a global architectural budget by replacing per-layer expert ownership with a single shared pool accessed by independent per-layer routers. To enable stable and balanced training under sharing, we introduce a pool-level auxiliary loss that balances expert utilization across the entire pool, and adopt NormRouter to provide sparse and scale-stable routing into the shared expert pool. Across five LLaMA-architecture model scales (182M, 469M, 650M, 830M, and 978M parameters) trained on 30B tokens from the Pile, UniPool consistently improves validation loss and perplexity over the matched vanilla MoE baselines. Across these scales, UniPool reduces validation loss by up to 0.0386 relative to vanilla MoE. Beyond raw loss improvement, our results identify pool size as an explicit depth-scaling hyperparameter: reduced-pool UniPool variants using only 41.6%-66.7% of the vanilla expert-parameter budget match or outperform layer-wise MoE at the tested scales. This shows that, under a shared-pool design, expert parameters need not grow linearly with depth; they can grow sublinearly while remaining more efficient and effective than vanilla MoE. Further analysis shows that UniPool's benefits compose with finer-grained expert decomposition.