UniPool: Een wereldwijd gedeelde expertpool voor Mixture-of-Experts
UniPool: A Globally Shared Expert Pool for Mixture-of-Experts
May 7, 2026
Auteurs: Minbin Huang, Han Shi, Chuanyang Zheng, Yimeng Wu, Guoxuan Chen, Xintong Yu, Yichun Yin, Hong Cheng
cs.AI
Samenvatting
Moderne Mixture-of-Experts (MoE)-architecturen wijzen expertencapaciteit toe via een rigide per-laag regel: elke transformerlaag bezit een afzonderlijke set experts. Deze conventie koppelt het schalen van de diepte aan een lineaire groei van expertparameters en veronderstelt dat elke laag geïsoleerde expertencapaciteit nodig heeft. Recente analyses en onze routeringsproef stellen deze toewijzingsregel echter ter discussie: het vervangen van de aangeleerde top-k-router van een diepere laag door uniforme willekeurige routering vermindert de downstreamnauwkeurigheid met slechts 1,0-1,6 punten over meerdere productie-MoE-modellen. Gemotiveerd door deze redundantie stellen wij UniPool voor, een MoE-architectuur die expertencapaciteit behandelt als een globaal architecturaal budget door het per-laag expertbezit te vervangen door een enkele gedeelde pool, toegankelijk gemaakt door onafhankelijke per-laag routers. Om stabiele en gebalanceerde training onder gedeeld gebruik mogelijk te maken, introduceren we een hulploss op poolniveau die het expertengebruik over de gehele pool balanceert, en nemen we NormRouter over om spaarzame en schaalstabiele routering naar de gedeelde expertenpool te bieden. Over vijf LLaMA-architectuur modelschalen (182M, 469M, 650M, 830M en 978M parameters) getraind op 30B tokens van de Pile, verbetert UniPool consistent de validatieloss en perplexiteit ten opzichte van de overeenkomstige standaard MoE-baselines. Over deze schalen vermindert UniPool de validatieloss met tot 0,0386 relatief aan standaard MoE. Naast ruwe lossverbetering identificeren onze resultaten de poolgrootte als een expliciete hyperparameter voor diepteschaling: UniPool-varianten met een verkleinde pool, die slechts 41,6%-66,7% van het standaard expertparameterbudget gebruiken, evenaren of overtreffen de laagsgewijze MoE op de geteste schalen. Dit toont aan dat, onder een gedeelde-pool ontwerp, expertparameters niet lineair hoeven te groeien met de diepte; ze kunnen sublineair groeien terwijl ze efficiënter en effectiever blijven dan standaard MoE. Verdere analyse toont aan dat de voordelen van UniPool zich laten combineren met fijnmazigere expertdecompositie.
English
Modern Mixture-of-Experts (MoE) architectures allocate expert capacity through a rigid per-layer rule: each transformer layer owns a separate expert set. This convention couples depth scaling with linear expert-parameter growth and assumes that every layer needs isolated expert capacity. However, recent analyses and our routing probe challenge this allocation rule: replacing a deeper layer's learned top-k router with uniform random routing drops downstream accuracy by only 1.0-1.6 points across multiple production MoE models. Motivated by this redundancy, we propose UniPool, an MoE architecture that treats expert capacity as a global architectural budget by replacing per-layer expert ownership with a single shared pool accessed by independent per-layer routers. To enable stable and balanced training under sharing, we introduce a pool-level auxiliary loss that balances expert utilization across the entire pool, and adopt NormRouter to provide sparse and scale-stable routing into the shared expert pool. Across five LLaMA-architecture model scales (182M, 469M, 650M, 830M, and 978M parameters) trained on 30B tokens from the Pile, UniPool consistently improves validation loss and perplexity over the matched vanilla MoE baselines. Across these scales, UniPool reduces validation loss by up to 0.0386 relative to vanilla MoE. Beyond raw loss improvement, our results identify pool size as an explicit depth-scaling hyperparameter: reduced-pool UniPool variants using only 41.6%-66.7% of the vanilla expert-parameter budget match or outperform layer-wise MoE at the tested scales. This shows that, under a shared-pool design, expert parameters need not grow linearly with depth; they can grow sublinearly while remaining more efficient and effective than vanilla MoE. Further analysis shows that UniPool's benefits compose with finer-grained expert decomposition.