UniPool : Un pool d'experts globalement partagé pour les modèles de mélange d'experts

Résumé

Les architectures modernes de type Mixture-of-Experts (MoE) allouent la capacité des experts via une règle rigide par couche : chaque couche de transformateur possède son propre ensemble d'experts. Cette convention associe la mise à l'échelle en profondeur à une croissance linéaire des paramètres d'experts et suppose que chaque couche nécessite une capacité experte isolée. Cependant, des analyses récentes et notre sonde de routage remettent en cause cette règle d'allocation : remplacer le routeur top-k appris d'une couche plus profonde par un routage aléatoire uniforme ne réduit la précision en aval que de 1,0 à 1,6 point sur plusieurs modèles MoE de production. Motivés par cette redondance, nous proposons UniPool, une architecture MoE qui traite la capacité experte comme un budget architectural global en remplaçant la possession d'experts par couche par un pool partagé unique auquel accèdent des routeurs indépendants par couche. Pour permettre un entraînement stable et équilibré dans un contexte de partage, nous introduisons une fonction de coût auxiliaire au niveau du pool qui équilibre l'utilisation des experts sur l'ensemble du pool, et nous adoptons NormRouter pour assurer un routage sparse et stable en échelle vers le pool d'experts partagé. Sur cinq échelles de modèles d'architecture LLaMA (182M, 469M, 650M, 830M et 978M de paramètres) entraînés sur 30 milliards de tokens du Pile, UniPool améliore constamment la perte de validation et la perplexité par rapport aux modèles de référence MoE classiques appariés. Sur ces échelles, UniPool réduit la perte de validation jusqu'à 0,0386 par rapport au MoE classique. Au-delà de l'amélioration brute de la perte, nos résultats identifient la taille du pool comme un hyperparamètre explicite de mise à l'échelle en profondeur : des variantes d'UniPool à pool réduit utilisant seulement 41,6 % à 66,7 % du budget d'experts-paramètres du MoE classique égalent ou surpassent le MoE par couche aux échelles testées. Cela montre que, dans une conception à pool partagé, les paramètres des experts n'ont pas besoin de croître linéairement avec la profondeur ; ils peuvent croître de manière sous-linéaire tout en restant plus efficaces et performants que le MoE classique. Une analyse plus poussée montre que les avantages d'UniPool se combinent avec une décomposition des experts plus fine.

English

Modern Mixture-of-Experts (MoE) architectures allocate expert capacity through a rigid per-layer rule: each transformer layer owns a separate expert set. This convention couples depth scaling with linear expert-parameter growth and assumes that every layer needs isolated expert capacity. However, recent analyses and our routing probe challenge this allocation rule: replacing a deeper layer's learned top-k router with uniform random routing drops downstream accuracy by only 1.0-1.6 points across multiple production MoE models. Motivated by this redundancy, we propose UniPool, an MoE architecture that treats expert capacity as a global architectural budget by replacing per-layer expert ownership with a single shared pool accessed by independent per-layer routers. To enable stable and balanced training under sharing, we introduce a pool-level auxiliary loss that balances expert utilization across the entire pool, and adopt NormRouter to provide sparse and scale-stable routing into the shared expert pool. Across five LLaMA-architecture model scales (182M, 469M, 650M, 830M, and 978M parameters) trained on 30B tokens from the Pile, UniPool consistently improves validation loss and perplexity over the matched vanilla MoE baselines. Across these scales, UniPool reduces validation loss by up to 0.0386 relative to vanilla MoE. Beyond raw loss improvement, our results identify pool size as an explicit depth-scaling hyperparameter: reduced-pool UniPool variants using only 41.6%-66.7% of the vanilla expert-parameter budget match or outperform layer-wise MoE at the tested scales. This shows that, under a shared-pool design, expert parameters need not grow linearly with depth; they can grow sublinearly while remaining more efficient and effective than vanilla MoE. Further analysis shows that UniPool's benefits compose with finer-grained expert decomposition.

UniPool : Un pool d'experts globalement partagé pour les modèles de mélange d'experts

UniPool: A Globally Shared Expert Pool for Mixture-of-Experts

Résumé

Support