UniPool: Un Grupo de Expertos Globalmente Compartido para Mezcla de Expertos

Resumen

Las arquitecturas modernas de Mezcla de Expertos (MoE) asignan capacidad de expertos mediante una regla rígida por capa: cada capa del transformador posee un conjunto de expertos separado. Esta convención acopla el escalado en profundidad con un crecimiento lineal de parámetros de expertos y asume que cada capa necesita capacidad de expertos aislada. Sin embargo, análisis recientes y nuestra sonda de enrutamiento desafían esta regla de asignación: reemplazar el enrutador top-k aprendido de una capa más profunda con un enrutamiento aleatorio uniforme reduce la precisión posterior en solo 1.0-1.6 puntos en múltiples modelos MoE de producción. Motivados por esta redundancia, proponemos UniPool, una arquitectura MoE que trata la capacidad de expertos como un presupuesto arquitectónico global, reemplazando la propiedad de expertos por capa con un único grupo compartido al que acceden enrutadores independientes por capa. Para permitir un entrenamiento estable y equilibrado bajo el esquema de compartición, introducimos una pérdida auxiliar a nivel de grupo que equilibra la utilización de expertos en todo el grupo y adoptamos NormRouter para proporcionar un enrutamiento escaso y estable en escala hacia el grupo compartido de expertos. En cinco escalas de modelo con arquitectura LLaMA (182M, 469M, 650M, 830M y 978M de parámetros) entrenadas con 30B de tokens de The Pile, UniPool mejora consistentemente la pérdida de validación y la perplejidad respecto a los baselines de MoE estándar equivalentes. En estas escalas, UniPool reduce la pérdida de validación hasta en 0.0386 en relación con el MoE estándar. Más allá de la mejora cruda en la pérdida, nuestros resultados identifican el tamaño del grupo como un hiperparámetro explícito de escalado en profundidad: las variantes de UniPool con grupo reducido, que utilizan solo entre el 41.6% y el 66.7% del presupuesto de parámetros de expertos del MoE estándar, igualan o superan al MoE por capas en las escalas probadas. Esto demuestra que, bajo un diseño de grupo compartido, los parámetros de expertos no necesitan crecer linealmente con la profundidad; pueden crecer de forma sublineal manteniéndose más eficientes y efectivos que el MoE estándar. Un análisis adicional muestra que los beneficios de UniPool se combinan con una descomposición de expertos más granular.

English

Modern Mixture-of-Experts (MoE) architectures allocate expert capacity through a rigid per-layer rule: each transformer layer owns a separate expert set. This convention couples depth scaling with linear expert-parameter growth and assumes that every layer needs isolated expert capacity. However, recent analyses and our routing probe challenge this allocation rule: replacing a deeper layer's learned top-k router with uniform random routing drops downstream accuracy by only 1.0-1.6 points across multiple production MoE models. Motivated by this redundancy, we propose UniPool, an MoE architecture that treats expert capacity as a global architectural budget by replacing per-layer expert ownership with a single shared pool accessed by independent per-layer routers. To enable stable and balanced training under sharing, we introduce a pool-level auxiliary loss that balances expert utilization across the entire pool, and adopt NormRouter to provide sparse and scale-stable routing into the shared expert pool. Across five LLaMA-architecture model scales (182M, 469M, 650M, 830M, and 978M parameters) trained on 30B tokens from the Pile, UniPool consistently improves validation loss and perplexity over the matched vanilla MoE baselines. Across these scales, UniPool reduces validation loss by up to 0.0386 relative to vanilla MoE. Beyond raw loss improvement, our results identify pool size as an explicit depth-scaling hyperparameter: reduced-pool UniPool variants using only 41.6%-66.7% of the vanilla expert-parameter budget match or outperform layer-wise MoE at the tested scales. This shows that, under a shared-pool design, expert parameters need not grow linearly with depth; they can grow sublinearly while remaining more efficient and effective than vanilla MoE. Further analysis shows that UniPool's benefits compose with finer-grained expert decomposition.

UniPool: Un Grupo de Expertos Globalmente Compartido para Mezcla de Expertos

UniPool: A Globally Shared Expert Pool for Mixture-of-Experts

Resumen

Support