UniPool: Ein global geteilter Expertenpool für Mixture-of-Experts

Zusammenfassung

Moderne Mixture-of-Experts (MoE)-Architekturen weisen Expertenkapazität nach einer starren, pro-Schicht geltenden Regel zu: Jede Transformer-Schicht besitzt einen separaten Satz von Experten. Diese Konvention koppelt die Skalierung der Tiefe mit einem linearen Wachstum der Expertenparameter und geht davon aus, dass jede Schicht eine isolierte Expertenkapazität benötigt. Jüngste Analysen und unsere Routing-Untersuchungen stellen diese Zuteilungsregel jedoch infrage: Ersetzt man den gelernten Top-K-Router einer tieferen Schicht durch einheitliches zufälliges Routing, sinkt die nachgelagerte Genauigkeit über mehrere produktive MoE-Modelle hinweg nur um 1,0–1,6 Punkte. Motiviert durch diese Redundanz schlagen wir UniPool vor, eine MoE-Architektur, die Expertenkapazität als globales Architekturbudget behandelt, indem sie den pro-Schicht Expertenbesitz durch einen einzelnen, gemeinsamen Pool ersetzt, auf den unabhängige pro-Schicht Router zugreifen. Um stabiles und ausgeglichenes Training unter Shared-Resource-Bedingungen zu ermöglichen, führen wir einen Pool-weiten auxiliary loss ein, der die Expertennutzung über den gesamten Pool hinweg ausgleicht, und setzen NormRouter ein, um sparsames und skalierstabiles Routing in den gemeinsamen Expertenpool zu gewährleisten. Über fünf Modellskalen der LLaMA-Architektur (182M, 469M, 650M, 830M und 978M Parameter), trainiert mit 30B Tokens aus "The Pile", verbessert UniPool durchgängig den Validierungsverlust und die Perplexität gegenüber den angepassten, einfachen MoE-Baselines. Über diese Skalen hinweg reduziert UniPool den Validierungsverlust um bis zu 0,0386 im Vergleich zu einfachem MoE. Über die reine Verlustverbesserung hinaus identifizieren unsere Ergebnisse die Pool-Größe als einen expliziten Hyperparameter für die Tiefenskalerung: Reduzierte-Pool UniPool-Varianten, die nur 41,6 %–66,7 % des Expertenparameter-Budgets des einfachen MoE verwenden, erreichen oder übertreffen die leistung auf Schichtebene bei den getesteten Skalen. Dies zeigt, dass Expertenparameter unter einem Shared-Pool-Design nicht linear mit der Tiefe wachsen müssen; sie können sublinear wachsen und dabei effizienter und effektiver bleiben als einfaches MoE. Weitere Analysen zeigen, dass sich die Vorteile von UniPool mit einer feiner granularen Expertenzerlegung kombinieren lassen.

English

Modern Mixture-of-Experts (MoE) architectures allocate expert capacity through a rigid per-layer rule: each transformer layer owns a separate expert set. This convention couples depth scaling with linear expert-parameter growth and assumes that every layer needs isolated expert capacity. However, recent analyses and our routing probe challenge this allocation rule: replacing a deeper layer's learned top-k router with uniform random routing drops downstream accuracy by only 1.0-1.6 points across multiple production MoE models. Motivated by this redundancy, we propose UniPool, an MoE architecture that treats expert capacity as a global architectural budget by replacing per-layer expert ownership with a single shared pool accessed by independent per-layer routers. To enable stable and balanced training under sharing, we introduce a pool-level auxiliary loss that balances expert utilization across the entire pool, and adopt NormRouter to provide sparse and scale-stable routing into the shared expert pool. Across five LLaMA-architecture model scales (182M, 469M, 650M, 830M, and 978M parameters) trained on 30B tokens from the Pile, UniPool consistently improves validation loss and perplexity over the matched vanilla MoE baselines. Across these scales, UniPool reduces validation loss by up to 0.0386 relative to vanilla MoE. Beyond raw loss improvement, our results identify pool size as an explicit depth-scaling hyperparameter: reduced-pool UniPool variants using only 41.6%-66.7% of the vanilla expert-parameter budget match or outperform layer-wise MoE at the tested scales. This shows that, under a shared-pool design, expert parameters need not grow linearly with depth; they can grow sublinearly while remaining more efficient and effective than vanilla MoE. Further analysis shows that UniPool's benefits compose with finer-grained expert decomposition.

UniPool: Ein global geteilter Expertenpool für Mixture-of-Experts

UniPool: A Globally Shared Expert Pool for Mixture-of-Experts

Zusammenfassung

Support