EMO: Vortraining von Mixture of Experts für emergente Modularität

Zusammenfassung

Große Sprachmodelle werden typischerweise als monolithische Systeme eingesetzt, die das vollständige Modell erfordern, selbst wenn Anwendungen nur einen begrenzten Teil der Fähigkeiten benötigen, z. B. Code, Mathematik oder domänenspezifisches Wissen. Mixture-of-Experts-Modelle (MoEs) scheinen eine mögliche Alternative zu bieten, indem sie nur eine Teilmenge von Experten pro Eingabe aktivieren. In der Praxis führt die Beschränkung der Inferenz auf eine Teilmenge von Experten für eine bestimmte Domäne jedoch zu erheblichen Leistungseinbußen. Dies schränkt ihre Praxistauglichkeit in speicherbeschränkten Umgebungen ein, insbesondere da Modelle größer und spärlicher werden. Wir stellen EMO vor, ein MoE, das für Modularität – die unabhängige Nutzung und Zusammensetzung von Expertenteilmengen – konzipiert ist, ohne dass menschlich definierte Priors erforderlich sind. Unser zentraler Ansatz ist es, Token aus ähnlichen Domänen dazu zu bringen, sich auf ähnliche Experten zu stützen. Da Token innerhalb eines Dokuments oft eine Domäne teilen, schränkt EMO sie darauf ein, Experten aus einem gemeinsamen Pool auszuwählen, während unterschiedliche Dokumente unterschiedliche Pools nutzen können. Diese einfache Beschränkung ermöglicht es, dass während des Pretrainings kohärente Expertengruppierungen allein auf Basis von Dokumentgrenzen entstehen. Wir pretrainieren ein EMO mit 1B aktiven und 14B gesamten Parametern auf 1T Token. Als vollständiges Modell erreicht es die Leistung standardmäßiger MoEs. Entscheidend ist, dass es die selektive Expertennutzung ermöglicht: Das Beibehalten von nur 25 % (12,5 %) der Experten führt lediglich zu einem absoluten Leistungsabfall von 1 % (3 %), während Standard-MoEs unter denselben Bedingungen versagen. Weiterhin stellen wir fest, dass sich Expertenteilmengen in EMO auf semantischer Ebene (z. B. Domänen wie Mathematik oder Code) spezialisieren, im Gegensatz zur syntaktischen Spezialisierung auf niedriger Ebene, die in Standard-MoEs beobachtet wird. Insgesamt zeigen unsere Ergebnisse einen Weg zur modularen, speichereffizienten Bereitstellung großer, spärlicher Modelle auf und eröffnen neue Möglichkeiten für zusammensetzbare Architekturen.

English

Large language models are typically deployed as monolithic systems, requiring the full model even when applications need only a narrow subset of capabilities, e.g., code, math, or domain-specific knowledge. Mixture-of-Experts (MoEs) seemingly offer a potential alternative by activating only a subset of experts per input, but in practice, restricting inference to a subset of experts for a given domain leads to severe performance degradation. This limits their practicality in memory-constrained settings, especially as models grow larger and sparser. We introduce EMO, an MoE designed for modularity-the independent use and composition of expert subsets-without requiring human-defined priors. Our key idea is to encourage tokens from similar domains to rely on similar experts. Since tokens within a document often share a domain, EMO restricts them to select experts from a shared pool, while allowing different documents to use different pools. This simple constraint enables coherent expert groupings to emerge during pretraining using document boundaries alone. We pretrain a 1B-active, 14B-total EMO on 1T tokens. As a full model, it matches standard MoE performance. Crucially, it enables selective expert use: retaining only 25% (12.5%) of experts incurs just a 1% (3%) absolute drop, whereas standard MoEs break under the same setting. We further find that expert subsets in EMO specialize at semantic levels (e.g., domains such as math or code), in contrast to the low-level syntactic specialization observed in standard MoEs. Altogether, our results demonstrate a path toward modular, memory-efficient deployment of large, sparse models and open new opportunities for composable architectures.

EMO: Vortraining von Mixture of Experts für emergente Modularität

EMO: Pretraining Mixture of Experts for Emergent Modularity

Zusammenfassung

Support