EMO: Pre-training van Mengsel van Experts voor Emergente Modulariteit
EMO: Pretraining Mixture of Experts for Emergent Modularity
May 7, 2026
Auteurs: Ryan Wang, Akshita Bhagia, Sewon Min
cs.AI
Samenvatting
Grote taalmodelen worden doorgaans ingezet als monolithische systemen, waarbij het volledige model vereist is, zelfs wanneer toepassingen slechts een beperkte subset van capaciteiten nodig hebben, zoals code, wiskunde of domeinspecifieke kennis. Mixture-of-Experts-modellen (MoE's) lijken een mogelijk alternatief te bieden door slechts een subset van experts per invoer te activeren, maar in de praktijk leidt het beperken van de inferentie tot een subset van experts voor een bepaald domein tot ernstige prestatievermindering. Dit beperkt hun praktische bruikbaarheid in geheugenbeperkte omgevingen, vooral naarmate modellen groter en schaarser worden. Wij introduceren EMO, een MoE ontworpen voor modulariteit – het onafhankelijk gebruik en de samenstelling van expertsubsets – zonder dat er door de mens gedefinieerde prior kennis vereist is. Ons belangrijkste idee is om tokens uit vergelijkbare domeinen aan te moedigen om op vergelijkbare experts te vertrouwen. Omdat tokens binnen een document vaak een domein delen, verplicht EMO hen om experts te selecteren uit een gedeelde pool, terwijl verschillende documenten verschillende pools kunnen gebruiken. Deze eenvoudige beperking zorgt ervoor dat er tijdens de voorafgaande training coherente expertgroeperingen ontstaan, uitsluitend op basis van documentgrenzen. Wij trainen een EMO-model vooraf met 1B actieve parameters en 14B totale parameters op 1T tokens. Als volledig model evenaart het de prestaties van standaard MoE's. Cruciaal is dat het selectief expertengebruik mogelijk maakt: het behouden van slechts 25% (12,5%) van de experts resulteert in een absoluut verlies van slechts 1% (3%), terwijl standaard MoE's onder dezelfde omstandigheden falen. Verder stellen wij vast dat expertsubsets in EMO gespecialiseerd zijn op semantisch niveau (bijvoorbeeld domeinen zoals wiskunde of code), in tegenstelling tot de specialisatie op laag syntactisch niveau die bij standaard MoE's wordt waargenomen. Al met al tonen onze resultaten een weg naar modulaire, geheugenefficiënte inzet van grote, schaarse modellen en openen zij nieuwe mogelijkheden voor samenstelbare architecturen.
English
Large language models are typically deployed as monolithic systems, requiring the full model even when applications need only a narrow subset of capabilities, e.g., code, math, or domain-specific knowledge. Mixture-of-Experts (MoEs) seemingly offer a potential alternative by activating only a subset of experts per input, but in practice, restricting inference to a subset of experts for a given domain leads to severe performance degradation. This limits their practicality in memory-constrained settings, especially as models grow larger and sparser. We introduce EMO, an MoE designed for modularity-the independent use and composition of expert subsets-without requiring human-defined priors. Our key idea is to encourage tokens from similar domains to rely on similar experts. Since tokens within a document often share a domain, EMO restricts them to select experts from a shared pool, while allowing different documents to use different pools. This simple constraint enables coherent expert groupings to emerge during pretraining using document boundaries alone. We pretrain a 1B-active, 14B-total EMO on 1T tokens. As a full model, it matches standard MoE performance. Crucially, it enables selective expert use: retaining only 25% (12.5%) of experts incurs just a 1% (3%) absolute drop, whereas standard MoEs break under the same setting. We further find that expert subsets in EMO specialize at semantic levels (e.g., domains such as math or code), in contrast to the low-level syntactic specialization observed in standard MoEs. Altogether, our results demonstrate a path toward modular, memory-efficient deployment of large, sparse models and open new opportunities for composable architectures.