EMO : Prétrainage d'un Mélange d'Experts pour une Modularité Émergente
EMO: Pretraining Mixture of Experts for Emergent Modularity
May 7, 2026
Auteurs: Ryan Wang, Akshita Bhagia, Sewon Min
cs.AI
Résumé
Les grands modèles de langage sont généralement déployés comme des systèmes monolithiques, nécessitant le modèle complet même lorsque les applications n'utilisent qu'un sous-ensemble restreint de capacités (par exemple, le code, les mathématiques ou les connaissances spécifiques à un domaine). Les mixtures d'experts (MoE) semblent offrir une alternative potentielle en n'activant qu'un sous-ensemble d'experts par entrée, mais en pratique, restreindre l'inférence à un sous-ensemble d'experts pour un domaine donné entraîne une dégradation sévère des performances. Cela limite leur utilité dans des contextes à mémoire contrainte, surtout à mesure que les modèles deviennent plus grands et plus clairsemés. Nous présentons EMO, un MoE conçu pour la modularité - l'utilisation et la composition indépendantes de sous-ensembles d'experts - sans nécessiter d'a priori définis par l'homme. Notre idée clé est d'encourager les tokens de domaines similaires à s'appuyer sur des experts similaires. Comme les tokens d'un document partagent souvent un domaine, EMO les restreint à sélectionner des experts dans un pool partagé, tout en permettant à différents documents d'utiliser des pools différents. Cette simple contrainte permet à des regroupements cohérents d'experts d'émerger durant le pré-entraînement en utilisant uniquement les limites des documents. Nous pré-entraînons un EMO de 1B actif (14B au total) sur 1000 milliards de tokens. En tant que modèle complet, il égale les performances des MoE standards. Surtout, il permet une utilisation sélective des experts : conserver seulement 25% (12,5%) des experts n'entraîne qu'une baisse absolue de 1% (3%), alors que les MoE standards deviennent inutilisables dans le même cadre. Nous constatons en outre que les sous-ensembles d'experts dans EMO se spécialisent à des niveaux sémantiques (par exemple, des domaines comme les mathématiques ou le code), contrairement à la spécialisation syntaxique de bas niveau observée dans les MoE standards. Globalement, nos résultats démontrent une voie vers un déploiement modulaire et économe en mémoire de grands modèles clairsemés, et ouvrent de nouvelles opportunités pour des architectures composables.
English
Large language models are typically deployed as monolithic systems, requiring the full model even when applications need only a narrow subset of capabilities, e.g., code, math, or domain-specific knowledge. Mixture-of-Experts (MoEs) seemingly offer a potential alternative by activating only a subset of experts per input, but in practice, restricting inference to a subset of experts for a given domain leads to severe performance degradation. This limits their practicality in memory-constrained settings, especially as models grow larger and sparser. We introduce EMO, an MoE designed for modularity-the independent use and composition of expert subsets-without requiring human-defined priors. Our key idea is to encourage tokens from similar domains to rely on similar experts. Since tokens within a document often share a domain, EMO restricts them to select experts from a shared pool, while allowing different documents to use different pools. This simple constraint enables coherent expert groupings to emerge during pretraining using document boundaries alone. We pretrain a 1B-active, 14B-total EMO on 1T tokens. As a full model, it matches standard MoE performance. Crucially, it enables selective expert use: retaining only 25% (12.5%) of experts incurs just a 1% (3%) absolute drop, whereas standard MoEs break under the same setting. We further find that expert subsets in EMO specialize at semantic levels (e.g., domains such as math or code), in contrast to the low-level syntactic specialization observed in standard MoEs. Altogether, our results demonstrate a path toward modular, memory-efficient deployment of large, sparse models and open new opportunities for composable architectures.