EMO: Preentrenamiento de Mezcla de Expertos para Modularidad Emergente

Resumen

Los modelos de lenguaje grandes generalmente se despliegan como sistemas monolíticos, requiriendo el modelo completo incluso cuando las aplicaciones necesitan solo un subconjunto limitado de capacidades (por ejemplo, código, matemáticas o conocimiento específico de un dominio). Las Mezclas de Expertos (MoE) parecen ofrecer una alternativa potencial al activar solo un subconjunto de expertos por entrada, pero en la práctica, restringir la inferencia a un subconjunto de expertos para un dominio dado conduce a una severa degradación del rendimiento. Esto limita su practicidad en entornos con restricciones de memoria, especialmente a medida que los modelos se vuelven más grandes y dispersos. Presentamos EMO, un MoE diseñado para la modularidad (el uso y composición independiente de subconjuntos de expertos) sin requerir conocimientos previos definidos por humanos. Nuestra idea clave es incentivar a que los *tokens* de dominios similares dependan de expertos similares. Dado que los *tokens* dentro de un documento suelen compartir un dominio, EMO los restringe a seleccionar expertos de un grupo compartido, permitiendo que diferentes documentos usen grupos diferentes. Esta simple restricción permite que surjan agrupaciones coherentes de expertos durante el preentrenamiento utilizando únicamente los límites de los documentos. Preentrenamos un EMO de 1B activo y 14B total con 1 billón de *tokens*. Como modelo completo, iguala el rendimiento de los MoE estándar. Crucialmente, permite el uso selectivo de expertos: retener solo el 25% (12.5%) de los expertos incurre en una caída de solo el 1% (3%) absoluto, mientras que los MoE estándar fallan en el mismo escenario. Además, encontramos que los subconjuntos de expertos en EMO se especializan en niveles semánticos (por ejemplo, dominios como matemáticas o código), en contraste con la especialización sintáctica de bajo nivel observada en los MoE estándar. En conjunto, nuestros resultados demuestran un camino hacia el despliegue modular y eficiente en memoria de modelos grandes y dispersos, y abren nuevas oportunidades para arquitecturas componibles.

English

Large language models are typically deployed as monolithic systems, requiring the full model even when applications need only a narrow subset of capabilities, e.g., code, math, or domain-specific knowledge. Mixture-of-Experts (MoEs) seemingly offer a potential alternative by activating only a subset of experts per input, but in practice, restricting inference to a subset of experts for a given domain leads to severe performance degradation. This limits their practicality in memory-constrained settings, especially as models grow larger and sparser. We introduce EMO, an MoE designed for modularity-the independent use and composition of expert subsets-without requiring human-defined priors. Our key idea is to encourage tokens from similar domains to rely on similar experts. Since tokens within a document often share a domain, EMO restricts them to select experts from a shared pool, while allowing different documents to use different pools. This simple constraint enables coherent expert groupings to emerge during pretraining using document boundaries alone. We pretrain a 1B-active, 14B-total EMO on 1T tokens. As a full model, it matches standard MoE performance. Crucially, it enables selective expert use: retaining only 25% (12.5%) of experts incurs just a 1% (3%) absolute drop, whereas standard MoEs break under the same setting. We further find that expert subsets in EMO specialize at semantic levels (e.g., domains such as math or code), in contrast to the low-level syntactic specialization observed in standard MoEs. Altogether, our results demonstrate a path toward modular, memory-efficient deployment of large, sparse models and open new opportunities for composable architectures.

EMO: Preentrenamiento de Mezcla de Expertos para Modularidad Emergente

EMO: Pretraining Mixture of Experts for Emergent Modularity

Resumen

Support