EMO: Предобучение смеси экспертов для достижения возникающей модульности
EMO: Pretraining Mixture of Experts for Emergent Modularity
May 7, 2026
Авторы: Ryan Wang, Akshita Bhagia, Sewon Min
cs.AI
Аннотация
Крупные языковые модели обычно развертываются как монолитные системы, требующие задействования всей модели даже тогда, когда приложениям нужна лишь узкая подмножество возможностей, например, работа с кодом, математикой или предметно-ориентированными знаниями. Смеси экспертов (MoE), казалось бы, предлагают потенциальную альтернативу, активируя лишь подмножество экспертов на каждый вход, но на практике ограничение вывода подмножеством экспертов для заданной области приводит к серьезной деградации производительности. Это ограничивает их практическую применимость в условиях ограниченной памяти, особенно по мере увеличения размеров моделей и роста их разреженности. Мы представляем EMO — MoE, спроектированную для модульности — независимого использования и компоновки подмножеств экспертов — без необходимости в задаваемых человеком априорных предположениях. Наша ключевая идея заключается в том, чтобы побуждать токены из схожих доменов полагаться на схожих экспертов. Поскольку токены внутри документа часто принадлежат одному домену, EMO ограничивает их выбор экспертов общим пулом, позволяя при этом разным документам использовать разные пулы. Это простое ограничение позволяет в процессе предварительного обучения формировать согласованные группы экспертов, используя лишь границы документов. Мы провели предварительное обучение EMO с 1B активных и 14B общих параметров на 1 трлн токенов. В качестве полной модель она соответствует производительности стандартных MoE. Ключевым является то, что она позволяет осуществлять выборочное использование экспертов: сохранение лишь 25% (12.5%) экспертов влечет за собой падение абсолютной производительности всего на 1% (3%), тогда как стандартные MoE перестают работать в тех же условиях. Мы также обнаружили, что подмножества экспертов в EMO специализируются на семантическом уровне (например, в таких областях, как математика или программирование), в отличие от низкоуровневой синтаксической специализации, наблюдаемой в стандартных MoE. В целом наши результаты демонстрируют путь к модульному, эффективному по памяти развертыванию крупных разреженных моделей и открывают новые возможности для компоновочных архитектур.
English
Large language models are typically deployed as monolithic systems, requiring the full model even when applications need only a narrow subset of capabilities, e.g., code, math, or domain-specific knowledge. Mixture-of-Experts (MoEs) seemingly offer a potential alternative by activating only a subset of experts per input, but in practice, restricting inference to a subset of experts for a given domain leads to severe performance degradation. This limits their practicality in memory-constrained settings, especially as models grow larger and sparser. We introduce EMO, an MoE designed for modularity-the independent use and composition of expert subsets-without requiring human-defined priors. Our key idea is to encourage tokens from similar domains to rely on similar experts. Since tokens within a document often share a domain, EMO restricts them to select experts from a shared pool, while allowing different documents to use different pools. This simple constraint enables coherent expert groupings to emerge during pretraining using document boundaries alone. We pretrain a 1B-active, 14B-total EMO on 1T tokens. As a full model, it matches standard MoE performance. Crucially, it enables selective expert use: retaining only 25% (12.5%) of experts incurs just a 1% (3%) absolute drop, whereas standard MoEs break under the same setting. We further find that expert subsets in EMO specialize at semantic levels (e.g., domains such as math or code), in contrast to the low-level syntactic specialization observed in standard MoEs. Altogether, our results demonstrate a path toward modular, memory-efficient deployment of large, sparse models and open new opportunities for composable architectures.