Временные расширенные модели смеси экспертов

Аннотация

Модели смеси экспертов (MoE), популярные для масштабирования емкости при фиксированной скорости вывода, переключают экспертов практически на каждом токене. Когда модель перерастает доступную память GPU, такая частая смена делает оптимизации вроде оффлоудинга и предварительной загрузки неэффективными. Мы доказываем, что фреймворк опций из обучения с подкреплением идеально подходит для решения этой проблемы, и предлагаем временно расширенные слои смеси экспертов. На основе фреймворка option-critic с учетом затрат на обдумывание мы добавляем в каждый слой контроллер, который обучается решению, когда переключать наборы экспертов и какие загружать. Применив этот подход к gpt-oss-20b с низкоранговыми адаптерами и вознаграждением за самодистилляцию, наш метод снижает частоту переключений с более 50% до менее 5%, сохраняя до 90% точности базовой модели на MATH, MMLU и MMMLU. Это показывает, что даже предварительно обученные модели можно преобразовать во временно расширенные MoE с помощью легковесного обучения, а учет затрат на обдумывание позволяет настраивать баланс между частотой переключений и способностями модели. Мы надеемся, что это открывает принципиальный путь, основанный на фреймворке опций, для эффективного использования памяти и непрерывного обучения в растущих MoE-моделях.

English

Mixture-of-Experts models, now popular for scaling capacity at fixed inference speed, switch experts at nearly every token. Once a model outgrows available GPU memory, this churn can render optimizations like offloading and pre-fetching ineffective. We make the case that the options framework in reinforcement learning is a perfect match to tackle this problem, and argue for temporally extended mixture-of-experts layers. Building on the option-critic framework with deliberation costs, we add a controller to each layer that learns when to switch expert sets and which to load. By applying this to gpt-oss-20b with low-rank adapters and a self-distillation reward, our method reduces switch rates from over 50% to below 5% while retaining up to 90% of base-model accuracy on MATH, MMLU, and MMMLU. This shows that even existing pre-trained models can be converted to temporally extended MoEs with lightweight training, with the deliberation cost allowing model trainers to trade off switching rates against capability. We hope this opens a principled path, grounded in the options framework, for memory-efficient serving and continual learning in ever-growing MoE models.

Временные расширенные модели смеси экспертов

Temporally Extended Mixture-of-Experts Models

Аннотация

Support