Оптимальная разреженность моделей языка на основе смеси экспертов для задач логического рассуждения
Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks
August 26, 2025
Авторы: Taishi Nakamura, Satoki Ishikawa, Masaki Kawamura, Takumi Okamoto, Daisuke Nohara, Jun Suzuki, Rio Yokota
cs.AI
Аннотация
Эмпирические законы масштабирования сыграли ключевую роль в эволюции больших языковых моделей (LLM), однако их коэффициенты меняются при изменении архитектуры модели или конвейера данных. Модели с использованием смеси экспертов (Mixture-of-Experts, MoE), ставшие стандартом в современных системах, вводят новое измерение разреженности, которое игнорируется в текущих плотных моделях. Мы исследуем, как разреженность MoE влияет на два различных режима способностей: запоминание и логическое рассуждение. Мы обучаем семейства MoE-трансформеров, систематически варьируя общее количество параметров, активные параметры и маршрутизацию top-k при фиксированном бюджете вычислений. Для каждой модели мы фиксируем потери на предварительном обучении, потери на последующих задачах и точность выполнения задач, что позволяет нам отделить разрыв обобщения между обучением и тестированием от разрыва между потерями и точностью. Бенчмарки на запоминание монотонно улучшаются с увеличением общего количества параметров, отражая потери на обучении. В то же время производительность на задачах логического рассуждения насыщается и может даже ухудшаться, несмотря на продолжающийся рост общего количества параметров и снижение потерь на обучении. Изменение только top-k не оказывает значительного эффекта при постоянных активных параметрах, а классические гиперпараметры, такие как скорость обучения и инициализация, модулируют разрыв обобщения в том же направлении, что и разреженность. Ни посттренировочное обучение с подкреплением (GRPO), ни дополнительные вычисления во время тестирования не устраняют дефицит логического рассуждения в излишне разреженных моделях. Наши контрольные точки моделей, код и логи доступны в открытом доступе по адресу https://github.com/rioyokotalab/optimal-sparsity.
English
Empirical scaling laws have driven the evolution of large language models
(LLMs), yet their coefficients shift whenever the model architecture or data
pipeline changes. Mixture-of-Experts (MoE) models, now standard in
state-of-the-art systems, introduce a new sparsity dimension that current
dense-model frontiers overlook. We investigate how MoE sparsity influences two
distinct capability regimes: memorization and reasoning. We train families of
MoE Transformers that systematically vary total parameters, active parameters,
and top-k routing while holding the compute budget fixed. For every model we
record pre-training loss, downstream task loss, and task accuracy, allowing us
to separate the train-test generalization gap from the loss-accuracy gap.
Memorization benchmarks improve monotonically with total parameters, mirroring
training loss. By contrast, reasoning performance saturates and can even
regress despite continued gains in both total parameters and training loss.
Altering top-k alone has little effect when active parameters are constant,
and classic hyperparameters such as learning rate and initialization modulate
the generalization gap in the same direction as sparsity. Neither post-training
reinforcement learning (GRPO) nor extra test-time compute rescues the reasoning
deficit of overly sparse models. Our model checkpoints, code and logs are
open-source at https://github.com/rioyokotalab/optimal-sparsity.