Optimalité de la parcimonie dans les modèles de langage à mélange d'experts pour les tâches de raisonnement
Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks
August 26, 2025
papers.authors: Taishi Nakamura, Satoki Ishikawa, Masaki Kawamura, Takumi Okamoto, Daisuke Nohara, Jun Suzuki, Rio Yokota
cs.AI
papers.abstract
Les lois d'échelle empiriques ont guidé l'évolution des grands modèles de langage (LLMs), mais leurs coefficients varient à chaque modification de l'architecture du modèle ou du pipeline de données. Les modèles Mixture-of-Experts (MoE), désormais standard dans les systèmes de pointe, introduisent une nouvelle dimension de parcimonie que les frontières actuelles des modèles denses négligent. Nous étudions comment la parcimonie des MoE influence deux régimes de capacités distincts : la mémorisation et le raisonnement. Nous entraînons des familles de Transformers MoE en faisant varier systématiquement le nombre total de paramètres, les paramètres actifs et le routage top-k, tout en maintenant le budget de calcul fixe. Pour chaque modèle, nous enregistrons la perte en pré-entraînement, la perte sur les tâches en aval et la précision des tâches, ce qui nous permet de séparer l'écart de généralisation train-test de l'écart perte-précision. Les benchmarks de mémorisation s'améliorent de manière monotone avec le nombre total de paramètres, reflétant la perte d'entraînement. En revanche, la performance en raisonnement atteint un plateau et peut même régresser malgré des gains continus en termes de paramètres totaux et de perte d'entraînement. Modifier uniquement le top-k a peu d'effet lorsque les paramètres actifs sont constants, et les hyperparamètres classiques tels que le taux d'apprentissage et l'initialisation modulent l'écart de généralisation dans la même direction que la parcimonie. Ni l'apprentissage par renforcement post-entraînement (GRPO) ni un calcul supplémentaire au moment du test ne permettent de compenser le déficit de raisonnement des modèles trop parcimonieux. Nos points de contrôle de modèle, code et journaux sont open-source à l'adresse https://github.com/rioyokotalab/optimal-sparsity.
English
Empirical scaling laws have driven the evolution of large language models
(LLMs), yet their coefficients shift whenever the model architecture or data
pipeline changes. Mixture-of-Experts (MoE) models, now standard in
state-of-the-art systems, introduce a new sparsity dimension that current
dense-model frontiers overlook. We investigate how MoE sparsity influences two
distinct capability regimes: memorization and reasoning. We train families of
MoE Transformers that systematically vary total parameters, active parameters,
and top-k routing while holding the compute budget fixed. For every model we
record pre-training loss, downstream task loss, and task accuracy, allowing us
to separate the train-test generalization gap from the loss-accuracy gap.
Memorization benchmarks improve monotonically with total parameters, mirroring
training loss. By contrast, reasoning performance saturates and can even
regress despite continued gains in both total parameters and training loss.
Altering top-k alone has little effect when active parameters are constant,
and classic hyperparameters such as learning rate and initialization modulate
the generalization gap in the same direction as sparsity. Neither post-training
reinforcement learning (GRPO) nor extra test-time compute rescues the reasoning
deficit of overly sparse models. Our model checkpoints, code and logs are
open-source at https://github.com/rioyokotalab/optimal-sparsity.