Optimalité de la parcimonie dans les modèles de langage à mélange d'experts pour les tâches de raisonnement

papers.abstract

Les lois d'échelle empiriques ont guidé l'évolution des grands modèles de langage (LLMs), mais leurs coefficients varient à chaque modification de l'architecture du modèle ou du pipeline de données. Les modèles Mixture-of-Experts (MoE), désormais standard dans les systèmes de pointe, introduisent une nouvelle dimension de parcimonie que les frontières actuelles des modèles denses négligent. Nous étudions comment la parcimonie des MoE influence deux régimes de capacités distincts : la mémorisation et le raisonnement. Nous entraînons des familles de Transformers MoE en faisant varier systématiquement le nombre total de paramètres, les paramètres actifs et le routage top-k, tout en maintenant le budget de calcul fixe. Pour chaque modèle, nous enregistrons la perte en pré-entraînement, la perte sur les tâches en aval et la précision des tâches, ce qui nous permet de séparer l'écart de généralisation train-test de l'écart perte-précision. Les benchmarks de mémorisation s'améliorent de manière monotone avec le nombre total de paramètres, reflétant la perte d'entraînement. En revanche, la performance en raisonnement atteint un plateau et peut même régresser malgré des gains continus en termes de paramètres totaux et de perte d'entraînement. Modifier uniquement le top-k a peu d'effet lorsque les paramètres actifs sont constants, et les hyperparamètres classiques tels que le taux d'apprentissage et l'initialisation modulent l'écart de généralisation dans la même direction que la parcimonie. Ni l'apprentissage par renforcement post-entraînement (GRPO) ni un calcul supplémentaire au moment du test ne permettent de compenser le déficit de raisonnement des modèles trop parcimonieux. Nos points de contrôle de modèle, code et journaux sont open-source à l'adresse https://github.com/rioyokotalab/optimal-sparsity.

English

Empirical scaling laws have driven the evolution of large language models (LLMs), yet their coefficients shift whenever the model architecture or data pipeline changes. Mixture-of-Experts (MoE) models, now standard in state-of-the-art systems, introduce a new sparsity dimension that current dense-model frontiers overlook. We investigate how MoE sparsity influences two distinct capability regimes: memorization and reasoning. We train families of MoE Transformers that systematically vary total parameters, active parameters, and top-k routing while holding the compute budget fixed. For every model we record pre-training loss, downstream task loss, and task accuracy, allowing us to separate the train-test generalization gap from the loss-accuracy gap. Memorization benchmarks improve monotonically with total parameters, mirroring training loss. By contrast, reasoning performance saturates and can even regress despite continued gains in both total parameters and training loss. Altering top-k alone has little effect when active parameters are constant, and classic hyperparameters such as learning rate and initialization modulate the generalization gap in the same direction as sparsity. Neither post-training reinforcement learning (GRPO) nor extra test-time compute rescues the reasoning deficit of overly sparse models. Our model checkpoints, code and logs are open-source at https://github.com/rioyokotalab/optimal-sparsity.

Optimalité de la parcimonie dans les modèles de langage à mélange d'experts pour les tâches de raisonnement

Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

papers.abstract

Support