Optimale Sparsheid van Mixture-of-Experts Taalmodellen voor Redeneertaken

Samenvatting

Empirische schaalwetten hebben de evolutie van grote taalmodelen (LLMs) gestuurd, maar hun coëfficiënten verschuiven telkens wanneer de modelarchitectuur of de datapijplijn verandert. Mixture-of-Experts (MoE) modellen, die nu standaard zijn in state-of-the-art systemen, introduceren een nieuwe dimensie van sparsiteit die de huidige grenzen van dichte modellen over het hoofd zien. Wij onderzoeken hoe MoE-sparsiteit twee verschillende vermogensregimes beïnvloedt: memorisatie en redeneren. We trainen families van MoE Transformers die systematisch variëren in totale parameters, actieve parameters en top-k routing, terwijl het rekenbudget constant blijft. Voor elk model registreren we het pre-training verlies, het verlies op downstream taken en de taaknauwkeurigheid, waardoor we de generalisatiekloof tussen trainen en testen kunnen scheiden van de kloof tussen verlies en nauwkeurigheid. Memoriseerbenchmarks verbeteren monotoon met het totale aantal parameters, wat het trainingsverlies weerspiegelt. Daarentegen bereikt de redeneerprestatie een verzadigingspunt en kan zelfs teruglopen ondanks voortdurende verbeteringen in zowel het totale aantal parameters als het trainingsverlies. Het aanpassen van alleen top-k heeft weinig effect wanneer de actieve parameters constant zijn, en klassieke hyperparameters zoals leerrate en initialisatie moduleren de generalisatiekloof in dezelfde richting als sparsiteit. Noch post-training reinforcement learning (GRPO) noch extra rekenkracht tijdens het testen redt het redeneertekort van te sparse modellen. Onze modelcheckpoints, code en logs zijn open-source beschikbaar op https://github.com/rioyokotalab/optimal-sparsity.

English

Empirical scaling laws have driven the evolution of large language models (LLMs), yet their coefficients shift whenever the model architecture or data pipeline changes. Mixture-of-Experts (MoE) models, now standard in state-of-the-art systems, introduce a new sparsity dimension that current dense-model frontiers overlook. We investigate how MoE sparsity influences two distinct capability regimes: memorization and reasoning. We train families of MoE Transformers that systematically vary total parameters, active parameters, and top-k routing while holding the compute budget fixed. For every model we record pre-training loss, downstream task loss, and task accuracy, allowing us to separate the train-test generalization gap from the loss-accuracy gap. Memorization benchmarks improve monotonically with total parameters, mirroring training loss. By contrast, reasoning performance saturates and can even regress despite continued gains in both total parameters and training loss. Altering top-k alone has little effect when active parameters are constant, and classic hyperparameters such as learning rate and initialization modulate the generalization gap in the same direction as sparsity. Neither post-training reinforcement learning (GRPO) nor extra test-time compute rescues the reasoning deficit of overly sparse models. Our model checkpoints, code and logs are open-source at https://github.com/rioyokotalab/optimal-sparsity.

Optimale Sparsheid van Mixture-of-Experts Taalmodellen voor Redeneertaken

Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

Samenvatting

Support