Optimale Sparsität von Mixture-of-Experts-Sprachmodellen für Reasoning-Aufgaben

papers.abstract

Empirische Skalierungsgesetze haben die Entwicklung großer Sprachmodelle (LLMs) vorangetrieben, doch ihre Koeffizienten verschieben sich, sobald sich die Modellarchitektur oder die Datenpipeline ändert. Mixture-of-Experts (MoE)-Modelle, die inzwischen in modernsten Systemen Standard sind, führen eine neue Sparsity-Dimension ein, die aktuelle Dichte-Modell-Grenzen übersehen. Wir untersuchen, wie MoE-Sparsity zwei unterschiedliche Fähigkeitsbereiche beeinflusst: Memorierung und logisches Denken. Wir trainieren Familien von MoE-Transformern, die systematisch die Gesamtparameter, aktiven Parameter und das Top-k-Routing variieren, während das Rechenbudget konstant gehalten wird. Für jedes Modell erfassen wir den Pre-Training-Verlust, den Verlust bei nachgelagerten Aufgaben und die Aufgaben-Genauigkeit, wodurch wir die Generalisierungslücke zwischen Training und Test von der Lücke zwischen Verlust und Genauigkeit trennen können. Memorierungs-Benchmarks verbessern sich monoton mit der Gesamtanzahl der Parameter, was den Trainingsverlust widerspiegelt. Im Gegensatz dazu stagniert die Leistung beim logischen Denken und kann sogar zurückgehen, trotz weiterer Verbesserungen bei den Gesamtparametern und dem Trainingsverlust. Die alleinige Änderung von Top-k hat wenig Auswirkung, wenn die aktiven Parameter konstant sind, und klassische Hyperparameter wie Lernrate und Initialisierung modulieren die Generalisierungslücke in die gleiche Richtung wie Sparsity. Weder Post-Training Reinforcement Learning (GRPO) noch zusätzliche Rechenleistung zur Testzeit können das Defizit beim logischen Denken von übermäßig sparsamen Modellen beheben. Unsere Modell-Checkpoints, Code und Protokolle sind Open-Source unter https://github.com/rioyokotalab/optimal-sparsity verfügbar.

English

Empirical scaling laws have driven the evolution of large language models (LLMs), yet their coefficients shift whenever the model architecture or data pipeline changes. Mixture-of-Experts (MoE) models, now standard in state-of-the-art systems, introduce a new sparsity dimension that current dense-model frontiers overlook. We investigate how MoE sparsity influences two distinct capability regimes: memorization and reasoning. We train families of MoE Transformers that systematically vary total parameters, active parameters, and top-k routing while holding the compute budget fixed. For every model we record pre-training loss, downstream task loss, and task accuracy, allowing us to separate the train-test generalization gap from the loss-accuracy gap. Memorization benchmarks improve monotonically with total parameters, mirroring training loss. By contrast, reasoning performance saturates and can even regress despite continued gains in both total parameters and training loss. Altering top-k alone has little effect when active parameters are constant, and classic hyperparameters such as learning rate and initialization modulate the generalization gap in the same direction as sparsity. Neither post-training reinforcement learning (GRPO) nor extra test-time compute rescues the reasoning deficit of overly sparse models. Our model checkpoints, code and logs are open-source at https://github.com/rioyokotalab/optimal-sparsity.

Optimale Sparsität von Mixture-of-Experts-Sprachmodellen für Reasoning-Aufgaben

Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

papers.abstract

Support