Ottimizzazione della Sparsità nei Modelli Linguistici a Miscela di Esperti per Compiti di Ragionamento

Abstract

Le leggi di scala empiriche hanno guidato l'evoluzione dei grandi modelli linguistici (LLM), tuttavia i loro coefficienti cambiano ogni volta che l'architettura del modello o la pipeline dei dati viene modificata. I modelli Mixture-of-Experts (MoE), ormai standard nei sistemi all'avanguardia, introducono una nuova dimensione di sparsità che le frontiere attuali dei modelli densi trascurano. Investigiamo come la sparsità dei MoE influenzi due regimi di capacità distinti: memorizzazione e ragionamento. Addestriamo famiglie di Transformer MoE che variano sistematicamente il numero totale di parametri, i parametri attivi e il routing top-k, mantenendo fisso il budget computazionale. Per ogni modello registriamo la perdita durante il pre-training, la perdita nei task downstream e l'accuratezza del task, permettendoci di separare il gap di generalizzazione train-test dal gap perdita-accuratezza. I benchmark di memorizzazione migliorano monotonamente con l'aumento dei parametri totali, riflettendo la perdita di addestramento. Al contrario, le prestazioni di ragionamento si saturano e possono persino regredire nonostante i continui guadagni sia nei parametri totali che nella perdita di addestramento. Modificare solo il top-k ha poco effetto quando i parametri attivi sono costanti, e i classici iperparametri come il tasso di apprendimento e l'inizializzazione modulano il gap di generalizzazione nella stessa direzione della sparsità. Né il reinforcement learning post-training (GRPO) né l'aggiunta di risorse computazionali al momento del test riescono a recuperare il deficit di ragionamento dei modelli eccessivamente sparsi. I nostri checkpoint, codice e log sono open-source all'indirizzo https://github.com/rioyokotalab/optimal-sparsity.

English

Empirical scaling laws have driven the evolution of large language models (LLMs), yet their coefficients shift whenever the model architecture or data pipeline changes. Mixture-of-Experts (MoE) models, now standard in state-of-the-art systems, introduce a new sparsity dimension that current dense-model frontiers overlook. We investigate how MoE sparsity influences two distinct capability regimes: memorization and reasoning. We train families of MoE Transformers that systematically vary total parameters, active parameters, and top-k routing while holding the compute budget fixed. For every model we record pre-training loss, downstream task loss, and task accuracy, allowing us to separate the train-test generalization gap from the loss-accuracy gap. Memorization benchmarks improve monotonically with total parameters, mirroring training loss. By contrast, reasoning performance saturates and can even regress despite continued gains in both total parameters and training loss. Altering top-k alone has little effect when active parameters are constant, and classic hyperparameters such as learning rate and initialization modulate the generalization gap in the same direction as sparsity. Neither post-training reinforcement learning (GRPO) nor extra test-time compute rescues the reasoning deficit of overly sparse models. Our model checkpoints, code and logs are open-source at https://github.com/rioyokotalab/optimal-sparsity.

Ottimizzazione della Sparsità nei Modelli Linguistici a Miscela di Esperti per Compiti di Ragionamento

Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

Abstract

Support