Esparcidad Óptima en Modelos de Lenguaje de Mezcla de Expertos para Tareas de Razonamiento

Resumen

Las leyes de escalado empírico han impulsado la evolución de los modelos de lenguaje grandes (LLMs), sin embargo, sus coeficientes cambian cada vez que se modifica la arquitectura del modelo o la tubería de datos. Los modelos de Mezcla de Expertos (MoE), ahora estándar en los sistemas de vanguardia, introducen una nueva dimensión de dispersión que los modelos densos actuales pasan por alto. Investigamos cómo la dispersión en MoE influye en dos regímenes de capacidad distintos: memorización y razonamiento. Entrenamos familias de Transformers MoE que varían sistemáticamente el número total de parámetros, los parámetros activos y el enrutamiento top-k, manteniendo fijo el presupuesto de cómputo. Para cada modelo, registramos la pérdida durante el pre-entrenamiento, la pérdida en tareas posteriores y la precisión en las tareas, lo que nos permite separar la brecha de generalización entre entrenamiento y prueba de la brecha entre pérdida y precisión. Los puntos de referencia de memorización mejoran monótonamente con el número total de parámetros, reflejando la pérdida de entrenamiento. En contraste, el rendimiento en razonamiento se satura e incluso puede retroceder a pesar de las mejoras continuas tanto en el número total de parámetros como en la pérdida de entrenamiento. Alterar solo el top-k tiene poco efecto cuando los parámetros activos son constantes, y los hiperparámetros clásicos, como la tasa de aprendizaje y la inicialización, modulan la brecha de generalización en la misma dirección que la dispersión. Ni el aprendizaje por refuerzo posterior al entrenamiento (GRPO) ni el cómputo adicional durante la prueba rescatan el déficit de razonamiento de los modelos excesivamente dispersos. Nuestros puntos de control de modelos, código y registros son de código abierto en https://github.com/rioyokotalab/optimal-sparsity.

English

Empirical scaling laws have driven the evolution of large language models (LLMs), yet their coefficients shift whenever the model architecture or data pipeline changes. Mixture-of-Experts (MoE) models, now standard in state-of-the-art systems, introduce a new sparsity dimension that current dense-model frontiers overlook. We investigate how MoE sparsity influences two distinct capability regimes: memorization and reasoning. We train families of MoE Transformers that systematically vary total parameters, active parameters, and top-k routing while holding the compute budget fixed. For every model we record pre-training loss, downstream task loss, and task accuracy, allowing us to separate the train-test generalization gap from the loss-accuracy gap. Memorization benchmarks improve monotonically with total parameters, mirroring training loss. By contrast, reasoning performance saturates and can even regress despite continued gains in both total parameters and training loss. Altering top-k alone has little effect when active parameters are constant, and classic hyperparameters such as learning rate and initialization modulate the generalization gap in the same direction as sparsity. Neither post-training reinforcement learning (GRPO) nor extra test-time compute rescues the reasoning deficit of overly sparse models. Our model checkpoints, code and logs are open-source at https://github.com/rioyokotalab/optimal-sparsity.

Esparcidad Óptima en Modelos de Lenguaje de Mezcla de Expertos para Tareas de Razonamiento

Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

Resumen

Support