Poda y destilación de Mixture-of-Experts en modelos de lenguaje densos

Resumen

La Mezcla de Expertos (MoE) es actualmente la arquitectura dominante para los modelos de lenguaje de frontera, pero requiere que todos los parámetros de los expertos se carguen en memoria, lo que la hace menos adecuada para despliegues con restricciones de memoria. Los métodos de compresión existentes reducen el número de expertos, pero el resultado sigue siendo un modelo MoE con la misma limitación fundamental. Presentamos el primer marco sistemático para convertir un MoE entrenado en una arquitectura completamente densa estándar: los expertos se puntúan, seleccionan y agrupan, luego se concatenan en una FFN densa y se refinan mediante destilación de conocimiento del profesor MoE. Evaluamos 7 métodos de puntuación, 5 de agrupación y 2 de escalado de magnitud en un rango de conteos de expertos seleccionados en Qwen3-30B-A3B, obteniendo 350 configuraciones. Encontramos que la elección del método de puntuación es la más impactante, superando nuestro novedoso método de puntuación consciente de la diversidad consistentemente a los métodos previos en Qwen3-30B-A3B, DeepSeek-V2-Lite y GPT-OSS-20B. Bajo una comparación controlada con igual número de parámetros, la conversión de MoE a denso supera a la poda de denso a denso en +6.3 pp de precisión promedio descendente después de ~4B tokens de destilación, con una velocidad de entrenamiento en tiempo real 1.6 veces más rápida.

English

Mixture-of-Experts (MoE) is now the dominant architecture for frontier language models, yet it requires all expert parameters to be loaded in memory, making it less preferable for memory-constrained deployment. Existing compression methods reduce the number of experts but the output remains an MoE model with the same fundamental limitation. We present the first systematic framework for converting a trained MoE into a standard fully dense architecture: experts are scored, selected, and grouped, then concatenated into a dense FFN and refined by knowledge distillation from the MoE teacher. We evaluate 7 scoring, 5 grouping, and 2 magnitude scaling methods across a range of selected expert counts on Qwen3-30B-A3B, yielding 350 configurations. We find that the choice of scoring method is the most impactful, with our novel diversity-aware scoring consistently outperforming prior methods on Qwen3-30B-A3B, DeepSeek-V2-Lite, and GPT-OSS-20B. Under a controlled comparison at matched parameter count, MoE-to-dense outperforms dense-to-dense pruning by +6.3 pp in average downstream accuracy after ~4B-token distillation at 1.6x faster training wall-clock speed.