Skywork-MoE: Un Análisis Profundo de las Técnicas de Entrenamiento para Modelos de Lenguaje de Mezcla de Expertos
Skywork-MoE: A Deep Dive into Training Techniques for Mixture-of-Experts Language Models
June 3, 2024
Autores: Tianwen Wei, Bo Zhu, Liang Zhao, Cheng Cheng, Biye Li, Weiwei Lü, Peng Cheng, Jianhao Zhang, Xiaoyu Zhang, Liang Zeng, Xiaokun Wang, Yutuan Ma, Rui Hu, Shuicheng Yan, Han Fang, Yahui Zhou
cs.AI
Resumen
En este informe técnico, presentamos las metodologías de entrenamiento implementadas en el desarrollo de Skywork-MoE, un modelo de lenguaje grande (LLM) de mezcla de expertos (MoE) de alto rendimiento con 146 mil millones de parámetros y 16 expertos. Este modelo se inicializa a partir de los puntos de control densos preexistentes de nuestro modelo Skywork-13B. Exploramos la efectividad comparativa de la reutilización frente al entrenamiento desde inicializaciones de cero. Nuestros hallazgos sugieren que la elección entre estos dos enfoques debe considerar tanto el rendimiento de los puntos de control densos existentes como el presupuesto de entrenamiento del MoE. Destacamos dos técnicas innovadoras: la normalización de logits de compuerta, que mejora la diversificación de expertos, y los coeficientes de pérdida auxiliar adaptativos, que permiten el ajuste específico por capa de los coeficientes de pérdida auxiliar. Nuestros resultados experimentales validan la efectividad de estos métodos. Aprovechando estas técnicas y conocimientos, entrenamos nuestro Skywork-MoE reutilizado en un subconjunto condensado de nuestro corpus SkyPile. Los resultados de evaluación demuestran que nuestro modelo ofrece un rendimiento sólido en una amplia gama de benchmarks.
English
In this technical report, we introduce the training methodologies implemented
in the development of Skywork-MoE, a high-performance mixture-of-experts (MoE)
large language model (LLM) with 146 billion parameters and 16 experts. It is
initialized from the pre-existing dense checkpoints of our Skywork-13B model.
We explore the comparative effectiveness of upcycling versus training from
scratch initializations. Our findings suggest that the choice between these two
approaches should consider both the performance of the existing dense
checkpoints and the MoE training budget. We highlight two innovative
techniques: gating logit normalization, which improves expert diversification,
and adaptive auxiliary loss coefficients, allowing for layer-specific
adjustment of auxiliary loss coefficients. Our experimental results validate
the effectiveness of these methods. Leveraging these techniques and insights,
we trained our upcycled Skywork-MoE on a condensed subset of our SkyPile
corpus. The evaluation results demonstrate that our model delivers strong
performance across a wide range of benchmarks.Summary
AI-Generated Summary