Skywork-MoE : Une exploration approfondie des techniques d'entraînement pour les modèles de langage à mélange d'experts
Skywork-MoE: A Deep Dive into Training Techniques for Mixture-of-Experts Language Models
June 3, 2024
Auteurs: Tianwen Wei, Bo Zhu, Liang Zhao, Cheng Cheng, Biye Li, Weiwei Lü, Peng Cheng, Jianhao Zhang, Xiaoyu Zhang, Liang Zeng, Xiaokun Wang, Yutuan Ma, Rui Hu, Shuicheng Yan, Han Fang, Yahui Zhou
cs.AI
Résumé
Dans ce rapport technique, nous présentons les méthodologies d'entraînement mises en œuvre dans le développement de Skywork-MoE, un modèle de langage de grande taille (LLM) de type mixture-of-experts (MoE) haute performance, comportant 146 milliards de paramètres et 16 experts. Ce modèle est initialisé à partir des points de contrôle denses préexistants de notre modèle Skywork-13B. Nous explorons l'efficacité comparative entre le recyclage (upcycling) et l'entraînement à partir d'initialisations vierges. Nos résultats suggèrent que le choix entre ces deux approches devrait prendre en compte à la fois la performance des points de contrôle denses existants et le budget d'entraînement MoE. Nous mettons en avant deux techniques innovantes : la normalisation des logits de gating, qui améliore la diversification des experts, et les coefficients de perte auxiliaire adaptatifs, permettant un ajustement spécifique à chaque couche des coefficients de perte auxiliaire. Nos résultats expérimentaux valident l'efficacité de ces méthodes. En tirant parti de ces techniques et insights, nous avons entraîné notre modèle Skywork-MoE recyclé sur un sous-ensemble condensé de notre corpus SkyPile. Les résultats d'évaluation démontrent que notre modèle offre une performance solide sur un large éventail de benchmarks.
English
In this technical report, we introduce the training methodologies implemented
in the development of Skywork-MoE, a high-performance mixture-of-experts (MoE)
large language model (LLM) with 146 billion parameters and 16 experts. It is
initialized from the pre-existing dense checkpoints of our Skywork-13B model.
We explore the comparative effectiveness of upcycling versus training from
scratch initializations. Our findings suggest that the choice between these two
approaches should consider both the performance of the existing dense
checkpoints and the MoE training budget. We highlight two innovative
techniques: gating logit normalization, which improves expert diversification,
and adaptive auxiliary loss coefficients, allowing for layer-specific
adjustment of auxiliary loss coefficients. Our experimental results validate
the effectiveness of these methods. Leveraging these techniques and insights,
we trained our upcycled Skywork-MoE on a condensed subset of our SkyPile
corpus. The evaluation results demonstrate that our model delivers strong
performance across a wide range of benchmarks.Summary
AI-Generated Summary