Skywork-MoE: Ein ausführlicher Einblick in Trainingsmethoden für Mixture-of-Experts Sprachmodelle
Skywork-MoE: A Deep Dive into Training Techniques for Mixture-of-Experts Language Models
June 3, 2024
Autoren: Tianwen Wei, Bo Zhu, Liang Zhao, Cheng Cheng, Biye Li, Weiwei Lü, Peng Cheng, Jianhao Zhang, Xiaoyu Zhang, Liang Zeng, Xiaokun Wang, Yutuan Ma, Rui Hu, Shuicheng Yan, Han Fang, Yahui Zhou
cs.AI
Zusammenfassung
In diesem technischen Bericht stellen wir die Schulungsmethoden vor, die bei der Entwicklung von Skywork-MoE, einem leistungsstarken Mixture-of-Experts (MoE) Large Language Model (LLM) mit 146 Milliarden Parametern und 16 Experten, implementiert wurden. Es wird aus den vorhandenen dichten Checkpoints unseres Skywork-13B-Modells initialisiert. Wir untersuchen die vergleichende Wirksamkeit von Upcycling gegenüber dem Training von Grund auf. Unsere Ergebnisse legen nahe, dass die Wahl zwischen diesen beiden Ansätzen sowohl die Leistung der vorhandenen dichten Checkpoints als auch das MoE-Trainingsbudget berücksichtigen sollte. Wir heben zwei innovative Techniken hervor: Gating-Logit-Normalisierung, die die Expertenvielfalt verbessert, und adaptive Hilfsverlustkoeffizienten, die eine anpassbare Einstellung der Hilfsverlustkoeffizienten auf Schichtebene ermöglichen. Unsere experimentellen Ergebnisse bestätigen die Wirksamkeit dieser Methoden. Unter Nutzung dieser Techniken und Erkenntnisse haben wir unser upgecyceltes Skywork-MoE auf einem kondensierten Subset unseres SkyPile-Korpus trainiert. Die Evaluierungsergebnisse zeigen, dass unser Modell eine starke Leistung über eine Vielzahl von Benchmarks hinweg bietet.
English
In this technical report, we introduce the training methodologies implemented
in the development of Skywork-MoE, a high-performance mixture-of-experts (MoE)
large language model (LLM) with 146 billion parameters and 16 experts. It is
initialized from the pre-existing dense checkpoints of our Skywork-13B model.
We explore the comparative effectiveness of upcycling versus training from
scratch initializations. Our findings suggest that the choice between these two
approaches should consider both the performance of the existing dense
checkpoints and the MoE training budget. We highlight two innovative
techniques: gating logit normalization, which improves expert diversification,
and adaptive auxiliary loss coefficients, allowing for layer-specific
adjustment of auxiliary loss coefficients. Our experimental results validate
the effectiveness of these methods. Leveraging these techniques and insights,
we trained our upcycled Skywork-MoE on a condensed subset of our SkyPile
corpus. The evaluation results demonstrate that our model delivers strong
performance across a wide range of benchmarks.Summary
AI-Generated Summary