Skywork-MoE: Ein ausführlicher Einblick in Trainingsmethoden für Mixture-of-Experts Sprachmodelle

papers.abstract

In diesem technischen Bericht stellen wir die Schulungsmethoden vor, die bei der Entwicklung von Skywork-MoE, einem leistungsstarken Mixture-of-Experts (MoE) Large Language Model (LLM) mit 146 Milliarden Parametern und 16 Experten, implementiert wurden. Es wird aus den vorhandenen dichten Checkpoints unseres Skywork-13B-Modells initialisiert. Wir untersuchen die vergleichende Wirksamkeit von Upcycling gegenüber dem Training von Grund auf. Unsere Ergebnisse legen nahe, dass die Wahl zwischen diesen beiden Ansätzen sowohl die Leistung der vorhandenen dichten Checkpoints als auch das MoE-Trainingsbudget berücksichtigen sollte. Wir heben zwei innovative Techniken hervor: Gating-Logit-Normalisierung, die die Expertenvielfalt verbessert, und adaptive Hilfsverlustkoeffizienten, die eine anpassbare Einstellung der Hilfsverlustkoeffizienten auf Schichtebene ermöglichen. Unsere experimentellen Ergebnisse bestätigen die Wirksamkeit dieser Methoden. Unter Nutzung dieser Techniken und Erkenntnisse haben wir unser upgecyceltes Skywork-MoE auf einem kondensierten Subset unseres SkyPile-Korpus trainiert. Die Evaluierungsergebnisse zeigen, dass unser Modell eine starke Leistung über eine Vielzahl von Benchmarks hinweg bietet.

English

In this technical report, we introduce the training methodologies implemented in the development of Skywork-MoE, a high-performance mixture-of-experts (MoE) large language model (LLM) with 146 billion parameters and 16 experts. It is initialized from the pre-existing dense checkpoints of our Skywork-13B model. We explore the comparative effectiveness of upcycling versus training from scratch initializations. Our findings suggest that the choice between these two approaches should consider both the performance of the existing dense checkpoints and the MoE training budget. We highlight two innovative techniques: gating logit normalization, which improves expert diversification, and adaptive auxiliary loss coefficients, allowing for layer-specific adjustment of auxiliary loss coefficients. Our experimental results validate the effectiveness of these methods. Leveraging these techniques and insights, we trained our upcycled Skywork-MoE on a condensed subset of our SkyPile corpus. The evaluation results demonstrate that our model delivers strong performance across a wide range of benchmarks.

Skywork-MoE: Ein ausführlicher Einblick in Trainingsmethoden für Mixture-of-Experts Sprachmodelle

Skywork-MoE: A Deep Dive into Training Techniques for Mixture-of-Experts Language Models

papers.abstract

Support