ChatPaper.aiChatPaper

Skywork-MoE: エキスパート混合型言語モデルのトレーニング技術の詳細分析

Skywork-MoE: A Deep Dive into Training Techniques for Mixture-of-Experts Language Models

June 3, 2024
著者: Tianwen Wei, Bo Zhu, Liang Zhao, Cheng Cheng, Biye Li, Weiwei Lü, Peng Cheng, Jianhao Zhang, Xiaoyu Zhang, Liang Zeng, Xiaokun Wang, Yutuan Ma, Rui Hu, Shuicheng Yan, Han Fang, Yahui Zhou
cs.AI

要旨

本技術レポートでは、1460億パラメータと16のエキスパートを有する高性能なMixture-of-Experts(MoE)大規模言語モデル(LLM)であるSkywork-MoEの開発において実装されたトレーニング手法を紹介します。本モデルは、既存のSkywork-13Bモデルの密なチェックポイントから初期化されています。我々は、スクラッチからの初期化と比較した場合のアップサイクリングの有効性を検証し、これらのアプローチの選択は、既存の密なチェックポイントの性能とMoEトレーニングの予算の両方を考慮すべきであることを示唆する結果を得ました。また、エキスパートの多様化を改善するゲーティングロジット正規化と、レイヤーごとに補助損失係数を調整可能にする適応型補助損失係数という2つの革新的な技術を紹介します。実験結果は、これらの手法の有効性を裏付けています。これらの技術と知見を活用し、SkyPileコーパスの凝縮されたサブセットを用いてアップサイクルされたSkywork-MoEをトレーニングしました。評価結果は、本モデルが幅広いベンチマークにおいて優れた性能を発揮することを示しています。
English
In this technical report, we introduce the training methodologies implemented in the development of Skywork-MoE, a high-performance mixture-of-experts (MoE) large language model (LLM) with 146 billion parameters and 16 experts. It is initialized from the pre-existing dense checkpoints of our Skywork-13B model. We explore the comparative effectiveness of upcycling versus training from scratch initializations. Our findings suggest that the choice between these two approaches should consider both the performance of the existing dense checkpoints and the MoE training budget. We highlight two innovative techniques: gating logit normalization, which improves expert diversification, and adaptive auxiliary loss coefficients, allowing for layer-specific adjustment of auxiliary loss coefficients. Our experimental results validate the effectiveness of these methods. Leveraging these techniques and insights, we trained our upcycled Skywork-MoE on a condensed subset of our SkyPile corpus. The evaluation results demonstrate that our model delivers strong performance across a wide range of benchmarks.

Summary

AI-Generated Summary

PDF2010December 8, 2024