Skywork-MoE: Een Diepgaande Verkenning van Trainingsmethoden voor Mixture-of-Experts Taalmodellen
Skywork-MoE: A Deep Dive into Training Techniques for Mixture-of-Experts Language Models
June 3, 2024
Auteurs: Tianwen Wei, Bo Zhu, Liang Zhao, Cheng Cheng, Biye Li, Weiwei Lü, Peng Cheng, Jianhao Zhang, Xiaoyu Zhang, Liang Zeng, Xiaokun Wang, Yutuan Ma, Rui Hu, Shuicheng Yan, Han Fang, Yahui Zhou
cs.AI
Samenvatting
In dit technische rapport introduceren we de trainingsmethodologieën die zijn toegepast bij de ontwikkeling van Skywork-MoE, een hoogwaardig mixture-of-experts (MoE) groot taalmodel (LLM) met 146 miljard parameters en 16 experts. Het model is geïnitialiseerd vanuit de bestaande dense checkpoints van ons Skywork-13B-model. We onderzoeken de vergelijkende effectiviteit van upcycling versus trainen vanaf een initiële start. Onze bevindingen suggereren dat de keuze tussen deze twee benaderingen zowel de prestaties van de bestaande dense checkpoints als het MoE-trainingsbudget in overweging moet nemen. We belichten twee innovatieve technieken: gating logit-normalisatie, wat de diversificatie van experts verbetert, en adaptieve hulpverliescoëfficiënten, die laagspecifieke aanpassing van hulpverliescoëfficiënten mogelijk maken. Onze experimentele resultaten valideren de effectiviteit van deze methoden. Door gebruik te maken van deze technieken en inzichten hebben we ons geüpcyclede Skywork-MoE getraind op een gecondenseerde subset van ons SkyPile-corpus. De evaluatieresultaten tonen aan dat ons model sterke prestaties levert op een breed scala aan benchmarks.
English
In this technical report, we introduce the training methodologies implemented
in the development of Skywork-MoE, a high-performance mixture-of-experts (MoE)
large language model (LLM) with 146 billion parameters and 16 experts. It is
initialized from the pre-existing dense checkpoints of our Skywork-13B model.
We explore the comparative effectiveness of upcycling versus training from
scratch initializations. Our findings suggest that the choice between these two
approaches should consider both the performance of the existing dense
checkpoints and the MoE training budget. We highlight two innovative
techniques: gating logit normalization, which improves expert diversification,
and adaptive auxiliary loss coefficients, allowing for layer-specific
adjustment of auxiliary loss coefficients. Our experimental results validate
the effectiveness of these methods. Leveraging these techniques and insights,
we trained our upcycled Skywork-MoE on a condensed subset of our SkyPile
corpus. The evaluation results demonstrate that our model delivers strong
performance across a wide range of benchmarks.