ChatPaper.aiChatPaper

Skywork-MoE: Uma Análise Detalhada das Técnicas de Treinamento para Modelos de Linguagem com Mistura de Especialistas

Skywork-MoE: A Deep Dive into Training Techniques for Mixture-of-Experts Language Models

June 3, 2024
Autores: Tianwen Wei, Bo Zhu, Liang Zhao, Cheng Cheng, Biye Li, Weiwei Lü, Peng Cheng, Jianhao Zhang, Xiaoyu Zhang, Liang Zeng, Xiaokun Wang, Yutuan Ma, Rui Hu, Shuicheng Yan, Han Fang, Yahui Zhou
cs.AI

Resumo

Neste relatório técnico, apresentamos as metodologias de treinamento implementadas no desenvolvimento do Skywork-MoE, um modelo de linguagem de grande escala (LLM) de mistura de especialistas (MoE) de alto desempenho, com 146 bilhões de parâmetros e 16 especialistas. Ele é inicializado a partir dos checkpoints densos pré-existentes do nosso modelo Skywork-13B. Exploramos a eficácia comparativa entre a reciclagem de modelos existentes e o treinamento a partir de inicializações do zero. Nossas descobertas sugerem que a escolha entre essas duas abordagens deve considerar tanto o desempenho dos checkpoints densos existentes quanto o orçamento de treinamento do MoE. Destacamos duas técnicas inovadoras: a normalização dos logits de gateamento, que melhora a diversificação dos especialistas, e os coeficientes de perda auxiliar adaptativos, que permitem ajustes específicos por camada dos coeficientes de perda auxiliar. Nossos resultados experimentais validam a eficácia desses métodos. Aproveitando essas técnicas e insights, treinamos nosso Skywork-MoE reciclado em um subconjunto condensado do nosso corpus SkyPile. Os resultados de avaliação demonstram que nosso modelo oferece um desempenho robusto em uma ampla gama de benchmarks.
English
In this technical report, we introduce the training methodologies implemented in the development of Skywork-MoE, a high-performance mixture-of-experts (MoE) large language model (LLM) with 146 billion parameters and 16 experts. It is initialized from the pre-existing dense checkpoints of our Skywork-13B model. We explore the comparative effectiveness of upcycling versus training from scratch initializations. Our findings suggest that the choice between these two approaches should consider both the performance of the existing dense checkpoints and the MoE training budget. We highlight two innovative techniques: gating logit normalization, which improves expert diversification, and adaptive auxiliary loss coefficients, allowing for layer-specific adjustment of auxiliary loss coefficients. Our experimental results validate the effectiveness of these methods. Leveraging these techniques and insights, we trained our upcycled Skywork-MoE on a condensed subset of our SkyPile corpus. The evaluation results demonstrate that our model delivers strong performance across a wide range of benchmarks.
PDF2010December 8, 2024