ChatPaper.aiChatPaper

Skywork-MoE: Un'Analisi Approfondita delle Tecniche di Addestramento per Modelli Linguistici a Mistura di Esperti

Skywork-MoE: A Deep Dive into Training Techniques for Mixture-of-Experts Language Models

June 3, 2024
Autori: Tianwen Wei, Bo Zhu, Liang Zhao, Cheng Cheng, Biye Li, Weiwei Lü, Peng Cheng, Jianhao Zhang, Xiaoyu Zhang, Liang Zeng, Xiaokun Wang, Yutuan Ma, Rui Hu, Shuicheng Yan, Han Fang, Yahui Zhou
cs.AI

Abstract

In questo rapporto tecnico, presentiamo le metodologie di addestramento implementate nello sviluppo di Skywork-MoE, un modello linguistico di grandi dimensioni (LLM) ad alte prestazioni basato su una miscela di esperti (MoE) con 146 miliardi di parametri e 16 esperti. Il modello è inizializzato a partire dai checkpoint densi preesistenti del nostro modello Skywork-13B. Esploriamo l'efficacia comparativa dell'upcycling rispetto all'addestramento partendo da inizializzazioni da zero. I nostri risultati suggeriscono che la scelta tra questi due approcci dovrebbe considerare sia le prestazioni dei checkpoint densi esistenti sia il budget di addestramento MoE. Evidenziamo due tecniche innovative: la normalizzazione dei logit di gating, che migliora la diversificazione degli esperti, e i coefficienti di perdita ausiliaria adattivi, che consentono un aggiustamento specifico per livello dei coefficienti di perdita ausiliaria. I nostri risultati sperimentali convalidano l'efficacia di questi metodi. Sfruttando queste tecniche e intuizioni, abbiamo addestrato il nostro Skywork-MoE upcyclato su un sottoinsieme condensato del nostro corpus SkyPile. I risultati di valutazione dimostrano che il nostro modello offre prestazioni solide su un'ampia gamma di benchmark.
English
In this technical report, we introduce the training methodologies implemented in the development of Skywork-MoE, a high-performance mixture-of-experts (MoE) large language model (LLM) with 146 billion parameters and 16 experts. It is initialized from the pre-existing dense checkpoints of our Skywork-13B model. We explore the comparative effectiveness of upcycling versus training from scratch initializations. Our findings suggest that the choice between these two approaches should consider both the performance of the existing dense checkpoints and the MoE training budget. We highlight two innovative techniques: gating logit normalization, which improves expert diversification, and adaptive auxiliary loss coefficients, allowing for layer-specific adjustment of auxiliary loss coefficients. Our experimental results validate the effectiveness of these methods. Leveraging these techniques and insights, we trained our upcycled Skywork-MoE on a condensed subset of our SkyPile corpus. The evaluation results demonstrate that our model delivers strong performance across a wide range of benchmarks.
PDF2010December 8, 2024