Skywork-MoE: Глубокое погружение в методики обучения моделей языка на основе смеси экспертов
Skywork-MoE: A Deep Dive into Training Techniques for Mixture-of-Experts Language Models
June 3, 2024
Авторы: Tianwen Wei, Bo Zhu, Liang Zhao, Cheng Cheng, Biye Li, Weiwei Lü, Peng Cheng, Jianhao Zhang, Xiaoyu Zhang, Liang Zeng, Xiaokun Wang, Yutuan Ma, Rui Hu, Shuicheng Yan, Han Fang, Yahui Zhou
cs.AI
Аннотация
В данном техническом отчете мы представляем методики обучения, реализованные в разработке Skywork-MoE - высокопроизводительной модели большого языкового объема (LLM) смеси экспертов (MoE) с 146 миллиардами параметров и 16 экспертами. Она инициализируется из предварительных плотных контрольных точек нашей модели Skywork-13B. Мы исследуем сравнительную эффективность повторного использования инициализаций по сравнению с обучением с нуля. Наши результаты показывают, что выбор между этими двумя подходами должен учитывать как производительность существующих плотных контрольных точек, так и бюджет обучения MoE. Мы выделяем две инновационные техники: нормализацию логитов ворот и адаптивные коэффициенты вспомогательных потерь, позволяющие регулировать коэффициенты вспомогательных потерь для каждого слоя. Наши экспериментальные результаты подтверждают эффективность этих методов. Используя эти техники и идеи, мы обучили нашу модель Skywork-MoE на сокращенном подмножестве нашего корпуса SkyPile. Результаты оценки демонстрируют, что наша модель обладает высокой производительностью на широком спектре бенчмарков.
English
In this technical report, we introduce the training methodologies implemented
in the development of Skywork-MoE, a high-performance mixture-of-experts (MoE)
large language model (LLM) with 146 billion parameters and 16 experts. It is
initialized from the pre-existing dense checkpoints of our Skywork-13B model.
We explore the comparative effectiveness of upcycling versus training from
scratch initializations. Our findings suggest that the choice between these two
approaches should consider both the performance of the existing dense
checkpoints and the MoE training budget. We highlight two innovative
techniques: gating logit normalization, which improves expert diversification,
and adaptive auxiliary loss coefficients, allowing for layer-specific
adjustment of auxiliary loss coefficients. Our experimental results validate
the effectiveness of these methods. Leveraging these techniques and insights,
we trained our upcycled Skywork-MoE on a condensed subset of our SkyPile
corpus. The evaluation results demonstrate that our model delivers strong
performance across a wide range of benchmarks.Summary
AI-Generated Summary