OpenMoE: Первые шаги в создании открытых языковых моделей на основе смеси экспертов
OpenMoE: An Early Effort on Open Mixture-of-Experts Language Models
January 29, 2024
Авторы: Fuzhao Xue, Zian Zheng, Yao Fu, Jinjie Ni, Zangwei Zheng, Wangchunshu Zhou, Yang You
cs.AI
Аннотация
Чтобы помочь сообществу open-source лучше понять крупные языковые модели (LLM), основанные на архитектуре Mixture-of-Experts (MoE), мы обучаем и выпускаем OpenMoE — серию полностью открытых и воспроизводимых декодер-ориентированных MoE LLM, масштабируемых от 650 миллионов до 34 миллиардов параметров и обученных на более чем 1 триллионе токенов. Наше исследование подтверждает, что MoE-модели могут предложить более выгодное соотношение стоимости и эффективности по сравнению с плотными LLM, подчеркивая их потенциал для будущего развития языковых моделей.
Еще одним важным вкладом этого исследования является глубокий анализ механизмов маршрутизации в наших моделях OpenMoE, который привел к трем значимым выводам: контекстно-независимая специализация, раннее обучение маршрутизации и "выпадение к концу". Мы обнаружили, что решения маршрутизации в MoE-моделях в основном основываются на идентификаторах токенов, с минимальной зависимостью от контекста. Назначение токенов экспертам определяется на ранних этапах предварительного обучения и остается практически неизменным. Эта несовершенная маршрутизация может привести к снижению производительности, особенно в последовательных задачах, таких как многоходовые диалоги, где токены, появляющиеся позже в последовательности, с большей вероятностью "выпадают".
Наконец, мы переосмысливаем наш дизайн на основе вышеупомянутых наблюдений и анализа. Чтобы способствовать дальнейшему развитию MoE LLM, мы предлагаем потенциальные стратегии для устранения обнаруженных проблем и дальнейшего улучшения готовых решений MoE LLM.
English
To help the open-source community have a better understanding of
Mixture-of-Experts (MoE) based large language models (LLMs), we train and
release OpenMoE, a series of fully open-sourced and reproducible decoder-only
MoE LLMs, ranging from 650M to 34B parameters and trained on up to over 1T
tokens. Our investigation confirms that MoE-based LLMs can offer a more
favorable cost-effectiveness trade-off than dense LLMs, highlighting the
potential effectiveness for future LLM development.
One more important contribution of this study is an in-depth analysis of the
routing mechanisms within our OpenMoE models, leading to three significant
findings: Context-Independent Specialization, Early Routing Learning, and
Drop-towards-the-End. We discovered that routing decisions in MoE models are
predominantly based on token IDs, with minimal context relevance. The
token-to-expert assignments are determined early in the pre-training phase and
remain largely unchanged. This imperfect routing can result in performance
degradation, particularly in sequential tasks like multi-turn conversations,
where tokens appearing later in a sequence are more likely to be dropped.
Finally, we rethink our design based on the above-mentioned observations and
analysis. To facilitate future MoE LLM development, we propose potential
strategies for mitigating the issues we found and further improving
off-the-shelf MoE LLM designs.