OpenMoE: 오픈형 전문가 혼합 언어 모델에 대한 초기 시도
OpenMoE: An Early Effort on Open Mixture-of-Experts Language Models
January 29, 2024
저자: Fuzhao Xue, Zian Zheng, Yao Fu, Jinjie Ni, Zangwei Zheng, Wangchunshu Zhou, Yang You
cs.AI
초록
오픈소스 커뮤니티가 Mixture-of-Experts(MoE) 기반 대규모 언어 모델(LLM)을 더 잘 이해할 수 있도록, 우리는 650M에서 34B 파라미터 규모에 이르고 최대 1T 이상의 토큰으로 학습된 완전히 오픈소스화되고 재현 가능한 디코더 전용 MoE LLM 시리즈인 OpenMoE를 학습 및 공개합니다. 우리의 연구는 MoE 기반 LLM이 밀집형(dense) LLM보다 더 유리한 비용 대비 효과를 제공할 수 있음을 확인하며, 이는 향후 LLM 개발의 잠재적 효율성을 강조합니다.
이 연구의 또 다른 중요한 기여는 OpenMoE 모델 내의 라우팅 메커니즘에 대한 심층 분석으로, 세 가지 중요한 발견을 이끌어냈습니다: 컨텍스트 독립적 전문화(Context-Independent Specialization), 초기 라우팅 학습(Early Routing Learning), 그리고 끝으로 향하는 드롭(Drop-towards-the-End). 우리는 MoE 모델에서의 라우팅 결정이 주로 토큰 ID에 기반하며 컨텍스트 관련성이 거의 없음을 발견했습니다. 토큰-전문가 할당은 사전 학습 단계 초기에 결정되며 대부분 변경되지 않습니다. 이러한 불완전한 라우팅은 특히 다중 턴 대화와 같은 순차적 작업에서 성능 저하를 초래할 수 있으며, 시퀀스의 후반부에 나타나는 토큰이 더 자주 드롭될 가능성이 높습니다.
마지막으로, 우리는 위에서 언급한 관찰과 분석을 바탕으로 설계를 재고합니다. 향후 MoE LLM 개발을 촉진하기 위해, 우리가 발견한 문제를 완화하고 기존 MoE LLM 설계를 더욱 개선할 수 있는 잠재적 전략을 제안합니다.
English
To help the open-source community have a better understanding of
Mixture-of-Experts (MoE) based large language models (LLMs), we train and
release OpenMoE, a series of fully open-sourced and reproducible decoder-only
MoE LLMs, ranging from 650M to 34B parameters and trained on up to over 1T
tokens. Our investigation confirms that MoE-based LLMs can offer a more
favorable cost-effectiveness trade-off than dense LLMs, highlighting the
potential effectiveness for future LLM development.
One more important contribution of this study is an in-depth analysis of the
routing mechanisms within our OpenMoE models, leading to three significant
findings: Context-Independent Specialization, Early Routing Learning, and
Drop-towards-the-End. We discovered that routing decisions in MoE models are
predominantly based on token IDs, with minimal context relevance. The
token-to-expert assignments are determined early in the pre-training phase and
remain largely unchanged. This imperfect routing can result in performance
degradation, particularly in sequential tasks like multi-turn conversations,
where tokens appearing later in a sequence are more likely to be dropped.
Finally, we rethink our design based on the above-mentioned observations and
analysis. To facilitate future MoE LLM development, we propose potential
strategies for mitigating the issues we found and further improving
off-the-shelf MoE LLM designs.