OLMoE: 오픈 전문가 혼합 언어 모델
OLMoE: Open Mixture-of-Experts Language Models
September 3, 2024
저자: Niklas Muennighoff, Luca Soldaini, Dirk Groeneveld, Kyle Lo, Jacob Morrison, Sewon Min, Weijia Shi, Pete Walsh, Oyvind Tafjord, Nathan Lambert, Yuling Gu, Shane Arora, Akshita Bhagia, Dustin Schwenk, David Wadden, Alexander Wettig, Binyuan Hui, Tim Dettmers, Douwe Kiela, Ali Farhadi, Noah A. Smith, Pang Wei Koh, Amanpreet Singh, Hannaneh Hajishirzi
cs.AI
초록
OLMoE는 희소한 전문가 모델 혼합(MoE)를 활용한 최첨단 언어 모델로, 완전히 공개되어 있습니다. OLMoE-1B-7B는 70억(B) 개의 매개변수를 가지고 있지만 입력 토큰 당 10억(B) 개만 사용합니다. 우리는 이를 5조 개의 토큰으로 사전 훈련하고 OLMoE-1B-7B-Instruct를 만들기 위해 추가적으로 적응시켰습니다. 우리의 모델은 유사한 활성 매개변수를 가진 모든 사용 가능한 모델보다 우수한 성능을 보여주며, Llama2-13B-Chat 및 DeepSeekMoE-16B와 같은 더 큰 모델을 능가합니다. 우리는 MoE 훈련에 대한 다양한 실험을 제시하고, 모델 내의 높은 전문화를 나타내는 라우팅을 분석하며, 모델 가중치, 훈련 데이터, 코드 및 로그의 모든 측면을 오픈 소스로 제공합니다.
English
We introduce OLMoE, a fully open, state-of-the-art language model leveraging
sparse Mixture-of-Experts (MoE). OLMoE-1B-7B has 7 billion (B) parameters but
uses only 1B per input token. We pretrain it on 5 trillion tokens and further
adapt it to create OLMoE-1B-7B-Instruct. Our models outperform all available
models with similar active parameters, even surpassing larger ones like
Llama2-13B-Chat and DeepSeekMoE-16B. We present various experiments on MoE
training, analyze routing in our model showing high specialization, and
open-source all aspects of our work: model weights, training data, code, and
logs.Summary
AI-Generated Summary