ChatPaper.aiChatPaper

OLMoE: オープンな専門家の混合言語モデル

OLMoE: Open Mixture-of-Experts Language Models

September 3, 2024
著者: Niklas Muennighoff, Luca Soldaini, Dirk Groeneveld, Kyle Lo, Jacob Morrison, Sewon Min, Weijia Shi, Pete Walsh, Oyvind Tafjord, Nathan Lambert, Yuling Gu, Shane Arora, Akshita Bhagia, Dustin Schwenk, David Wadden, Alexander Wettig, Binyuan Hui, Tim Dettmers, Douwe Kiela, Ali Farhadi, Noah A. Smith, Pang Wei Koh, Amanpreet Singh, Hannaneh Hajishirzi
cs.AI

要旨

OLMoEは、スパースなエキスパートの混合(MoE)を活用した最先端の言語モデルであり、完全にオープンソースです。OLMoE-1B-7Bは70億(B)のパラメータを持ちますが、入力トークンごとに10億しか使用しません。我々は5兆トークンで事前学習し、さらにそれを活用してOLMoE-1B-7B-Instructを作成しました。当社のモデルは、同様のアクティブパラメータを持つすべての利用可能なモデルを凌駕し、Llama2-13B-ChatやDeepSeekMoE-16Bなどのより大きなモデルをも上回ります。MoEのトレーニングに関するさまざまな実験を行い、当社のモデルにおける高い特化を示すルーティングを分析し、モデルの重み、トレーニングデータ、コード、ログなど、当社の作業のすべての側面をオープンソース化しています。
English
We introduce OLMoE, a fully open, state-of-the-art language model leveraging sparse Mixture-of-Experts (MoE). OLMoE-1B-7B has 7 billion (B) parameters but uses only 1B per input token. We pretrain it on 5 trillion tokens and further adapt it to create OLMoE-1B-7B-Instruct. Our models outperform all available models with similar active parameters, even surpassing larger ones like Llama2-13B-Chat and DeepSeekMoE-16B. We present various experiments on MoE training, analyze routing in our model showing high specialization, and open-source all aspects of our work: model weights, training data, code, and logs.

Summary

AI-Generated Summary

PDF804November 16, 2024