ChatPaper.aiChatPaper

OLMoE: Offene Mischung-von-Experten-Sprachmodelle

OLMoE: Open Mixture-of-Experts Language Models

September 3, 2024
Autoren: Niklas Muennighoff, Luca Soldaini, Dirk Groeneveld, Kyle Lo, Jacob Morrison, Sewon Min, Weijia Shi, Pete Walsh, Oyvind Tafjord, Nathan Lambert, Yuling Gu, Shane Arora, Akshita Bhagia, Dustin Schwenk, David Wadden, Alexander Wettig, Binyuan Hui, Tim Dettmers, Douwe Kiela, Ali Farhadi, Noah A. Smith, Pang Wei Koh, Amanpreet Singh, Hannaneh Hajishirzi
cs.AI

Zusammenfassung

Wir stellen OLMoE vor, ein vollständig offenes, hochmodernes Sprachmodell, das auf einem spärlichen Mixture-of-Experts (MoE) basiert. OLMoE-1B-7B verfügt über 7 Milliarden (B) Parameter, nutzt jedoch nur 1B pro Eingabetoken. Wir trainieren es auf 5 Billionen Tokens vor und passen es weiter an, um OLMoE-1B-7B-Instruct zu erstellen. Unsere Modelle übertreffen alle verfügbaren Modelle mit ähnlicher Aktivierung von Parametern, und übertreffen sogar größere wie Llama2-13B-Chat und DeepSeekMoE-16B. Wir präsentieren verschiedene Experimente zum Training von MoE, analysieren die Routen in unserem Modell, die eine hohe Spezialisierung zeigen, und stellen alle Aspekte unserer Arbeit als Open-Source zur Verfügung: Modellgewichte, Trainingsdaten, Code und Logs.
English
We introduce OLMoE, a fully open, state-of-the-art language model leveraging sparse Mixture-of-Experts (MoE). OLMoE-1B-7B has 7 billion (B) parameters but uses only 1B per input token. We pretrain it on 5 trillion tokens and further adapt it to create OLMoE-1B-7B-Instruct. Our models outperform all available models with similar active parameters, even surpassing larger ones like Llama2-13B-Chat and DeepSeekMoE-16B. We present various experiments on MoE training, analyze routing in our model showing high specialization, and open-source all aspects of our work: model weights, training data, code, and logs.

Summary

AI-Generated Summary

PDF804November 16, 2024