ChatPaper.aiChatPaper

OLMoE : Modèles de Langage à Mélange d'Experts Ouverts

OLMoE: Open Mixture-of-Experts Language Models

September 3, 2024
Auteurs: Niklas Muennighoff, Luca Soldaini, Dirk Groeneveld, Kyle Lo, Jacob Morrison, Sewon Min, Weijia Shi, Pete Walsh, Oyvind Tafjord, Nathan Lambert, Yuling Gu, Shane Arora, Akshita Bhagia, Dustin Schwenk, David Wadden, Alexander Wettig, Binyuan Hui, Tim Dettmers, Douwe Kiela, Ali Farhadi, Noah A. Smith, Pang Wei Koh, Amanpreet Singh, Hannaneh Hajishirzi
cs.AI

Résumé

Nous présentons OLMoE, un modèle de langue entièrement ouvert de pointe exploitant un Mélange d'Experts (MoE) clairsemé. OLMoE-1B-7B possède 7 milliards (B) de paramètres mais n'utilise que 1B par jeton d'entrée. Nous le pré-entraînons sur 5 billions de jetons et l'adaptions ensuite pour créer OLMoE-1B-7B-Instruct. Nos modèles surpassent tous les modèles disponibles avec des paramètres actifs similaires, dépassant même des modèles plus grands tels que Llama2-13B-Chat et DeepSeekMoE-16B. Nous présentons diverses expériences sur l'entraînement MoE, analysons le routage dans notre modèle montrant une grande spécialisation, et mettons en open source tous les aspects de notre travail : les poids du modèle, les données d'entraînement, le code et les journaux.
English
We introduce OLMoE, a fully open, state-of-the-art language model leveraging sparse Mixture-of-Experts (MoE). OLMoE-1B-7B has 7 billion (B) parameters but uses only 1B per input token. We pretrain it on 5 trillion tokens and further adapt it to create OLMoE-1B-7B-Instruct. Our models outperform all available models with similar active parameters, even surpassing larger ones like Llama2-13B-Chat and DeepSeekMoE-16B. We present various experiments on MoE training, analyze routing in our model showing high specialization, and open-source all aspects of our work: model weights, training data, code, and logs.

Summary

AI-Generated Summary

PDF804November 16, 2024