OLMoE: Modelos de Linguagem de Mistura de Especialistas Abertos
OLMoE: Open Mixture-of-Experts Language Models
September 3, 2024
Autores: Niklas Muennighoff, Luca Soldaini, Dirk Groeneveld, Kyle Lo, Jacob Morrison, Sewon Min, Weijia Shi, Pete Walsh, Oyvind Tafjord, Nathan Lambert, Yuling Gu, Shane Arora, Akshita Bhagia, Dustin Schwenk, David Wadden, Alexander Wettig, Binyuan Hui, Tim Dettmers, Douwe Kiela, Ali Farhadi, Noah A. Smith, Pang Wei Koh, Amanpreet Singh, Hannaneh Hajishirzi
cs.AI
Resumo
Apresentamos o OLMoE, um modelo de linguagem totalmente aberto e de última geração que utiliza a técnica de Mixture-of-Experts (MoE) esparsa. O OLMoE-1B-7B possui 7 bilhões de parâmetros, mas utiliza apenas 1B por token de entrada. Pré-treinamos o modelo em 5 trilhões de tokens e posteriormente o adaptamos para criar o OLMoE-1B-7B-Instruct. Nossos modelos superam todos os modelos disponíveis com parâmetros ativos semelhantes, inclusive ultrapassando modelos maiores como o Llama2-13B-Chat e o DeepSeekMoE-16B. Apresentamos diversos experimentos sobre o treinamento de MoE, analisamos o roteamento em nosso modelo demonstrando alta especialização e disponibilizamos de forma aberta todos os aspectos do nosso trabalho: pesos do modelo, dados de treinamento, código e registros.
English
We introduce OLMoE, a fully open, state-of-the-art language model leveraging
sparse Mixture-of-Experts (MoE). OLMoE-1B-7B has 7 billion (B) parameters but
uses only 1B per input token. We pretrain it on 5 trillion tokens and further
adapt it to create OLMoE-1B-7B-Instruct. Our models outperform all available
models with similar active parameters, even surpassing larger ones like
Llama2-13B-Chat and DeepSeekMoE-16B. We present various experiments on MoE
training, analyze routing in our model showing high specialization, and
open-source all aspects of our work: model weights, training data, code, and
logs.Summary
AI-Generated Summary