ChatPaper.aiChatPaper

OLMoE: Modelos de Lenguaje de Mezcla de Expertos Abiertos

OLMoE: Open Mixture-of-Experts Language Models

September 3, 2024
Autores: Niklas Muennighoff, Luca Soldaini, Dirk Groeneveld, Kyle Lo, Jacob Morrison, Sewon Min, Weijia Shi, Pete Walsh, Oyvind Tafjord, Nathan Lambert, Yuling Gu, Shane Arora, Akshita Bhagia, Dustin Schwenk, David Wadden, Alexander Wettig, Binyuan Hui, Tim Dettmers, Douwe Kiela, Ali Farhadi, Noah A. Smith, Pang Wei Koh, Amanpreet Singh, Hannaneh Hajishirzi
cs.AI

Resumen

Presentamos OLMoE, un modelo de lenguaje de última generación completamente abierto que aprovecha la técnica de Mixture-of-Experts (MoE) dispersos. OLMoE-1B-7B cuenta con 7 mil millones (B) de parámetros, pero utiliza solo 1B por token de entrada. Lo preentrenamos con 5 billones de tokens y luego lo adaptamos para crear OLMoE-1B-7B-Instruct. Nuestros modelos superan a todos los modelos disponibles con parámetros activos similares, incluso superando a modelos más grandes como Llama2-13B-Chat y DeepSeekMoE-16B. Presentamos varios experimentos sobre el entrenamiento de MoE, analizamos el enrutamiento en nuestro modelo mostrando una alta especialización, y compartimos de forma abierta todos los aspectos de nuestro trabajo: pesos del modelo, datos de entrenamiento, código y registros.
English
We introduce OLMoE, a fully open, state-of-the-art language model leveraging sparse Mixture-of-Experts (MoE). OLMoE-1B-7B has 7 billion (B) parameters but uses only 1B per input token. We pretrain it on 5 trillion tokens and further adapt it to create OLMoE-1B-7B-Instruct. Our models outperform all available models with similar active parameters, even surpassing larger ones like Llama2-13B-Chat and DeepSeekMoE-16B. We present various experiments on MoE training, analyze routing in our model showing high specialization, and open-source all aspects of our work: model weights, training data, code, and logs.

Summary

AI-Generated Summary

PDF804November 16, 2024