OLMoE: Modelli di Linguaggio a Mischia di Esperti Aperti

Abstract

Introduciamo OLMoE, un modello linguistico all'avanguardia completamente aperto che sfrutta un Mixture-of-Experts (MoE) sparso. OLMoE-1B-7B ha 7 miliardi (B) di parametri ma utilizza solo 1B per token in input. Lo preaddestriamo su 5 trilioni di token e successivamente lo adattiamo per creare OLMoE-1B-7B-Instruct. I nostri modelli superano tutti i modelli disponibili con parametri attivi simili, superando persino modelli più grandi come Llama2-13B-Chat e DeepSeekMoE-16B. Presentiamo vari esperimenti sull'addestramento MoE, analizziamo il routing nel nostro modello mostrando un'elevata specializzazione e condividiamo in open-source tutti gli aspetti del nostro lavoro: pesi del modello, dati di addestramento, codice e log.

English

We introduce OLMoE, a fully open, state-of-the-art language model leveraging sparse Mixture-of-Experts (MoE). OLMoE-1B-7B has 7 billion (B) parameters but uses only 1B per input token. We pretrain it on 5 trillion tokens and further adapt it to create OLMoE-1B-7B-Instruct. Our models outperform all available models with similar active parameters, even surpassing larger ones like Llama2-13B-Chat and DeepSeekMoE-16B. We present various experiments on MoE training, analyze routing in our model showing high specialization, and open-source all aspects of our work: model weights, training data, code, and logs.

OLMoE: Modelli di Linguaggio a Mischia di Esperti Aperti

OLMoE: Open Mixture-of-Experts Language Models

Abstract

Support