Mixtral degli Esperti
Mixtral of Experts
January 8, 2024
Autori: Albert Q. Jiang, Alexandre Sablayrolles, Antoine Roux, Arthur Mensch, Blanche Savary, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Emma Bou Hanna, Florian Bressand, Gianna Lengyel, Guillaume Bour, Guillaume Lample, Lélio Renard Lavaud, Lucile Saulnier, Marie-Anne Lachaux, Pierre Stock, Sandeep Subramanian, Sophia Yang, Szymon Antoniak, Teven Le Scao, Théophile Gervet, Thibaut Lavril, Thomas Wang, Timothée Lacroix, William El Sayed
cs.AI
Abstract
Presentiamo Mixtral 8x7B, un modello linguistico Sparse Mixture of Experts (SMoE).
Mixtral ha la stessa architettura di Mistral 7B, con la differenza che ogni
livello è composto da 8 blocchi feedforward (cioè esperti). Per ogni token, a
ogni livello, una rete router seleziona due esperti per elaborare lo stato corrente
e combinare i loro output. Anche se ogni token vede solo due esperti, gli
esperti selezionati possono essere diversi a ogni passo temporale. Di conseguenza, ogni token ha
accesso a 47 miliardi di parametri, ma utilizza solo 13 miliardi di parametri attivi durante l'inferenza.
Mixtral è stato addestrato con una dimensione di contesto di 32k token e supera o
eguaglia Llama 2 70B e GPT-3.5 in tutti i benchmark valutati. In particolare,
Mixtral supera di gran lunga Llama 2 70B nei benchmark di matematica, generazione di codice e
multilingue. Forniamo anche un modello fine-tuned per seguire
istruzioni, Mixtral 8x7B - Instruct, che supera GPT-3.5 Turbo,
Claude-2.1, Gemini Pro e Llama 2 70B - chat model nei benchmark umani. Sia
il modello base che quello instruct sono rilasciati sotto la licenza Apache 2.0.
English
We introduce Mixtral 8x7B, a Sparse Mixture of Experts (SMoE) language model.
Mixtral has the same architecture as Mistral 7B, with the difference that each
layer is composed of 8 feedforward blocks (i.e. experts). For every token, at
each layer, a router network selects two experts to process the current state
and combine their outputs. Even though each token only sees two experts, the
selected experts can be different at each timestep. As a result, each token has
access to 47B parameters, but only uses 13B active parameters during inference.
Mixtral was trained with a context size of 32k tokens and it outperforms or
matches Llama 2 70B and GPT-3.5 across all evaluated benchmarks. In particular,
Mixtral vastly outperforms Llama 2 70B on mathematics, code generation, and
multilingual benchmarks. We also provide a model fine-tuned to follow
instructions, Mixtral 8x7B - Instruct, that surpasses GPT-3.5 Turbo,
Claude-2.1, Gemini Pro, and Llama 2 70B - chat model on human benchmarks. Both
the base and instruct models are released under the Apache 2.0 license.