Mixtral d'Experts
Mixtral of Experts
January 8, 2024
Auteurs: Albert Q. Jiang, Alexandre Sablayrolles, Antoine Roux, Arthur Mensch, Blanche Savary, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Emma Bou Hanna, Florian Bressand, Gianna Lengyel, Guillaume Bour, Guillaume Lample, Lélio Renard Lavaud, Lucile Saulnier, Marie-Anne Lachaux, Pierre Stock, Sandeep Subramanian, Sophia Yang, Szymon Antoniak, Teven Le Scao, Théophile Gervet, Thibaut Lavril, Thomas Wang, Timothée Lacroix, William El Sayed
cs.AI
Résumé
Nous présentons Mixtral 8x7B, un modèle de langage à mélange parcimonieux d'experts (Sparse Mixture of Experts, SMoE). Mixtral possède la même architecture que Mistral 7B, à la différence près que chaque couche est composée de 8 blocs de traitement feedforward (c'est-à-dire des experts). Pour chaque token, à chaque couche, un réseau de routage sélectionne deux experts pour traiter l'état actuel et combine leurs sorties. Bien que chaque token ne voie que deux experts, les experts sélectionnés peuvent varier à chaque pas de temps. Par conséquent, chaque token a accès à 47 milliards de paramètres, mais n'utilise que 13 milliards de paramètres actifs lors de l'inférence. Mixtral a été entraîné avec une taille de contexte de 32 000 tokens et surpasse ou égale Llama 2 70B et GPT-3.5 sur tous les benchmarks évalués. En particulier, Mixtral surpasse largement Llama 2 70B dans les domaines des mathématiques, de la génération de code et des benchmarks multilingues. Nous proposons également un modèle affiné pour suivre des instructions, Mixtral 8x7B - Instruct, qui dépasse GPT-3.5 Turbo, Claude-2.1, Gemini Pro et le modèle de chat Llama 2 70B sur les benchmarks humains. Les modèles de base et d'instruction sont tous deux publiés sous licence Apache 2.0.
English
We introduce Mixtral 8x7B, a Sparse Mixture of Experts (SMoE) language model.
Mixtral has the same architecture as Mistral 7B, with the difference that each
layer is composed of 8 feedforward blocks (i.e. experts). For every token, at
each layer, a router network selects two experts to process the current state
and combine their outputs. Even though each token only sees two experts, the
selected experts can be different at each timestep. As a result, each token has
access to 47B parameters, but only uses 13B active parameters during inference.
Mixtral was trained with a context size of 32k tokens and it outperforms or
matches Llama 2 70B and GPT-3.5 across all evaluated benchmarks. In particular,
Mixtral vastly outperforms Llama 2 70B on mathematics, code generation, and
multilingual benchmarks. We also provide a model fine-tuned to follow
instructions, Mixtral 8x7B - Instruct, that surpasses GPT-3.5 Turbo,
Claude-2.1, Gemini Pro, and Llama 2 70B - chat model on human benchmarks. Both
the base and instruct models are released under the Apache 2.0 license.