Mixtral van Experts
Mixtral of Experts
January 8, 2024
Auteurs: Albert Q. Jiang, Alexandre Sablayrolles, Antoine Roux, Arthur Mensch, Blanche Savary, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Emma Bou Hanna, Florian Bressand, Gianna Lengyel, Guillaume Bour, Guillaume Lample, Lélio Renard Lavaud, Lucile Saulnier, Marie-Anne Lachaux, Pierre Stock, Sandeep Subramanian, Sophia Yang, Szymon Antoniak, Teven Le Scao, Théophile Gervet, Thibaut Lavril, Thomas Wang, Timothée Lacroix, William El Sayed
cs.AI
Samenvatting
We introduceren Mixtral 8x7B, een Sparse Mixture of Experts (SMoE) taalmodel. Mixtral heeft dezelfde architectuur als Mistral 7B, met het verschil dat elke laag bestaat uit 8 feedforward blokken (d.w.z. experts). Voor elk token selecteert een router-netwerk op elke laag twee experts om de huidige staat te verwerken en hun uitvoer te combineren. Hoewel elk token slechts twee experts ziet, kunnen de geselecteerde experts per tijdstap verschillen. Hierdoor heeft elk token toegang tot 47B parameters, maar gebruikt het slechts 13B actieve parameters tijdens inferentie. Mixtral is getraind met een contextgrootte van 32k tokens en presteert beter of gelijkwaardig aan Llama 2 70B en GPT-3.5 op alle geëvalueerde benchmarks. In het bijzonder presteert Mixtral aanzienlijk beter dan Llama 2 70B op wiskunde, codegeneratie en meertalige benchmarks. We bieden ook een model aan dat is afgestemd op het volgen van instructies, Mixtral 8x7B - Instruct, dat GPT-3.5 Turbo, Claude-2.1, Gemini Pro en Llama 2 70B - chatmodel overtreft op menselijke benchmarks. Zowel het basismodel als het instructiemodel zijn vrijgegeven onder de Apache 2.0-licentie.
English
We introduce Mixtral 8x7B, a Sparse Mixture of Experts (SMoE) language model.
Mixtral has the same architecture as Mistral 7B, with the difference that each
layer is composed of 8 feedforward blocks (i.e. experts). For every token, at
each layer, a router network selects two experts to process the current state
and combine their outputs. Even though each token only sees two experts, the
selected experts can be different at each timestep. As a result, each token has
access to 47B parameters, but only uses 13B active parameters during inference.
Mixtral was trained with a context size of 32k tokens and it outperforms or
matches Llama 2 70B and GPT-3.5 across all evaluated benchmarks. In particular,
Mixtral vastly outperforms Llama 2 70B on mathematics, code generation, and
multilingual benchmarks. We also provide a model fine-tuned to follow
instructions, Mixtral 8x7B - Instruct, that surpasses GPT-3.5 Turbo,
Claude-2.1, Gemini Pro, and Llama 2 70B - chat model on human benchmarks. Both
the base and instruct models are released under the Apache 2.0 license.