ChatPaper.aiChatPaper

Mixtral der Experten

Mixtral of Experts

January 8, 2024
Autoren: Albert Q. Jiang, Alexandre Sablayrolles, Antoine Roux, Arthur Mensch, Blanche Savary, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Emma Bou Hanna, Florian Bressand, Gianna Lengyel, Guillaume Bour, Guillaume Lample, Lélio Renard Lavaud, Lucile Saulnier, Marie-Anne Lachaux, Pierre Stock, Sandeep Subramanian, Sophia Yang, Szymon Antoniak, Teven Le Scao, Théophile Gervet, Thibaut Lavril, Thomas Wang, Timothée Lacroix, William El Sayed
cs.AI

Zusammenfassung

Wir stellen Mixtral 8x7B vor, ein Sparse Mixture of Experts (SMoE)-Sprachmodell. Mixtral hat die gleiche Architektur wie Mistral 7B, mit dem Unterschied, dass jede Schicht aus 8 Feedforward-Blöcken (d.h. Experten) besteht. Für jedes Token wählt ein Router-Netzwerk auf jeder Schicht zwei Experten aus, um den aktuellen Zustand zu verarbeiten und ihre Ausgaben zu kombinieren. Obwohl jedes Token nur zwei Experten sieht, können die ausgewählten Experten in jedem Zeitschritt unterschiedlich sein. Dadurch hat jedes Token Zugriff auf 47B Parameter, verwendet jedoch während der Inferenz nur 13B aktive Parameter. Mixtral wurde mit einer Kontextgröße von 32k Token trainiert und übertrifft oder erreicht Llama 2 70B und GPT-3.5 in allen bewerteten Benchmarks. Insbesondere übertrifft Mixtral Llama 2 70B deutlich in den Bereichen Mathematik, Code-Generierung und mehrsprachige Benchmarks. Wir stellen auch ein Modell bereit, das feinabgestimmt wurde, um Anweisungen zu befolgen, Mixtral 8x7B - Instruct, das GPT-3.5 Turbo, Claude-2.1, Gemini Pro und Llama 2 70B - Chat-Modell in menschlichen Benchmarks übertrifft. Sowohl das Basis- als auch das Instruct-Modell werden unter der Apache 2.0-Lizenz veröffentlicht.
English
We introduce Mixtral 8x7B, a Sparse Mixture of Experts (SMoE) language model. Mixtral has the same architecture as Mistral 7B, with the difference that each layer is composed of 8 feedforward blocks (i.e. experts). For every token, at each layer, a router network selects two experts to process the current state and combine their outputs. Even though each token only sees two experts, the selected experts can be different at each timestep. As a result, each token has access to 47B parameters, but only uses 13B active parameters during inference. Mixtral was trained with a context size of 32k tokens and it outperforms or matches Llama 2 70B and GPT-3.5 across all evaluated benchmarks. In particular, Mixtral vastly outperforms Llama 2 70B on mathematics, code generation, and multilingual benchmarks. We also provide a model fine-tuned to follow instructions, Mixtral 8x7B - Instruct, that surpasses GPT-3.5 Turbo, Claude-2.1, Gemini Pro, and Llama 2 70B - chat model on human benchmarks. Both the base and instruct models are released under the Apache 2.0 license.
PDF1605December 15, 2024