Mixtral de Expertos
Mixtral of Experts
January 8, 2024
Autores: Albert Q. Jiang, Alexandre Sablayrolles, Antoine Roux, Arthur Mensch, Blanche Savary, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Emma Bou Hanna, Florian Bressand, Gianna Lengyel, Guillaume Bour, Guillaume Lample, Lélio Renard Lavaud, Lucile Saulnier, Marie-Anne Lachaux, Pierre Stock, Sandeep Subramanian, Sophia Yang, Szymon Antoniak, Teven Le Scao, Théophile Gervet, Thibaut Lavril, Thomas Wang, Timothée Lacroix, William El Sayed
cs.AI
Resumen
Presentamos Mixtral 8x7B, un modelo de lenguaje de Mezcla Dispersa de Expertos (SMoE, por sus siglas en inglés). Mixtral tiene la misma arquitectura que Mistral 7B, con la diferencia de que cada capa está compuesta por 8 bloques de red feedforward (es decir, expertos). Para cada token, en cada capa, una red enrutadora selecciona dos expertos para procesar el estado actual y combinar sus salidas. Aunque cada token solo ve a dos expertos, los expertos seleccionados pueden ser diferentes en cada paso de tiempo. Como resultado, cada token tiene acceso a 47B parámetros, pero solo utiliza 13B parámetros activos durante la inferencia. Mixtral fue entrenado con un tamaño de contexto de 32k tokens y supera o iguala a Llama 2 70B y GPT-3.5 en todos los puntos de referencia evaluados. En particular, Mixtral supera ampliamente a Llama 2 70B en matemáticas, generación de código y pruebas multilingües. También proporcionamos un modelo ajustado para seguir instrucciones, Mixtral 8x7B - Instruct, que supera a GPT-3.5 Turbo, Claude-2.1, Gemini Pro y el modelo de chat de Llama 2 70B en evaluaciones humanas. Tanto el modelo base como el modelo de instrucciones se publican bajo la licencia Apache 2.0.
English
We introduce Mixtral 8x7B, a Sparse Mixture of Experts (SMoE) language model.
Mixtral has the same architecture as Mistral 7B, with the difference that each
layer is composed of 8 feedforward blocks (i.e. experts). For every token, at
each layer, a router network selects two experts to process the current state
and combine their outputs. Even though each token only sees two experts, the
selected experts can be different at each timestep. As a result, each token has
access to 47B parameters, but only uses 13B active parameters during inference.
Mixtral was trained with a context size of 32k tokens and it outperforms or
matches Llama 2 70B and GPT-3.5 across all evaluated benchmarks. In particular,
Mixtral vastly outperforms Llama 2 70B on mathematics, code generation, and
multilingual benchmarks. We also provide a model fine-tuned to follow
instructions, Mixtral 8x7B - Instruct, that surpasses GPT-3.5 Turbo,
Claude-2.1, Gemini Pro, and Llama 2 70B - chat model on human benchmarks. Both
the base and instruct models are released under the Apache 2.0 license.