ChatPaper.aiChatPaper

エキスパートの混合(Mixtral of Experts)

Mixtral of Experts

January 8, 2024
著者: Albert Q. Jiang, Alexandre Sablayrolles, Antoine Roux, Arthur Mensch, Blanche Savary, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Emma Bou Hanna, Florian Bressand, Gianna Lengyel, Guillaume Bour, Guillaume Lample, Lélio Renard Lavaud, Lucile Saulnier, Marie-Anne Lachaux, Pierre Stock, Sandeep Subramanian, Sophia Yang, Szymon Antoniak, Teven Le Scao, Théophile Gervet, Thibaut Lavril, Thomas Wang, Timothée Lacroix, William El Sayed
cs.AI

要旨

Mixtral 8x7Bを紹介します。これはSparse Mixture of Experts(SMoE)言語モデルです。MixtralはMistral 7Bと同じアーキテクチャを持ちますが、各層が8つのフィードフォワードブロック(つまりエキスパート)で構成されている点が異なります。各トークンに対して、各層でルーターネットワークが2つのエキスパートを選択し、それらの出力を組み合わせます。各トークンは2つのエキスパートしか見ませんが、選択されるエキスパートは各タイムステップで異なる可能性があります。その結果、各トークンは47Bのパラメータにアクセスできますが、推論時には13Bのアクティブなパラメータしか使用しません。Mixtralは32kトークンのコンテキストサイズでトレーニングされ、すべての評価ベンチマークでLlama 2 70BおよびGPT-3.5を上回るか同等の性能を示します。特に、Mixtralは数学、コード生成、多言語ベンチマークでLlama 2 70Bを大幅に上回ります。また、指示に従うようにファインチューニングされたモデル、Mixtral 8x7B - Instructも提供します。これは人間によるベンチマークでGPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70B - chatモデルを上回ります。ベースモデルと指示モデルの両方がApache 2.0ライセンスの下でリリースされています。
English
We introduce Mixtral 8x7B, a Sparse Mixture of Experts (SMoE) language model. Mixtral has the same architecture as Mistral 7B, with the difference that each layer is composed of 8 feedforward blocks (i.e. experts). For every token, at each layer, a router network selects two experts to process the current state and combine their outputs. Even though each token only sees two experts, the selected experts can be different at each timestep. As a result, each token has access to 47B parameters, but only uses 13B active parameters during inference. Mixtral was trained with a context size of 32k tokens and it outperforms or matches Llama 2 70B and GPT-3.5 across all evaluated benchmarks. In particular, Mixtral vastly outperforms Llama 2 70B on mathematics, code generation, and multilingual benchmarks. We also provide a model fine-tuned to follow instructions, Mixtral 8x7B - Instruct, that surpasses GPT-3.5 Turbo, Claude-2.1, Gemini Pro, and Llama 2 70B - chat model on human benchmarks. Both the base and instruct models are released under the Apache 2.0 license.
PDF1605December 15, 2024