Uma Análise Detalhada sobre Mixture-of-Experts em Modelos de Linguagem Grandes
A Closer Look into Mixture-of-Experts in Large Language Models
June 26, 2024
Autores: Ka Man Lo, Zeyu Huang, Zihan Qiu, Zili Wang, Jie Fu
cs.AI
Resumo
A mistura de especialistas (MoE) está ganhando cada vez mais atenção devido às suas propriedades únicas e desempenho notável, especialmente em tarefas de linguagem. Ao ativar esparsamente um subconjunto de parâmetros para cada token, a arquitetura MoE pode aumentar o tamanho do modelo sem sacrificar a eficiência computacional, alcançando um melhor equilíbrio entre desempenho e custos de treinamento. No entanto, o mecanismo subjacente do MoE ainda carece de exploração adicional, e seu grau de modularização permanece questionável. Neste artigo, fazemos uma tentativa inicial de compreender o funcionamento interno de grandes modelos de linguagem baseados em MoE. Concretamente, estudamos abrangente as características paramétricas e comportamentais de três modelos recentes baseados em MoE e revelamos algumas observações intrigantes, incluindo (1) Neurônios agem como especialistas refinados. (2) O roteador do MoE geralmente seleciona especialistas com normas de saída maiores. (3) A diversidade de especialistas aumenta à medida que a camada aumenta, sendo a última camada uma exceção. Com base nas observações, também fornecemos sugestões para uma ampla gama de praticantes de MoE, como design de roteador e alocação de especialistas. Esperamos que este trabalho possa lançar luz sobre pesquisas futuras sobre o framework MoE e outras arquiteturas modulares. O código está disponível em https://github.com/kamanphoebe/Look-into-MoEs.
English
Mixture-of-experts (MoE) is gaining increasing attention due to its unique
properties and remarkable performance, especially for language tasks. By
sparsely activating a subset of parameters for each token, MoE architecture
could increase the model size without sacrificing computational efficiency,
achieving a better trade-off between performance and training costs. However,
the underlying mechanism of MoE still lacks further exploration, and its
modularization degree remains questionable. In this paper, we make an initial
attempt to understand the inner workings of MoE-based large language models.
Concretely, we comprehensively study the parametric and behavioral features of
three recent MoE-based models and reveal some intriguing observations,
including (1) Neurons act like fine-grained experts. (2) The router of MoE
usually selects experts with larger output norms. (3) The expert diversity
increases as the layer increases, while the last layer is an outlier. Based on
the observations, we also provide suggestions for a broad spectrum of MoE
practitioners, such as router design and expert allocation. We hope this work
could shed light on future research on the MoE framework and other modular
architectures. Code is available at
https://github.com/kamanphoebe/Look-into-MoEs.