Múltiplas Cabeças de Mistura de Especialistas
Multi-Head Mixture-of-Experts
April 23, 2024
Autores: Xun Wu, Shaohan Huang, Wenhui Wang, Furu Wei
cs.AI
Resumo
Misturas Especializadas Escassas (SMoE, do inglês Sparse Mixtures of Experts) escalam a capacidade do modelo sem aumentos significativos nos custos de treinamento e inferência, mas apresentam dois problemas principais: (1) Baixa ativação de especialistas, onde apenas um pequeno subconjunto de especialistas é ativado para otimização. (2) Falta de capacidade analítica refinada para múltiplos conceitos semânticos dentro de tokens individuais. Propomos a Mistura de Especialistas com Múltiplas Cabeças (MH-MoE, do inglês Multi-Head Mixture-of-Experts), que emprega um mecanismo de múltiplas cabeças para dividir cada token em vários sub-tokens. Esses sub-tokens são então atribuídos e processados por um conjunto diversificado de especialistas em paralelo, e reintegrados de forma contínua ao formato original do token. O mecanismo de múltiplas cabeças permite que o modelo atenda coletivamente a informações de diversos espaços de representação dentro de diferentes especialistas, enquanto aumenta significativamente a ativação de especialistas, aprofundando assim a compreensão do contexto e mitigando o overfitting. Além disso, nosso MH-MoE é simples de implementar e desacoplado de outros métodos de otimização SMoE, facilitando sua integração com outros modelos SMoE para melhorar o desempenho. Resultados experimentais extensivos em três tarefas: modelagem de linguagem focada em inglês, modelagem de linguagem multilíngue e modelagem multimodial mascarada, demonstram a eficácia do MH-MoE.
English
Sparse Mixtures of Experts (SMoE) scales model capacity without significant
increases in training and inference costs, but exhibits the following two
issues: (1) Low expert activation, where only a small subset of experts are
activated for optimization. (2) Lacking fine-grained analytical capabilities
for multiple semantic concepts within individual tokens. We propose Multi-Head
Mixture-of-Experts (MH-MoE), which employs a multi-head mechanism to split each
token into multiple sub-tokens. These sub-tokens are then assigned to and
processed by a diverse set of experts in parallel, and seamlessly reintegrated
into the original token form. The multi-head mechanism enables the model to
collectively attend to information from various representation spaces within
different experts, while significantly enhances expert activation, thus deepens
context understanding and alleviate overfitting. Moreover, our MH-MoE is
straightforward to implement and decouples from other SMoE optimization
methods, making it easy to integrate with other SMoE models for enhanced
performance. Extensive experimental results across three tasks: English-focused
language modeling, Multi-lingual language modeling and Masked multi-modality
modeling tasks, demonstrate the effectiveness of MH-MoE.