Yuan 2.0-M32: Mistura de Especialistas com Roteador de Atenção
Yuan 2.0-M32: Mixture of Experts with Attention Router
May 28, 2024
Autores: Shaohua Wu, Jiangang Luo, Xi Chen, Lingjun Li, Xudong Zhao, Tong Yu, Chao Wang, Yue Wang, Fei Wang, Weixu Qiao, Houbo He, Zeru Zhang, Zeyu Sun, Junxiong Mao, Chong Shen
cs.AI
Resumo
O Yuan 2.0-M32, com uma arquitetura base semelhante ao Yuan-2.0 2B, utiliza uma arquitetura de mistura de especialistas (Mixture of Experts) com 32 especialistas, dos quais 2 estão ativos. Um novo mecanismo de roteamento, o Attention Router, foi proposto e adotado para uma seleção mais eficiente de especialistas, o que aumentou a precisão em 3,8% em comparação com o modelo que utiliza o mecanismo de roteamento clássico. O Yuan 2.0-M32 foi treinado com 2000 bilhões de tokens a partir do zero, e o consumo computacional de treinamento foi de apenas 9,25% de um modelo denso na mesma escala de parâmetros. O Yuan 2.0-M32 demonstra capacidade competitiva em codificação, matemática e diversos domínios de especialização, com apenas 3,7 bilhões de parâmetros ativos de um total de 40 bilhões, e 7,4 GFlops de computação direta por token, ambos representando apenas 1/19 do Llama3-70B. O Yuan 2.0-M32 supera o Llama3-70B nos benchmarks MATH e ARC-Challenge, com precisões de 55,89 e 95,8, respectivamente. Os modelos e códigos-fonte do Yuan 2.0-M32 estão disponíveis no Github.
English
Yuan 2.0-M32, with a similar base architecture as Yuan-2.0 2B, uses a
mixture-of-experts architecture with 32 experts of which 2 experts are active.
A new router network, Attention Router, is proposed and adopted for a more
efficient selection of experts, which boosts the accuracy of 3.8% compared to
the model with classical router network. Yuan 2.0-M32 is trained with 2000B
tokens from scratch, and the training computation consumption is only 9.25% of
a dense model at the same parameter scale. Yuan 2.0-M32 demonstrates
competitive capability on coding, math, and various domains of expertise, with
only 3.7B active parameters of 40B in total, and 7.4 GFlops forward computation
per token, both of which are only 1/19 of Llama3-70B. Yuan 2.0-M32 surpass
Llama3-70B on MATH and ARC-Challenge benchmark, with accuracy of 55.89 and 95.8
respectively. The models and source codes of Yuan 2.0-M32 are released at
Github.