ChatPaper.aiChatPaper

Yuan 2.0-M32: Mistura di Esperti con Router di Attenzione

Yuan 2.0-M32: Mixture of Experts with Attention Router

May 28, 2024
Autori: Shaohua Wu, Jiangang Luo, Xi Chen, Lingjun Li, Xudong Zhao, Tong Yu, Chao Wang, Yue Wang, Fei Wang, Weixu Qiao, Houbo He, Zeru Zhang, Zeyu Sun, Junxiong Mao, Chong Shen
cs.AI

Abstract

Yuan 2.0-M32, con un'architettura di base simile a Yuan-2.0 2B, utilizza un'architettura mixture-of-experts con 32 esperti, di cui 2 sono attivi. È stato proposto e adottato un nuovo router network, Attention Router, per una selezione più efficiente degli esperti, che migliora l'accuratezza del 3,8% rispetto al modello con il classico router network. Yuan 2.0-M32 è stato addestrato da zero con 2000 miliardi di token, e il consumo computazionale dell'addestramento è solo il 9,25% di un modello denso alla stessa scala di parametri. Yuan 2.0-M32 dimostra capacità competitive in ambiti come la codifica, la matematica e vari domini di competenza, con solo 3,7 miliardi di parametri attivi su un totale di 40 miliardi, e 7,4 GFlops di computazione forward per token, entrambi solo 1/19 rispetto a Llama3-70B. Yuan 2.0-M32 supera Llama3-70B nei benchmark MATH e ARC-Challenge, con un'accuratezza rispettivamente del 55,89 e del 95,8. I modelli e i codici sorgente di Yuan 2.0-M32 sono rilasciati su Github.
English
Yuan 2.0-M32, with a similar base architecture as Yuan-2.0 2B, uses a mixture-of-experts architecture with 32 experts of which 2 experts are active. A new router network, Attention Router, is proposed and adopted for a more efficient selection of experts, which boosts the accuracy of 3.8% compared to the model with classical router network. Yuan 2.0-M32 is trained with 2000B tokens from scratch, and the training computation consumption is only 9.25% of a dense model at the same parameter scale. Yuan 2.0-M32 demonstrates competitive capability on coding, math, and various domains of expertise, with only 3.7B active parameters of 40B in total, and 7.4 GFlops forward computation per token, both of which are only 1/19 of Llama3-70B. Yuan 2.0-M32 surpass Llama3-70B on MATH and ARC-Challenge benchmark, with accuracy of 55.89 and 95.8 respectively. The models and source codes of Yuan 2.0-M32 are released at Github.
PDF212February 8, 2026