ChatPaper.aiChatPaper

Yuan 2.0-M32: Mezcla de Expertos con Enrutador de Atención

Yuan 2.0-M32: Mixture of Experts with Attention Router

May 28, 2024
Autores: Shaohua Wu, Jiangang Luo, Xi Chen, Lingjun Li, Xudong Zhao, Tong Yu, Chao Wang, Yue Wang, Fei Wang, Weixu Qiao, Houbo He, Zeru Zhang, Zeyu Sun, Junxiong Mao, Chong Shen
cs.AI

Resumen

Yuan 2.0-M32, con una arquitectura base similar a Yuan-2.0 2B, utiliza una arquitectura de mezcla de expertos con 32 expertos, de los cuales 2 están activos. Se propone y adopta una nueva red de enrutamiento, Attention Router, para una selección más eficiente de expertos, lo que aumenta la precisión en un 3.8% en comparación con el modelo que utiliza la red de enrutamiento clásica. Yuan 2.0-M32 se entrena desde cero con 2000B tokens, y el consumo computacional del entrenamiento es solo el 9.25% de un modelo denso con la misma escala de parámetros. Yuan 2.0-M32 demuestra una capacidad competitiva en codificación, matemáticas y diversos dominios de especialización, con solo 3.7B parámetros activos de un total de 40B, y 7.4 GFlops de cálculo por token en la fase de avance, ambos valores equivalentes a solo 1/19 de Llama3-70B. Yuan 2.0-M32 supera a Llama3-70B en los benchmarks MATH y ARC-Challenge, con precisiones de 55.89 y 95.8 respectivamente. Los modelos y códigos fuente de Yuan 2.0-M32 están disponibles en Github.
English
Yuan 2.0-M32, with a similar base architecture as Yuan-2.0 2B, uses a mixture-of-experts architecture with 32 experts of which 2 experts are active. A new router network, Attention Router, is proposed and adopted for a more efficient selection of experts, which boosts the accuracy of 3.8% compared to the model with classical router network. Yuan 2.0-M32 is trained with 2000B tokens from scratch, and the training computation consumption is only 9.25% of a dense model at the same parameter scale. Yuan 2.0-M32 demonstrates competitive capability on coding, math, and various domains of expertise, with only 3.7B active parameters of 40B in total, and 7.4 GFlops forward computation per token, both of which are only 1/19 of Llama3-70B. Yuan 2.0-M32 surpass Llama3-70B on MATH and ARC-Challenge benchmark, with accuracy of 55.89 and 95.8 respectively. The models and source codes of Yuan 2.0-M32 are released at Github.

Summary

AI-Generated Summary

PDF222December 12, 2024