ChatPaper.aiChatPaper

Yuan 2.0-M32 : Mélange d'experts avec routeur d'attention

Yuan 2.0-M32: Mixture of Experts with Attention Router

May 28, 2024
Auteurs: Shaohua Wu, Jiangang Luo, Xi Chen, Lingjun Li, Xudong Zhao, Tong Yu, Chao Wang, Yue Wang, Fei Wang, Weixu Qiao, Houbo He, Zeru Zhang, Zeyu Sun, Junxiong Mao, Chong Shen
cs.AI

Résumé

Yuan 2.0-M32, partageant une architecture de base similaire à Yuan-2.0 2B, utilise une architecture de mélange d'experts (Mixture of Experts) composée de 32 experts, dont 2 sont actifs. Un nouveau réseau de routage, appelé Attention Router, est proposé et adopté pour une sélection plus efficace des experts, ce qui améliore la précision de 3,8 % par rapport au modèle utilisant un réseau de routage classique. Yuan 2.0-M32 est entraîné à partir de zéro sur 2000 milliards de tokens, et la consommation de calcul lors de l'entraînement ne représente que 9,25 % de celle d'un modèle dense de la même échelle de paramètres. Yuan 2.0-M32 démontre des capacités compétitives dans les domaines du codage, des mathématiques et de divers autres domaines spécialisés, avec seulement 3,7 milliards de paramètres actifs sur un total de 40 milliards, et un calcul avant (forward computation) de 7,4 GFlops par token, ce qui représente seulement 1/19 de celui de Llama3-70B. Yuan 2.0-M32 surpasse Llama3-70B sur les benchmarks MATH et ARC-Challenge, avec des précisions respectives de 55,89 et 95,8. Les modèles et codes sources de Yuan 2.0-M32 sont disponibles sur Github.
English
Yuan 2.0-M32, with a similar base architecture as Yuan-2.0 2B, uses a mixture-of-experts architecture with 32 experts of which 2 experts are active. A new router network, Attention Router, is proposed and adopted for a more efficient selection of experts, which boosts the accuracy of 3.8% compared to the model with classical router network. Yuan 2.0-M32 is trained with 2000B tokens from scratch, and the training computation consumption is only 9.25% of a dense model at the same parameter scale. Yuan 2.0-M32 demonstrates competitive capability on coding, math, and various domains of expertise, with only 3.7B active parameters of 40B in total, and 7.4 GFlops forward computation per token, both of which are only 1/19 of Llama3-70B. Yuan 2.0-M32 surpass Llama3-70B on MATH and ARC-Challenge benchmark, with accuracy of 55.89 and 95.8 respectively. The models and source codes of Yuan 2.0-M32 are released at Github.

Summary

AI-Generated Summary

PDF222December 12, 2024