ChatPaper.aiChatPaper

Yuan 2.0-M32: Mixture of Experts met Attention Router

Yuan 2.0-M32: Mixture of Experts with Attention Router

May 28, 2024
Auteurs: Shaohua Wu, Jiangang Luo, Xi Chen, Lingjun Li, Xudong Zhao, Tong Yu, Chao Wang, Yue Wang, Fei Wang, Weixu Qiao, Houbo He, Zeru Zhang, Zeyu Sun, Junxiong Mao, Chong Shen
cs.AI

Samenvatting

Yuan 2.0-M32, met een vergelijkbare basisarchitectuur als Yuan-2.0 2B, maakt gebruik van een mixture-of-experts-architectuur met 32 experts, waarvan 2 experts actief zijn. Een nieuw router-netwerk, Attention Router, wordt voorgesteld en geïmplementeerd voor een efficiëntere selectie van experts, wat de nauwkeurigheid met 3,8% verbetert in vergelijking met het model met een klassiek router-netwerk. Yuan 2.0-M32 is getraind met 2000B tokens vanaf nul, en het rekenverbruik tijdens de training bedraagt slechts 9,25% van een dicht model op dezelfde parameterschaal. Yuan 2.0-M32 toont een competitieve vaardigheid op het gebied van coderen, wiskunde en diverse expertisegebieden, met slechts 3,7B actieve parameters van de in totaal 40B, en 7,4 GFlops voorwaartse berekening per token, wat beide slechts 1/19 is van Llama3-70B. Yuan 2.0-M32 overtreft Llama3-70B op de MATH- en ARC-Challenge-benchmarks, met een nauwkeurigheid van respectievelijk 55,89 en 95,8. De modellen en broncodes van Yuan 2.0-M32 zijn vrijgegeven op Github.
English
Yuan 2.0-M32, with a similar base architecture as Yuan-2.0 2B, uses a mixture-of-experts architecture with 32 experts of which 2 experts are active. A new router network, Attention Router, is proposed and adopted for a more efficient selection of experts, which boosts the accuracy of 3.8% compared to the model with classical router network. Yuan 2.0-M32 is trained with 2000B tokens from scratch, and the training computation consumption is only 9.25% of a dense model at the same parameter scale. Yuan 2.0-M32 demonstrates competitive capability on coding, math, and various domains of expertise, with only 3.7B active parameters of 40B in total, and 7.4 GFlops forward computation per token, both of which are only 1/19 of Llama3-70B. Yuan 2.0-M32 surpass Llama3-70B on MATH and ARC-Challenge benchmark, with accuracy of 55.89 and 95.8 respectively. The models and source codes of Yuan 2.0-M32 are released at Github.
PDF212February 8, 2026