Yuan 2.0-M32: Mischung von Experten mit Aufmerksamkeitsrouter
Yuan 2.0-M32: Mixture of Experts with Attention Router
May 28, 2024
Autoren: Shaohua Wu, Jiangang Luo, Xi Chen, Lingjun Li, Xudong Zhao, Tong Yu, Chao Wang, Yue Wang, Fei Wang, Weixu Qiao, Houbo He, Zeru Zhang, Zeyu Sun, Junxiong Mao, Chong Shen
cs.AI
Zusammenfassung
Yuan 2.0-M32, mit einer ähnlichen Grundarchitektur wie Yuan-2.0 2B, verwendet eine Mixture-of-Experts-Architektur mit 32 Experten, von denen 2 aktiv sind. Ein neues Router-Netzwerk, Attention Router, wird vorgeschlagen und übernommen, um eine effizientere Auswahl der Experten zu ermöglichen, was die Genauigkeit um 3,8% im Vergleich zum Modell mit klassischem Router-Netzwerk erhöht. Yuan 2.0-M32 wird von Grund auf mit 2000B Tokens trainiert, wobei der Trainingsrechenaufwand nur 9,25% eines dichten Modells mit derselben Parametergröße beträgt. Yuan 2.0-M32 zeigt eine wettbewerbsfähige Leistungsfähigkeit in den Bereichen Codierung, Mathematik und verschiedenen Fachgebieten, wobei nur 3,7B aktive Parameter von insgesamt 40B verwendet werden und 7,4 GFlops Vorwärtsberechnung pro Token durchgeführt werden, was jeweils nur 1/19 von Llama3-70B entspricht. Yuan 2.0-M32 übertrifft Llama3-70B in den MATH- und ARC-Challenge-Benchmarks mit Genauigkeiten von 55,89 bzw. 95,8. Die Modelle und Quellcodes von Yuan 2.0-M32 sind auf Github veröffentlicht.
English
Yuan 2.0-M32, with a similar base architecture as Yuan-2.0 2B, uses a
mixture-of-experts architecture with 32 experts of which 2 experts are active.
A new router network, Attention Router, is proposed and adopted for a more
efficient selection of experts, which boosts the accuracy of 3.8% compared to
the model with classical router network. Yuan 2.0-M32 is trained with 2000B
tokens from scratch, and the training computation consumption is only 9.25% of
a dense model at the same parameter scale. Yuan 2.0-M32 demonstrates
competitive capability on coding, math, and various domains of expertise, with
only 3.7B active parameters of 40B in total, and 7.4 GFlops forward computation
per token, both of which are only 1/19 of Llama3-70B. Yuan 2.0-M32 surpass
Llama3-70B on MATH and ARC-Challenge benchmark, with accuracy of 55.89 and 95.8
respectively. The models and source codes of Yuan 2.0-M32 are released at
Github.Summary
AI-Generated Summary