Yuan 2.0-M32: 어텐션 라우터를 활용한 전문가 혼합 모델
Yuan 2.0-M32: Mixture of Experts with Attention Router
May 28, 2024
저자: Shaohua Wu, Jiangang Luo, Xi Chen, Lingjun Li, Xudong Zhao, Tong Yu, Chao Wang, Yue Wang, Fei Wang, Weixu Qiao, Houbo He, Zeru Zhang, Zeyu Sun, Junxiong Mao, Chong Shen
cs.AI
초록
Yuan 2.0-M32는 Yuan-2.0 2B와 유사한 기본 아키텍처를 사용하며, 32개의 전문가 중 2개의 전문가가 활성화되는 혼합 전문가(MoE) 아키텍처를 채택했습니다. 더 효율적인 전문가 선택을 위해 새로운 라우터 네트워크인 Attention Router가 제안 및 도입되었으며, 이는 기존의 클래식 라우터 네트워크를 사용한 모델 대비 3.8%의 정확도 향상을 이끌어냈습니다. Yuan 2.0-M32는 처음부터 2000B 토큰으로 학습되었으며, 동일한 파라미터 규모의 조밀한(dense) 모델 대비 학습 계산 소모량이 단 9.25%에 불과합니다. Yuan 2.0-M32는 총 40B 파라미터 중 3.7B의 활성 파라미터와 토큰당 7.4 GFlops의 순방향 계산량으로 코딩, 수학 및 다양한 전문 분야에서 경쟁력 있는 성능을 보여주며, 이는 Llama3-70B 대비 각각 1/19 수준입니다. Yuan 2.0-M32는 MATH 및 ARC-Challenge 벤치마크에서 Llama3-70B를 능가하며, 각각 55.89 및 95.8의 정확도를 기록했습니다. Yuan 2.0-M32의 모델 및 소스 코드는 Github에 공개되었습니다.
English
Yuan 2.0-M32, with a similar base architecture as Yuan-2.0 2B, uses a
mixture-of-experts architecture with 32 experts of which 2 experts are active.
A new router network, Attention Router, is proposed and adopted for a more
efficient selection of experts, which boosts the accuracy of 3.8% compared to
the model with classical router network. Yuan 2.0-M32 is trained with 2000B
tokens from scratch, and the training computation consumption is only 9.25% of
a dense model at the same parameter scale. Yuan 2.0-M32 demonstrates
competitive capability on coding, math, and various domains of expertise, with
only 3.7B active parameters of 40B in total, and 7.4 GFlops forward computation
per token, both of which are only 1/19 of Llama3-70B. Yuan 2.0-M32 surpass
Llama3-70B on MATH and ARC-Challenge benchmark, with accuracy of 55.89 and 95.8
respectively. The models and source codes of Yuan 2.0-M32 are released at
Github.Summary
AI-Generated Summary