ChatPaper.aiChatPaper

Yuan 2.0-M32: Смесь экспертов с маршрутизатором внимания

Yuan 2.0-M32: Mixture of Experts with Attention Router

May 28, 2024
Авторы: Shaohua Wu, Jiangang Luo, Xi Chen, Lingjun Li, Xudong Zhao, Tong Yu, Chao Wang, Yue Wang, Fei Wang, Weixu Qiao, Houbo He, Zeru Zhang, Zeyu Sun, Junxiong Mao, Chong Shen
cs.AI

Аннотация

Yuan 2.0-M32, имеющий аналогичную базовую архитектуру, как и Yuan-2.0 2B, использует архитектуру смеси экспертов с 32 экспертами, из которых активны 2 эксперта. Предложена и принята новая сеть маршрутизаторов, Attention Router, для более эффективного выбора экспертов, что увеличивает точность на 3.8% по сравнению с моделью с классической сетью маршрутизаторов. Yuan 2.0-M32 обучается с нуля на 2000B токенах, и расход вычислений обучения составляет всего лишь 9.25% от плотной модели с тем же параметрическим масштабом. Yuan 2.0-M32 демонстрирует конкурентоспособные возможности в области кодирования, математики и различных областей экспертизы, имея только 3.7B активных параметров из общего числа 40B и 7.4 GFlops прямого вычисления на токен, оба из которых составляют всего 1/19 от Llama3-70B. Yuan 2.0-M32 превосходит Llama3-70B на бенчмарках MATH и ARC-Challenge с точностью 55.89 и 95.8 соответственно. Модели и исходные коды Yuan 2.0-M32 доступны на Github.
English
Yuan 2.0-M32, with a similar base architecture as Yuan-2.0 2B, uses a mixture-of-experts architecture with 32 experts of which 2 experts are active. A new router network, Attention Router, is proposed and adopted for a more efficient selection of experts, which boosts the accuracy of 3.8% compared to the model with classical router network. Yuan 2.0-M32 is trained with 2000B tokens from scratch, and the training computation consumption is only 9.25% of a dense model at the same parameter scale. Yuan 2.0-M32 demonstrates competitive capability on coding, math, and various domains of expertise, with only 3.7B active parameters of 40B in total, and 7.4 GFlops forward computation per token, both of which are only 1/19 of Llama3-70B. Yuan 2.0-M32 surpass Llama3-70B on MATH and ARC-Challenge benchmark, with accuracy of 55.89 and 95.8 respectively. The models and source codes of Yuan 2.0-M32 are released at Github.

Summary

AI-Generated Summary

PDF222December 12, 2024