ChatPaper.aiChatPaper

GRIN: Mezclador de Expertos Informado por Gradiente

GRIN: GRadient-INformed MoE

September 18, 2024
Autores: Liyuan Liu, Young Jin Kim, Shuohang Wang, Chen Liang, Yelong Shen, Hao Cheng, Xiaodong Liu, Masahiro Tanaka, Xiaoxia Wu, Wenxiang Hu, Vishrav Chaudhary, Zeqi Lin, Chenruidong Zhang, Jilong Xue, Hany Awadalla, Jianfeng Gao, Weizhu Chen
cs.AI

Resumen

Los modelos de Mezcla de Expertos (MoE) escalan de manera más efectiva que los modelos densos debido a la computación dispersa a través del enrutamiento de expertos, activando selectivamente solo un pequeño subconjunto de módulos expertos. Sin embargo, la computación dispersa desafía las prácticas de entrenamiento tradicionales, ya que el enrutamiento discreto de expertos obstaculiza la retropropagación estándar y, por lo tanto, la optimización basada en gradientes, que son la piedra angular del aprendizaje profundo. Para perseguir mejor el poder de escalado de MoE, presentamos GRIN (entrenamiento de Mezcla de Expertos informado por Gradiente), que incorpora estimación dispersa de gradientes para el enrutamiento de expertos y configura el paralelismo del modelo para evitar la eliminación de tokens. Aplicando GRIN a la modelización de lenguaje autoregresivo, desarrollamos un modelo MoE top-2 de 16 veces 3.8 mil millones. Nuestro modelo, con solo 6.6 mil millones de parámetros activados, supera a un modelo denso de 7 mil millones y coincide con el rendimiento de un modelo denso de 14 mil millones entrenado con los mismos datos. Evaluaciones extensas en diversas tareas demuestran el potencial de GRIN para mejorar significativamente la eficacia de MoE, logrando 79.4 en MMLU, 83.7 en HellaSwag, 74.4 en HumanEval y 58.9 en MATH.
English
Mixture-of-Experts (MoE) models scale more effectively than dense models due to sparse computation through expert routing, selectively activating only a small subset of expert modules. However, sparse computation challenges traditional training practices, as discrete expert routing hinders standard backpropagation and thus gradient-based optimization, which are the cornerstone of deep learning. To better pursue the scaling power of MoE, we introduce GRIN (GRadient-INformed MoE training), which incorporates sparse gradient estimation for expert routing and configures model parallelism to avoid token dropping. Applying GRIN to autoregressive language modeling, we develop a top-2 16times3.8B MoE model. Our model, with only 6.6B activated parameters, outperforms a 7B dense model and matches the performance of a 14B dense model trained on the same data. Extensive evaluations across diverse tasks demonstrate the potential of GRIN to significantly enhance MoE efficacy, achieving 79.4 on MMLU, 83.7 on HellaSwag, 74.4 on HumanEval, and 58.9 on MATH.

Summary

AI-Generated Summary

PDF163November 16, 2024