DeepSeekMoE: Hacia la Especialización Óptima de Expertos en Modelos de Lenguaje de Mezcla de Expertos
DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
January 11, 2024
Autores: Damai Dai, Chengqi Deng, Chenggang Zhao, R. X. Xu, Huazuo Gao, Deli Chen, Jiashi Li, Wangding Zeng, Xingkai Yu, Y. Wu, Zhenda Xie, Y. K. Li, Panpan Huang, Fuli Luo, Chong Ruan, Zhifang Sui, Wenfeng Liang
cs.AI
Resumen
En la era de los modelos de lenguaje a gran escala, la arquitectura Mixture-of-Experts (MoE) es una propuesta prometedora para gestionar los costos computacionales al escalar los parámetros del modelo. Sin embargo, las arquitecturas MoE convencionales como GShard, que activan los K expertos principales de un total de N, enfrentan desafíos para garantizar la especialización de los expertos, es decir, que cada experto adquiera conocimientos no superpuestos y enfocados. En respuesta, proponemos la arquitectura DeepSeekMoE con el objetivo de alcanzar la máxima especialización de expertos. Esta implica dos estrategias principales: (1) dividir finamente los expertos en mN y activar mK de ellos, permitiendo una combinación más flexible de expertos activados; (2) aislar K_s expertos como compartidos, con el objetivo de capturar conocimientos comunes y reducir la redundancia en los expertos enrutados. Partiendo de una escala modesta con 2B parámetros, demostramos que DeepSeekMoE 2B logra un rendimiento comparable con GShard 2.9B, que tiene 1.5 veces los parámetros y el cómputo de expertos. Además, DeepSeekMoE 2B se acerca casi al rendimiento de su contraparte densa con el mismo número total de parámetros, lo que establece el límite superior de los modelos MoE. Posteriormente, escalamos DeepSeekMoE a 16B parámetros y mostramos que alcanza un rendimiento comparable con LLaMA2 7B, utilizando solo alrededor del 40% de los cálculos. Además, nuestros esfuerzos preliminares para escalar DeepSeekMoE a 145B parámetros validan consistentemente sus ventajas sustanciales sobre la arquitectura GShard y muestran un rendimiento comparable con DeepSeek 67B, utilizando solo el 28.5% (y posiblemente incluso el 18.2%) de los cálculos.
English
In the era of large language models, Mixture-of-Experts (MoE) is a promising
architecture for managing computational costs when scaling up model parameters.
However, conventional MoE architectures like GShard, which activate the top-K
out of N experts, face challenges in ensuring expert specialization, i.e.
each expert acquires non-overlapping and focused knowledge. In response, we
propose the DeepSeekMoE architecture towards ultimate expert specialization. It
involves two principal strategies: (1) finely segmenting the experts into mN
ones and activating mK from them, allowing for a more flexible combination of
activated experts; (2) isolating K_s experts as shared ones, aiming at
capturing common knowledge and mitigating redundancy in routed experts.
Starting from a modest scale with 2B parameters, we demonstrate that
DeepSeekMoE 2B achieves comparable performance with GShard 2.9B, which has 1.5
times the expert parameters and computation. In addition, DeepSeekMoE 2B nearly
approaches the performance of its dense counterpart with the same number of
total parameters, which set the upper bound of MoE models. Subsequently, we
scale up DeepSeekMoE to 16B parameters and show that it achieves comparable
performance with LLaMA2 7B, with only about 40% of computations. Further, our
preliminary efforts to scale up DeepSeekMoE to 145B parameters consistently
validate its substantial advantages over the GShard architecture, and show its
performance comparable with DeepSeek 67B, using only 28.5% (maybe even 18.2%)
of computations.