CMoE: Tallado rápido de Mezcla de Expertos para una Inferencia Eficiente de LLM
CMoE: Fast Carving of Mixture-of-Experts for Efficient LLM Inference
February 6, 2025
Autores: Zehua Pei, Lancheng Zou, Hui-Ling Zhen, Xianzhi Yu, Wulong Liu, Sinno Jialin Pan, Mingxuan Yuan, Bei Yu
cs.AI
Resumen
Los modelos de lenguaje grandes (LLMs) logran un rendimiento impresionante al escalar los parámetros del modelo, pero esto conlleva una sobrecarga significativa en la inferencia. Las redes de alimentación directa (FFNs), que dominan los parámetros de los LLMs, muestran una alta dispersión de activación en las neuronas ocultas. Para aprovechar esto, los investigadores han propuesto el uso de una arquitectura de mezcla de expertos (MoE), donde solo se activa un subconjunto de parámetros. Sin embargo, los enfoques existentes a menudo requieren una gran cantidad de datos de entrenamiento y recursos, lo que limita su practicidad. Proponemos CMoE (Carved MoE), un marco novedoso para tallar de manera eficiente modelos MoE a partir de modelos densos. CMoE logra un rendimiento notable a través de un agrupamiento eficiente de expertos y una adaptación liviana. En primer lugar, las neuronas se agrupan en expertos compartidos y enrutados según las tasas de activación. A continuación, construimos un mecanismo de enrutamiento sin necesidad de entrenamiento desde cero, incorporando un proceso de enrutamiento diferenciable y equilibrio de carga. Utilizando datos modestos, CMoE produce un MoE bien diseñado y utilizable a partir de un modelo denso de 7B en cinco minutos. Con un ajuste fino liviano, logra una recuperación de alto rendimiento en menos de una hora. Ponemos nuestro código a disposición del público en https://github.com/JarvisPei/CMoE.
English
Large language models (LLMs) achieve impressive performance by scaling model
parameters, but this comes with significant inference overhead. Feed-forward
networks (FFNs), which dominate LLM parameters, exhibit high activation
sparsity in hidden neurons. To exploit this, researchers have proposed using a
mixture-of-experts (MoE) architecture, where only a subset of parameters is
activated. However, existing approaches often require extensive training data
and resources, limiting their practicality. We propose CMoE (Carved MoE), a
novel framework to efficiently carve MoE models from dense models. CMoE
achieves remarkable performance through efficient expert grouping and
lightweight adaptation. First, neurons are grouped into shared and routed
experts based on activation rates. Next, we construct a routing mechanism
without training from scratch, incorporating a differentiable routing process
and load balancing. Using modest data, CMoE produces a well-designed, usable
MoE from a 7B dense model within five minutes. With lightweight fine-tuning, it
achieves high-performance recovery in under an hour. We make our code publicly
available at https://github.com/JarvisPei/CMoE.Summary
AI-Generated Summary