CMoE: Tallado rápido de Mezcla de Expertos para una Inferencia Eficiente de LLM

Resumen

Los modelos de lenguaje grandes (LLMs) logran un rendimiento impresionante al escalar los parámetros del modelo, pero esto conlleva una sobrecarga significativa en la inferencia. Las redes de alimentación directa (FFNs), que dominan los parámetros de los LLMs, muestran una alta dispersión de activación en las neuronas ocultas. Para aprovechar esto, los investigadores han propuesto el uso de una arquitectura de mezcla de expertos (MoE), donde solo se activa un subconjunto de parámetros. Sin embargo, los enfoques existentes a menudo requieren una gran cantidad de datos de entrenamiento y recursos, lo que limita su practicidad. Proponemos CMoE (Carved MoE), un marco novedoso para tallar de manera eficiente modelos MoE a partir de modelos densos. CMoE logra un rendimiento notable a través de un agrupamiento eficiente de expertos y una adaptación liviana. En primer lugar, las neuronas se agrupan en expertos compartidos y enrutados según las tasas de activación. A continuación, construimos un mecanismo de enrutamiento sin necesidad de entrenamiento desde cero, incorporando un proceso de enrutamiento diferenciable y equilibrio de carga. Utilizando datos modestos, CMoE produce un MoE bien diseñado y utilizable a partir de un modelo denso de 7B en cinco minutos. Con un ajuste fino liviano, logra una recuperación de alto rendimiento en menos de una hora. Ponemos nuestro código a disposición del público en https://github.com/JarvisPei/CMoE.

English

Large language models (LLMs) achieve impressive performance by scaling model parameters, but this comes with significant inference overhead. Feed-forward networks (FFNs), which dominate LLM parameters, exhibit high activation sparsity in hidden neurons. To exploit this, researchers have proposed using a mixture-of-experts (MoE) architecture, where only a subset of parameters is activated. However, existing approaches often require extensive training data and resources, limiting their practicality. We propose CMoE (Carved MoE), a novel framework to efficiently carve MoE models from dense models. CMoE achieves remarkable performance through efficient expert grouping and lightweight adaptation. First, neurons are grouped into shared and routed experts based on activation rates. Next, we construct a routing mechanism without training from scratch, incorporating a differentiable routing process and load balancing. Using modest data, CMoE produces a well-designed, usable MoE from a 7B dense model within five minutes. With lightweight fine-tuning, it achieves high-performance recovery in under an hour. We make our code publicly available at https://github.com/JarvisPei/CMoE.

CMoE: Tallado rápido de Mezcla de Expertos para una Inferencia Eficiente de LLM

CMoE: Fast Carving of Mixture-of-Experts for Efficient LLM Inference

Resumen

Support