CMoE : Sculpture rapide de Mélange d'Experts pour une Inférence LLM Efficace
CMoE: Fast Carving of Mixture-of-Experts for Efficient LLM Inference
February 6, 2025
Auteurs: Zehua Pei, Lancheng Zou, Hui-Ling Zhen, Xianzhi Yu, Wulong Liu, Sinno Jialin Pan, Mingxuan Yuan, Bei Yu
cs.AI
Résumé
Les grands modèles de langage (LLM) atteignent des performances impressionnantes en augmentant les paramètres du modèle, mais cela s'accompagne d'une surcharge significative lors de l'inférence. Les réseaux à propagation avant (FFN), qui dominent les paramètres des LLM, présentent une forte parcimonie d'activation dans les neurones cachés. Pour exploiter cela, les chercheurs ont proposé d'utiliser une architecture de mélange d'experts (MoE), où seul un sous-ensemble de paramètres est activé. Cependant, les approches existantes nécessitent souvent des données d'entraînement et des ressources étendues, limitant leur praticité. Nous proposons CMoE (Carved MoE), un cadre novateur pour sculpter efficacement des modèles MoE à partir de modèles denses. CMoE atteint des performances remarquables grâce à un regroupement efficace des experts et à une adaptation légère. Tout d'abord, les neurones sont regroupés en experts partagés et routés en fonction des taux d'activation. Ensuite, nous construisons un mécanisme de routage sans entraînement à partir de zéro, en incorporant un processus de routage différenciable et un équilibrage de charge. En utilisant des données modestes, CMoE produit un MoE bien conçu et utilisable à partir d'un modèle dense de 7 milliards de paramètres en moins de cinq minutes. Avec un ajustement léger, il parvient à une récupération de haute performance en moins d'une heure. Nous mettons notre code à disposition du public sur https://github.com/JarvisPei/CMoE.
English
Large language models (LLMs) achieve impressive performance by scaling model
parameters, but this comes with significant inference overhead. Feed-forward
networks (FFNs), which dominate LLM parameters, exhibit high activation
sparsity in hidden neurons. To exploit this, researchers have proposed using a
mixture-of-experts (MoE) architecture, where only a subset of parameters is
activated. However, existing approaches often require extensive training data
and resources, limiting their practicality. We propose CMoE (Carved MoE), a
novel framework to efficiently carve MoE models from dense models. CMoE
achieves remarkable performance through efficient expert grouping and
lightweight adaptation. First, neurons are grouped into shared and routed
experts based on activation rates. Next, we construct a routing mechanism
without training from scratch, incorporating a differentiable routing process
and load balancing. Using modest data, CMoE produces a well-designed, usable
MoE from a 7B dense model within five minutes. With lightweight fine-tuning, it
achieves high-performance recovery in under an hour. We make our code publicly
available at https://github.com/JarvisPei/CMoE.