CMoE: Snelle vormgeving van Mixture-of-Experts voor Efficiënte LLM Inferentie
CMoE: Fast Carving of Mixture-of-Experts for Efficient LLM Inference
February 6, 2025
Auteurs: Zehua Pei, Lancheng Zou, Hui-Ling Zhen, Xianzhi Yu, Wulong Liu, Sinno Jialin Pan, Mingxuan Yuan, Bei Yu
cs.AI
Samenvatting
Grote taalmodellen (LLM's) behalen indrukwekkende prestaties door het schalen van modelparameters, maar dit gaat gepaard met aanzienlijke inferentie-overhead. Feedforward-netwerken (FFN's), die de parameters van LLM's domineren, vertonen een hoge activatiesparsiteit in verborgen neuronen. Om hiervan gebruik te maken, hebben onderzoekers voorgesteld om een mengsel-van-experts (MoE) architectuur te gebruiken, waarbij slechts een subset van parameters geactiveerd wordt. Echter, bestaande benaderingen vereisen vaak uitgebreide trainingsgegevens en middelen, wat hun praktische toepasbaarheid beperkt. Wij stellen CMoE (Carved MoE) voor, een nieuw raamwerk om op efficiënte wijze MoE-modellen uit dichte modellen te snijden. CMoE behaalt opmerkelijke prestaties door middel van efficiënte expertgroepering en lichtgewicht aanpassing. Allereerst worden neuronen gegroepeerd in gedeelde en gerouteerde experts op basis van activatiesnelheden. Vervolgens construeren we een routeringsmechanisme zonder vanaf nul te trainen, waarbij een differentieerbaar routeringsproces en belastingbalancering worden opgenomen. Met bescheiden gegevens produceert CMoE binnen vijf minuten een goed ontworpen, bruikbare MoE vanuit een 7B dicht model. Met lichtgewicht fine-tuning bereikt het een hoogwaardig herstel van de prestaties in minder dan een uur. We stellen onze code openbaar beschikbaar op https://github.com/JarvisPei/CMoE.
English
Large language models (LLMs) achieve impressive performance by scaling model
parameters, but this comes with significant inference overhead. Feed-forward
networks (FFNs), which dominate LLM parameters, exhibit high activation
sparsity in hidden neurons. To exploit this, researchers have proposed using a
mixture-of-experts (MoE) architecture, where only a subset of parameters is
activated. However, existing approaches often require extensive training data
and resources, limiting their practicality. We propose CMoE (Carved MoE), a
novel framework to efficiently carve MoE models from dense models. CMoE
achieves remarkable performance through efficient expert grouping and
lightweight adaptation. First, neurons are grouped into shared and routed
experts based on activation rates. Next, we construct a routing mechanism
without training from scratch, incorporating a differentiable routing process
and load balancing. Using modest data, CMoE produces a well-designed, usable
MoE from a 7B dense model within five minutes. With lightweight fine-tuning, it
achieves high-performance recovery in under an hour. We make our code publicly
available at https://github.com/JarvisPei/CMoE.Summary
AI-Generated Summary