Self-MoE: Op weg naar compositorische grote taalmodellen met zelfgespecialiseerde experts
Self-MoE: Towards Compositional Large Language Models with Self-Specialized Experts
June 17, 2024
Auteurs: Junmo Kang, Leonid Karlinsky, Hongyin Luo, Zhen Wang, Jacob Hansen, James Glass, David Cox, Rameswar Panda, Rogerio Feris, Alan Ritter
cs.AI
Samenvatting
We presenteren Self-MoE, een benadering die een monolitisch LLM omvormt tot een compositioneel, modulair systeem van zelfgespecialiseerde experts, genaamd MiXSE (MiXture of Self-specialized Experts). Onze aanpak maakt gebruik van zelfspecialisatie, waarbij expertmodules worden geconstrueerd met behulp van zelfgegenereerde synthetische data, elk uitgerust met een gedeelde basis-LLM en voorzien van zelfgeoptimaliseerde routering. Hierdoor wordt dynamische en capaciteitsspecifieke verwerking van verschillende doeltaken mogelijk, wat de algehele capaciteiten verbetert, zonder uitgebreide door mensen gelabelde data en extra parameters. Onze empirische resultaten laten zien dat het specialiseren van LLM's potentiële afwegingen kan vertonen in prestaties op niet-gespecialiseerde taken. Aan de andere kant toont onze Self-MoE aanzienlijke verbeteringen ten opzichte van de basis-LLM over diverse benchmarks zoals kennis, redeneren, wiskunde en codering. Het presteert ook consistent beter dan andere methoden, waaronder instance merging en weight merging, terwijl het betere flexibiliteit en interpreteerbaarheid biedt door ontwerp met semantische experts en routering. Onze bevindingen benadrukken de cruciale rol van modulariteit en het potentieel van zelfverbetering in het bereiken van efficiënte, schaalbare en aanpasbare systemen.
English
We present Self-MoE, an approach that transforms a monolithic LLM into a
compositional, modular system of self-specialized experts, named MiXSE (MiXture
of Self-specialized Experts). Our approach leverages self-specialization, which
constructs expert modules using self-generated synthetic data, each equipped
with a shared base LLM and incorporating self-optimized routing. This allows
for dynamic and capability-specific handling of various target tasks, enhancing
overall capabilities, without extensive human-labeled data and added
parameters. Our empirical results reveal that specializing LLMs may exhibit
potential trade-offs in performances on non-specialized tasks. On the other
hand, our Self-MoE demonstrates substantial improvements over the base LLM
across diverse benchmarks such as knowledge, reasoning, math, and coding. It
also consistently outperforms other methods, including instance merging and
weight merging, while offering better flexibility and interpretability by
design with semantic experts and routing. Our findings highlight the critical
role of modularity and the potential of self-improvement in achieving
efficient, scalable, and adaptable systems.