Selbst-MoE: Auf dem Weg zu kompositorischen großen Sprachmodellen mit selbstspezialisierten Experten
Self-MoE: Towards Compositional Large Language Models with Self-Specialized Experts
June 17, 2024
Autoren: Junmo Kang, Leonid Karlinsky, Hongyin Luo, Zhen Wang, Jacob Hansen, James Glass, David Cox, Rameswar Panda, Rogerio Feris, Alan Ritter
cs.AI
Zusammenfassung
Wir präsentieren Self-MoE, einen Ansatz, der ein monolithisches LLM in ein zusammengesetztes, modulares System von selbstspezialisierten Experten namens MiXSE (MiXture of Self-specialized Experts) umwandelt. Unser Ansatz nutzt die Selbstspezialisierung, die Expertenmodule mithilfe von selbstgenerierten synthetischen Daten konstruiert, die jeweils mit einem gemeinsamen Basis-LLM ausgestattet sind und eine selbstoptimierte Routenführung integrieren. Dies ermöglicht eine dynamische und fähigkeitsspezifische Bearbeitung verschiedener Zielaufgaben, wodurch die Gesamtfähigkeiten verbessert werden, ohne umfangreiche menschlich gelabelte Daten und zusätzliche Parameter. Unsere empirischen Ergebnisse zeigen, dass die Spezialisierung von LLMs potenzielle Kompromisse bei der Leistungsfähigkeit auf nicht spezialisierten Aufgaben aufzeigen kann. Andererseits zeigt unser Self-MoE signifikante Verbesserungen gegenüber dem Basis-LLM in verschiedenen Benchmarks wie Wissen, Schlussfolgerung, Mathematik und Codierung. Es übertrifft auch konsistent andere Methoden, einschließlich Instanzfusion und Gewichtsfusion, und bietet gleichzeitig eine bessere Flexibilität und Interpretierbarkeit durch das Design mit semantischen Experten und Routenführung. Unsere Ergebnisse unterstreichen die entscheidende Rolle der Modularität und das Potenzial der Selbstverbesserung bei der Erreichung effizienter, skalierbarer und anpassungsfähiger Systeme.
English
We present Self-MoE, an approach that transforms a monolithic LLM into a
compositional, modular system of self-specialized experts, named MiXSE (MiXture
of Self-specialized Experts). Our approach leverages self-specialization, which
constructs expert modules using self-generated synthetic data, each equipped
with a shared base LLM and incorporating self-optimized routing. This allows
for dynamic and capability-specific handling of various target tasks, enhancing
overall capabilities, without extensive human-labeled data and added
parameters. Our empirical results reveal that specializing LLMs may exhibit
potential trade-offs in performances on non-specialized tasks. On the other
hand, our Self-MoE demonstrates substantial improvements over the base LLM
across diverse benchmarks such as knowledge, reasoning, math, and coding. It
also consistently outperforms other methods, including instance merging and
weight merging, while offering better flexibility and interpretability by
design with semantic experts and routing. Our findings highlight the critical
role of modularity and the potential of self-improvement in achieving
efficient, scalable, and adaptable systems.Summary
AI-Generated Summary