Selbst-MoE: Auf dem Weg zu kompositorischen großen Sprachmodellen mit selbstspezialisierten Experten

papers.abstract

Wir präsentieren Self-MoE, einen Ansatz, der ein monolithisches LLM in ein zusammengesetztes, modulares System von selbstspezialisierten Experten namens MiXSE (MiXture of Self-specialized Experts) umwandelt. Unser Ansatz nutzt die Selbstspezialisierung, die Expertenmodule mithilfe von selbstgenerierten synthetischen Daten konstruiert, die jeweils mit einem gemeinsamen Basis-LLM ausgestattet sind und eine selbstoptimierte Routenführung integrieren. Dies ermöglicht eine dynamische und fähigkeitsspezifische Bearbeitung verschiedener Zielaufgaben, wodurch die Gesamtfähigkeiten verbessert werden, ohne umfangreiche menschlich gelabelte Daten und zusätzliche Parameter. Unsere empirischen Ergebnisse zeigen, dass die Spezialisierung von LLMs potenzielle Kompromisse bei der Leistungsfähigkeit auf nicht spezialisierten Aufgaben aufzeigen kann. Andererseits zeigt unser Self-MoE signifikante Verbesserungen gegenüber dem Basis-LLM in verschiedenen Benchmarks wie Wissen, Schlussfolgerung, Mathematik und Codierung. Es übertrifft auch konsistent andere Methoden, einschließlich Instanzfusion und Gewichtsfusion, und bietet gleichzeitig eine bessere Flexibilität und Interpretierbarkeit durch das Design mit semantischen Experten und Routenführung. Unsere Ergebnisse unterstreichen die entscheidende Rolle der Modularität und das Potenzial der Selbstverbesserung bei der Erreichung effizienter, skalierbarer und anpassungsfähiger Systeme.

English

We present Self-MoE, an approach that transforms a monolithic LLM into a compositional, modular system of self-specialized experts, named MiXSE (MiXture of Self-specialized Experts). Our approach leverages self-specialization, which constructs expert modules using self-generated synthetic data, each equipped with a shared base LLM and incorporating self-optimized routing. This allows for dynamic and capability-specific handling of various target tasks, enhancing overall capabilities, without extensive human-labeled data and added parameters. Our empirical results reveal that specializing LLMs may exhibit potential trade-offs in performances on non-specialized tasks. On the other hand, our Self-MoE demonstrates substantial improvements over the base LLM across diverse benchmarks such as knowledge, reasoning, math, and coding. It also consistently outperforms other methods, including instance merging and weight merging, while offering better flexibility and interpretability by design with semantic experts and routing. Our findings highlight the critical role of modularity and the potential of self-improvement in achieving efficient, scalable, and adaptable systems.

Selbst-MoE: Auf dem Weg zu kompositorischen großen Sprachmodellen mit selbstspezialisierten Experten

Self-MoE: Towards Compositional Large Language Models with Self-Specialized Experts

papers.abstract

Support