Self-MoE : Vers des modèles de langage de grande taille compositionnels avec des experts auto-spécialisés
Self-MoE: Towards Compositional Large Language Models with Self-Specialized Experts
June 17, 2024
Auteurs: Junmo Kang, Leonid Karlinsky, Hongyin Luo, Zhen Wang, Jacob Hansen, James Glass, David Cox, Rameswar Panda, Rogerio Feris, Alan Ritter
cs.AI
Résumé
Nous présentons Self-MoE, une approche qui transforme un modèle de langage monolithique (LLM) en un système modulaire et compositionnel d'experts auto-spécialisés, nommé MiXSE (MiXture of Self-specialized Experts). Notre méthode exploite l'auto-spécialisation, qui construit des modules experts à l'aide de données synthétiques auto-générées, chacun étant équipé d'un modèle de langage de base partagé et intégrant un routage auto-optimisé. Cela permet une gestion dynamique et spécifique aux capacités de diverses tâches cibles, améliorant les performances globales sans nécessiter de grandes quantités de données annotées manuellement ni de paramètres supplémentaires. Nos résultats empiriques révèlent que la spécialisation des LLM peut présenter des compromis potentiels dans les performances sur des tâches non spécialisées. D'autre part, notre Self-MoE démontre des améliorations substantielles par rapport au LLM de base sur divers benchmarks tels que la connaissance, le raisonnement, les mathématiques et la programmation. Il surpasse également de manière constante d'autres méthodes, y compris la fusion d'instances et la fusion de poids, tout en offrant une meilleure flexibilité et interprétabilité grâce à sa conception avec des experts sémantiques et un routage. Nos résultats soulignent le rôle crucial de la modularité et le potentiel d'auto-amélioration pour réaliser des systèmes efficaces, évolutifs et adaptables.
English
We present Self-MoE, an approach that transforms a monolithic LLM into a
compositional, modular system of self-specialized experts, named MiXSE (MiXture
of Self-specialized Experts). Our approach leverages self-specialization, which
constructs expert modules using self-generated synthetic data, each equipped
with a shared base LLM and incorporating self-optimized routing. This allows
for dynamic and capability-specific handling of various target tasks, enhancing
overall capabilities, without extensive human-labeled data and added
parameters. Our empirical results reveal that specializing LLMs may exhibit
potential trade-offs in performances on non-specialized tasks. On the other
hand, our Self-MoE demonstrates substantial improvements over the base LLM
across diverse benchmarks such as knowledge, reasoning, math, and coding. It
also consistently outperforms other methods, including instance merging and
weight merging, while offering better flexibility and interpretability by
design with semantic experts and routing. Our findings highlight the critical
role of modularity and the potential of self-improvement in achieving
efficient, scalable, and adaptable systems.Summary
AI-Generated Summary