Self-MoE: Hacia Modelos de Lenguaje de Gran Escala Compositivos con Expertos Auto-Especializados
Self-MoE: Towards Compositional Large Language Models with Self-Specialized Experts
June 17, 2024
Autores: Junmo Kang, Leonid Karlinsky, Hongyin Luo, Zhen Wang, Jacob Hansen, James Glass, David Cox, Rameswar Panda, Rogerio Feris, Alan Ritter
cs.AI
Resumen
Presentamos Self-MoE, un enfoque que transforma un LLM monolítico en un sistema composicional y modular de expertos autoespecializados, denominado MiXSE (Mezcla de Expertos Autoespecializados). Nuestro enfoque aprovecha la autoespecialización, que construye módulos de expertos utilizando datos sintéticos autogenerados, cada uno equipado con un LLM base compartido e incorporando enrutamiento autooptimizado. Esto permite un manejo dinámico y específico de diversas tareas objetivo, mejorando las capacidades generales sin necesidad de datos etiquetados por humanos ni parámetros adicionales. Nuestros resultados empíricos revelan que la especialización de LLMs puede presentar posibles compensaciones en el rendimiento de tareas no especializadas. Por otro lado, nuestro Self-MoE demuestra mejoras sustanciales sobre el LLM base en diversos puntos de referencia, como conocimiento, razonamiento, matemáticas y codificación. También supera consistentemente otros métodos, incluyendo la fusión de instancias y la fusión de pesos, mientras ofrece mayor flexibilidad e interpretabilidad por diseño con expertos semánticos y enrutamiento. Nuestros hallazgos destacan el papel crítico de la modularidad y el potencial de la auto-mejora para lograr sistemas eficientes, escalables y adaptables.
English
We present Self-MoE, an approach that transforms a monolithic LLM into a
compositional, modular system of self-specialized experts, named MiXSE (MiXture
of Self-specialized Experts). Our approach leverages self-specialization, which
constructs expert modules using self-generated synthetic data, each equipped
with a shared base LLM and incorporating self-optimized routing. This allows
for dynamic and capability-specific handling of various target tasks, enhancing
overall capabilities, without extensive human-labeled data and added
parameters. Our empirical results reveal that specializing LLMs may exhibit
potential trade-offs in performances on non-specialized tasks. On the other
hand, our Self-MoE demonstrates substantial improvements over the base LLM
across diverse benchmarks such as knowledge, reasoning, math, and coding. It
also consistently outperforms other methods, including instance merging and
weight merging, while offering better flexibility and interpretability by
design with semantic experts and routing. Our findings highlight the critical
role of modularity and the potential of self-improvement in achieving
efficient, scalable, and adaptable systems.Summary
AI-Generated Summary