Self-MoE: Rumo a Modelos de Linguagem de Grande Escala Composicionais com Especialistas Autoespecializados
Self-MoE: Towards Compositional Large Language Models with Self-Specialized Experts
June 17, 2024
Autores: Junmo Kang, Leonid Karlinsky, Hongyin Luo, Zhen Wang, Jacob Hansen, James Glass, David Cox, Rameswar Panda, Rogerio Feris, Alan Ritter
cs.AI
Resumo
Apresentamos o Self-MoE, uma abordagem que transforma um LLM monolítico em um sistema composicional e modular de especialistas autoespecializados, denominado MiXSE (MiXture of Self-specialized Experts). Nossa abordagem aproveita a autoespecialização, que constrói módulos de especialistas utilizando dados sintéticos autogerados, cada um equipado com um LLM base compartilhado e incorporando roteamento auto-otimizado. Isso permite o tratamento dinâmico e específico de diversas tarefas-alvo, aprimorando as capacidades gerais sem a necessidade de dados extensivamente rotulados por humanos ou parâmetros adicionais. Nossos resultados empíricos revelam que a especialização de LLMs pode apresentar possíveis compensações no desempenho em tarefas não especializadas. Por outro lado, nosso Self-MoE demonstra melhorias substanciais em relação ao LLM base em diversos benchmarks, como conhecimento, raciocínio, matemática e codificação. Ele também supera consistentemente outros métodos, incluindo fusão de instâncias e fusão de pesos, ao mesmo tempo que oferece maior flexibilidade e interpretabilidade por design, com especialistas semânticos e roteamento. Nossas descobertas destacam o papel crítico da modularidade e o potencial de autoatualização na criação de sistemas eficientes, escaláveis e adaptáveis.
English
We present Self-MoE, an approach that transforms a monolithic LLM into a
compositional, modular system of self-specialized experts, named MiXSE (MiXture
of Self-specialized Experts). Our approach leverages self-specialization, which
constructs expert modules using self-generated synthetic data, each equipped
with a shared base LLM and incorporating self-optimized routing. This allows
for dynamic and capability-specific handling of various target tasks, enhancing
overall capabilities, without extensive human-labeled data and added
parameters. Our empirical results reveal that specializing LLMs may exhibit
potential trade-offs in performances on non-specialized tasks. On the other
hand, our Self-MoE demonstrates substantial improvements over the base LLM
across diverse benchmarks such as knowledge, reasoning, math, and coding. It
also consistently outperforms other methods, including instance merging and
weight merging, while offering better flexibility and interpretability by
design with semantic experts and routing. Our findings highlight the critical
role of modularity and the potential of self-improvement in achieving
efficient, scalable, and adaptable systems.