Само-MoE: к составным большим языковым моделям с самоспециализированными экспертами
Self-MoE: Towards Compositional Large Language Models with Self-Specialized Experts
June 17, 2024
Авторы: Junmo Kang, Leonid Karlinsky, Hongyin Luo, Zhen Wang, Jacob Hansen, James Glass, David Cox, Rameswar Panda, Rogerio Feris, Alan Ritter
cs.AI
Аннотация
Мы представляем Self-MoE, подход, который преобразует монолитный LLM в композиционную, модульную систему самоспециализированных экспертов, названную MiXSE (Смесь Самоспециализированных Экспертов). Наш подход использует самоспециализацию, которая создает экспертные модули, используя самосгенерированные синтетические данные, каждый из которых оснащен общим базовым LLM и включает в себя самооптимизированную маршрутизацию. Это позволяет динамически и специфически для возможностей обрабатывать различные целевые задачи, улучшая общие возможности, без обширных данных, размеченных человеком, и дополнительных параметров. Наши эмпирические результаты показывают, что специализация LLM может проявлять потенциальные компромиссы в производительности на неспециализированных задачах. С другой стороны, наш Self-MoE демонстрирует существенные улучшения по сравнению с базовым LLM на различных бенчмарках, таких как знание, рассуждение, математика и программирование. Он также последовательно превосходит другие методы, включая объединение экземпляров и объединение весов, предлагая лучшую гибкость и интерпретируемость по дизайну с семантическими экспертами и маршрутизацией. Наши результаты подчеркивают важную роль модульности и потенциал самосовершенствования в достижении эффективных, масштабируемых и адаптивных систем.
English
We present Self-MoE, an approach that transforms a monolithic LLM into a
compositional, modular system of self-specialized experts, named MiXSE (MiXture
of Self-specialized Experts). Our approach leverages self-specialization, which
constructs expert modules using self-generated synthetic data, each equipped
with a shared base LLM and incorporating self-optimized routing. This allows
for dynamic and capability-specific handling of various target tasks, enhancing
overall capabilities, without extensive human-labeled data and added
parameters. Our empirical results reveal that specializing LLMs may exhibit
potential trade-offs in performances on non-specialized tasks. On the other
hand, our Self-MoE demonstrates substantial improvements over the base LLM
across diverse benchmarks such as knowledge, reasoning, math, and coding. It
also consistently outperforms other methods, including instance merging and
weight merging, while offering better flexibility and interpretability by
design with semantic experts and routing. Our findings highlight the critical
role of modularity and the potential of self-improvement in achieving
efficient, scalable, and adaptable systems.Summary
AI-Generated Summary