ChatPaper.aiChatPaper

Self-MoE: 자기 전문화 전문가를 통한 구성적 대형 언어 모델로의 접근

Self-MoE: Towards Compositional Large Language Models with Self-Specialized Experts

June 17, 2024
저자: Junmo Kang, Leonid Karlinsky, Hongyin Luo, Zhen Wang, Jacob Hansen, James Glass, David Cox, Rameswar Panda, Rogerio Feris, Alan Ritter
cs.AI

초록

우리는 단일화된 대형 언어 모델(LLM)을 자가 전문가들의 모듈식 조합 시스템인 MiXSE(MiXture of Self-specialized Experts)로 변환하는 Self-MoE 접근법을 제안합니다. 본 접근법은 자가 생성된 합성 데이터를 활용하여 전문가 모듈을 구성하는 자가 전문화(self-specialization)를 활용하며, 각 모듈은 공유 기반 LLM과 자가 최적화 라우팅을 포함합니다. 이를 통해 다양한 목표 작업을 동적이고 능력별로 처리할 수 있어, 방대한 인간 주석 데이터와 추가 파라미터 없이도 전반적인 역량을 강화합니다. 실험 결과, LLM의 전문화는 비전문화 작업에서 성능 상의 트레이드오프를 보일 수 있음을 나타냅니다. 반면, Self-MoE는 지식, 추론, 수학, 코딩 등 다양한 벤치마크에서 기반 LLM 대비 상당한 개선을 보였습니다. 또한 인스턴스 병합 및 가중치 병합을 포함한 다른 방법들을 일관되게 능가하며, 의미론적 전문가와 라우팅을 통해 설계상 더 나은 유연성과 해석 가능성을 제공합니다. 본 연구 결과는 모듈성의 중요성과 효율적, 확장 가능하며 적응형 시스템을 달성하기 위한 자기 개선의 잠재력을 강조합니다.
English
We present Self-MoE, an approach that transforms a monolithic LLM into a compositional, modular system of self-specialized experts, named MiXSE (MiXture of Self-specialized Experts). Our approach leverages self-specialization, which constructs expert modules using self-generated synthetic data, each equipped with a shared base LLM and incorporating self-optimized routing. This allows for dynamic and capability-specific handling of various target tasks, enhancing overall capabilities, without extensive human-labeled data and added parameters. Our empirical results reveal that specializing LLMs may exhibit potential trade-offs in performances on non-specialized tasks. On the other hand, our Self-MoE demonstrates substantial improvements over the base LLM across diverse benchmarks such as knowledge, reasoning, math, and coding. It also consistently outperforms other methods, including instance merging and weight merging, while offering better flexibility and interpretability by design with semantic experts and routing. Our findings highlight the critical role of modularity and the potential of self-improvement in achieving efficient, scalable, and adaptable systems.

Summary

AI-Generated Summary

PDF154December 3, 2024