전문가에게 본연의 업무를 맡기자: 희소 아키텍처 대규모 언어 모델을 위한 전문가 맞춤형 미세 조정Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for
Sparse Architectural Large Language Models
매개변수 효율적 미세 조정(PEFT)은 제한된 자원으로 대규모 언어 모델(LLM)을 맞춤화하는 데 필수적입니다. 밀집 아키텍처(dense-architecture) LLM을 위한 다양한 PEFT 방법들이 제안되었지만, 희소 아키텍처(sparse-architecture) LLM을 위한 PEFT는 아직 충분히 탐구되지 않았습니다. 본 연구에서는 전문가 혼합(Mixture-of-Experts, MoE) 아키텍처를 가진 LLM을 위한 PEFT 방법을 탐구하며, 주요 내용은 다음과 같습니다: (1) 맞춤화된 작업에서 활성화된 전문가들의 분산 정도를 조사한 결과, 특정 작업에 대한 라우팅 분포는 매우 집중되는 경향이 있는 반면, 활성화된 전문가의 분포는 작업 간에 크게 달라짐을 발견했습니다. (2) 하위 작업과 가장 관련이 높은 전문가를 조정하고 나머지 전문가와 모듈은 고정하는 전문가 특화 미세 조정(Expert-Specialized Fine-Tuning, ESFT)을 제안합니다. 실험 결과, 우리의 방법은 조정 효율성을 향상시킬 뿐만 아니라 전체 매개변수 미세 조정의 성능을 따라가거나 심지어 능가함을 보여줍니다. (3) MoE 아키텍처가 전문가 특화 미세 조정에 미치는 영향을 추가로 분석합니다. 더 세분화된 전문가를 가진 MoE 모델이 하위 작업과 가장 관련이 높은 전문가 조합을 선택하는 데 더 유리하며, 이로 인해 훈련 효율성과 효과성이 모두 향상됨을 발견했습니다.