전문가에게 본연의 업무를 맡기자: 희소 아키텍처 대규모 언어 모델을 위한 전문가 맞춤형 미세 조정
Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models
July 2, 2024
저자: Zihan Wang, Deli Chen, Damai Dai, Runxin Xu, Zhuoshu Li, Y. Wu
cs.AI
초록
매개변수 효율적 미세 조정(PEFT)은 제한된 자원으로 대규모 언어 모델(LLM)을 맞춤화하는 데 필수적입니다. 밀집 아키텍처(dense-architecture) LLM을 위한 다양한 PEFT 방법들이 제안되었지만, 희소 아키텍처(sparse-architecture) LLM을 위한 PEFT는 아직 충분히 탐구되지 않았습니다. 본 연구에서는 전문가 혼합(Mixture-of-Experts, MoE) 아키텍처를 가진 LLM을 위한 PEFT 방법을 탐구하며, 주요 내용은 다음과 같습니다: (1) 맞춤화된 작업에서 활성화된 전문가들의 분산 정도를 조사한 결과, 특정 작업에 대한 라우팅 분포는 매우 집중되는 경향이 있는 반면, 활성화된 전문가의 분포는 작업 간에 크게 달라짐을 발견했습니다. (2) 하위 작업과 가장 관련이 높은 전문가를 조정하고 나머지 전문가와 모듈은 고정하는 전문가 특화 미세 조정(Expert-Specialized Fine-Tuning, ESFT)을 제안합니다. 실험 결과, 우리의 방법은 조정 효율성을 향상시킬 뿐만 아니라 전체 매개변수 미세 조정의 성능을 따라가거나 심지어 능가함을 보여줍니다. (3) MoE 아키텍처가 전문가 특화 미세 조정에 미치는 영향을 추가로 분석합니다. 더 세분화된 전문가를 가진 MoE 모델이 하위 작업과 가장 관련이 높은 전문가 조합을 선택하는 데 더 유리하며, 이로 인해 훈련 효율성과 효과성이 모두 향상됨을 발견했습니다.
English
Parameter-efficient fine-tuning (PEFT) is crucial for customizing Large
Language Models (LLMs) with constrained resources. Although there have been
various PEFT methods for dense-architecture LLMs, PEFT for sparse-architecture
LLMs is still underexplored. In this work, we study the PEFT method for LLMs
with the Mixture-of-Experts (MoE) architecture and the contents of this work
are mainly threefold: (1) We investigate the dispersion degree of the activated
experts in customized tasks, and found that the routing distribution for a
specific task tends to be highly concentrated, while the distribution of
activated experts varies significantly across different tasks. (2) We propose
Expert-Specialized Fine-Tuning, or ESFT, which tunes the experts most relevant
to downstream tasks while freezing the other experts and modules; experimental
results demonstrate that our method not only improves the tuning efficiency,
but also matches or even surpasses the performance of full-parameter
fine-tuning. (3) We further analyze the impact of the MoE architecture on
expert-specialized fine-tuning. We find that MoE models with finer-grained
experts are more advantageous in selecting the combination of experts that are
most relevant to downstream tasks, thereby enhancing both the training
efficiency and effectiveness.Summary
AI-Generated Summary