ChatPaper.aiChatPaper

전문가에게 본연의 업무를 맡기자: 희소 아키텍처 대규모 언어 모델을 위한 전문가 맞춤형 미세 조정

Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models

July 2, 2024
저자: Zihan Wang, Deli Chen, Damai Dai, Runxin Xu, Zhuoshu Li, Y. Wu
cs.AI

초록

매개변수 효율적 미세 조정(PEFT)은 제한된 자원으로 대규모 언어 모델(LLM)을 맞춤화하는 데 필수적입니다. 밀집 아키텍처(dense-architecture) LLM을 위한 다양한 PEFT 방법들이 제안되었지만, 희소 아키텍처(sparse-architecture) LLM을 위한 PEFT는 아직 충분히 탐구되지 않았습니다. 본 연구에서는 전문가 혼합(Mixture-of-Experts, MoE) 아키텍처를 가진 LLM을 위한 PEFT 방법을 탐구하며, 주요 내용은 다음과 같습니다: (1) 맞춤화된 작업에서 활성화된 전문가들의 분산 정도를 조사한 결과, 특정 작업에 대한 라우팅 분포는 매우 집중되는 경향이 있는 반면, 활성화된 전문가의 분포는 작업 간에 크게 달라짐을 발견했습니다. (2) 하위 작업과 가장 관련이 높은 전문가를 조정하고 나머지 전문가와 모듈은 고정하는 전문가 특화 미세 조정(Expert-Specialized Fine-Tuning, ESFT)을 제안합니다. 실험 결과, 우리의 방법은 조정 효율성을 향상시킬 뿐만 아니라 전체 매개변수 미세 조정의 성능을 따라가거나 심지어 능가함을 보여줍니다. (3) MoE 아키텍처가 전문가 특화 미세 조정에 미치는 영향을 추가로 분석합니다. 더 세분화된 전문가를 가진 MoE 모델이 하위 작업과 가장 관련이 높은 전문가 조합을 선택하는 데 더 유리하며, 이로 인해 훈련 효율성과 효과성이 모두 향상됨을 발견했습니다.
English
Parameter-efficient fine-tuning (PEFT) is crucial for customizing Large Language Models (LLMs) with constrained resources. Although there have been various PEFT methods for dense-architecture LLMs, PEFT for sparse-architecture LLMs is still underexplored. In this work, we study the PEFT method for LLMs with the Mixture-of-Experts (MoE) architecture and the contents of this work are mainly threefold: (1) We investigate the dispersion degree of the activated experts in customized tasks, and found that the routing distribution for a specific task tends to be highly concentrated, while the distribution of activated experts varies significantly across different tasks. (2) We propose Expert-Specialized Fine-Tuning, or ESFT, which tunes the experts most relevant to downstream tasks while freezing the other experts and modules; experimental results demonstrate that our method not only improves the tuning efficiency, but also matches or even surpasses the performance of full-parameter fine-tuning. (3) We further analyze the impact of the MoE architecture on expert-specialized fine-tuning. We find that MoE models with finer-grained experts are more advantageous in selecting the combination of experts that are most relevant to downstream tasks, thereby enhancing both the training efficiency and effectiveness.

Summary

AI-Generated Summary

PDF431November 28, 2024