Laat de expert zich bij zijn leest houden: Expert-specifieke fine-tuning voor schaarse architecturale grote taalmodellen
Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models
July 2, 2024
Auteurs: Zihan Wang, Deli Chen, Damai Dai, Runxin Xu, Zhuoshu Li, Y. Wu
cs.AI
Samenvatting
Parameter-efficient fine-tuning (PEFT) is essentieel voor het aanpassen van Large Language Models (LLMs) met beperkte middelen. Hoewel er verschillende PEFT-methoden bestaan voor LLMs met een dense-architectuur, is PEFT voor LLMs met een sparse-architectuur nog onderbelicht. In dit werk bestuderen we de PEFT-methode voor LLMs met de Mixture-of-Experts (MoE)-architectuur, en de inhoud van dit werk bestaat voornamelijk uit drie onderdelen: (1) We onderzoeken de mate van spreiding van de geactiveerde experts in aangepaste taken, en ontdekten dat de routeringsverdeling voor een specifieke taak sterk geconcentreerd is, terwijl de verdeling van geactiveerde experts aanzienlijk varieert tussen verschillende taken. (2) We stellen Expert-Specialized Fine-Tuning, of ESFT, voor, waarbij de experts die het meest relevant zijn voor downstream-taken worden afgestemd, terwijl de andere experts en modules worden bevroren; experimentele resultaten tonen aan dat onze methode niet alleen de afstemmingsefficiëntie verbetert, maar ook de prestaties van full-parameter fine-tuning evenaart of zelfs overtreft. (3) We analyseren verder de impact van de MoE-architectuur op expert-specialized fine-tuning. We ontdekken dat MoE-modellen met fijnmazigere experts meer voordeel hebben bij het selecteren van de combinatie van experts die het meest relevant zijn voor downstream-taken, waardoor zowel de trainings efficiëntie als de effectiviteit worden verbeterd.
English
Parameter-efficient fine-tuning (PEFT) is crucial for customizing Large
Language Models (LLMs) with constrained resources. Although there have been
various PEFT methods for dense-architecture LLMs, PEFT for sparse-architecture
LLMs is still underexplored. In this work, we study the PEFT method for LLMs
with the Mixture-of-Experts (MoE) architecture and the contents of this work
are mainly threefold: (1) We investigate the dispersion degree of the activated
experts in customized tasks, and found that the routing distribution for a
specific task tends to be highly concentrated, while the distribution of
activated experts varies significantly across different tasks. (2) We propose
Expert-Specialized Fine-Tuning, or ESFT, which tunes the experts most relevant
to downstream tasks while freezing the other experts and modules; experimental
results demonstrate that our method not only improves the tuning efficiency,
but also matches or even surpasses the performance of full-parameter
fine-tuning. (3) We further analyze the impact of the MoE architecture on
expert-specialized fine-tuning. We find that MoE models with finer-grained
experts are more advantageous in selecting the combination of experts that are
most relevant to downstream tasks, thereby enhancing both the training
efficiency and effectiveness.