Laat de expert zich bij zijn leest houden: Expert-specifieke fine-tuning voor schaarse architecturale grote taalmodellen

Samenvatting

Parameter-efficient fine-tuning (PEFT) is essentieel voor het aanpassen van Large Language Models (LLMs) met beperkte middelen. Hoewel er verschillende PEFT-methoden bestaan voor LLMs met een dense-architectuur, is PEFT voor LLMs met een sparse-architectuur nog onderbelicht. In dit werk bestuderen we de PEFT-methode voor LLMs met de Mixture-of-Experts (MoE)-architectuur, en de inhoud van dit werk bestaat voornamelijk uit drie onderdelen: (1) We onderzoeken de mate van spreiding van de geactiveerde experts in aangepaste taken, en ontdekten dat de routeringsverdeling voor een specifieke taak sterk geconcentreerd is, terwijl de verdeling van geactiveerde experts aanzienlijk varieert tussen verschillende taken. (2) We stellen Expert-Specialized Fine-Tuning, of ESFT, voor, waarbij de experts die het meest relevant zijn voor downstream-taken worden afgestemd, terwijl de andere experts en modules worden bevroren; experimentele resultaten tonen aan dat onze methode niet alleen de afstemmingsefficiëntie verbetert, maar ook de prestaties van full-parameter fine-tuning evenaart of zelfs overtreft. (3) We analyseren verder de impact van de MoE-architectuur op expert-specialized fine-tuning. We ontdekken dat MoE-modellen met fijnmazigere experts meer voordeel hebben bij het selecteren van de combinatie van experts die het meest relevant zijn voor downstream-taken, waardoor zowel de trainings efficiëntie als de effectiviteit worden verbeterd.

English

Parameter-efficient fine-tuning (PEFT) is crucial for customizing Large Language Models (LLMs) with constrained resources. Although there have been various PEFT methods for dense-architecture LLMs, PEFT for sparse-architecture LLMs is still underexplored. In this work, we study the PEFT method for LLMs with the Mixture-of-Experts (MoE) architecture and the contents of this work are mainly threefold: (1) We investigate the dispersion degree of the activated experts in customized tasks, and found that the routing distribution for a specific task tends to be highly concentrated, while the distribution of activated experts varies significantly across different tasks. (2) We propose Expert-Specialized Fine-Tuning, or ESFT, which tunes the experts most relevant to downstream tasks while freezing the other experts and modules; experimental results demonstrate that our method not only improves the tuning efficiency, but also matches or even surpasses the performance of full-parameter fine-tuning. (3) We further analyze the impact of the MoE architecture on expert-specialized fine-tuning. We find that MoE models with finer-grained experts are more advantageous in selecting the combination of experts that are most relevant to downstream tasks, thereby enhancing both the training efficiency and effectiveness.

Laat de expert zich bij zijn leest houden: Expert-specifieke fine-tuning voor schaarse architecturale grote taalmodellen

Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models

Samenvatting

Support