Der Experte soll sich auf sein Fachgebiet konzentrieren: Expertenspezifisches Feinabstimmen für spärliche architektonische große Sprachmodelle.
Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models
July 2, 2024
Autoren: Zihan Wang, Deli Chen, Damai Dai, Runxin Xu, Zhuoshu Li, Y. Wu
cs.AI
Zusammenfassung
Die parameter-effiziente Feinabstimmung (PEFT) ist entscheidend für die Anpassung von großen Sprachmodellen (LLMs) mit begrenzten Ressourcen. Obwohl es verschiedene PEFT-Methoden für dicht-architektonische LLMs gibt, ist PEFT für LLMs mit spärlicher Architektur noch wenig erforscht. In dieser Arbeit untersuchen wir die PEFT-Methode für LLMs mit der Architektur des Mixture-of-Experts (MoE) und die Inhalte dieser Arbeit sind hauptsächlich dreifach: (1) Wir untersuchen den Streuungsgrad der aktivierten Experten in angepassten Aufgaben und stellten fest, dass die Routing-Verteilung für eine spezifische Aufgabe dazu neigt, sehr konzentriert zu sein, während die Verteilung der aktivierten Experten sich zwischen verschiedenen Aufgaben signifikant unterscheidet. (2) Wir schlagen Experten-spezialisierte Feinabstimmung, oder ESFT, vor, die die für nachgelagerte Aufgaben relevantesten Experten abstimmt, während die anderen Experten und Module eingefroren werden; experimentelle Ergebnisse zeigen, dass unsere Methode nicht nur die Abstimmungseffizienz verbessert, sondern auch die Leistung der Feinabstimmung mit vollen Parametern erreicht oder sogar übertrifft. (3) Wir analysieren weiterhin den Einfluss der MoE-Architektur auf die experten-spezialisierte Feinabstimmung. Wir stellen fest, dass MoE-Modelle mit feiner granulierten Experten vorteilhafter sind bei der Auswahl der Kombination von Experten, die für nachgelagerte Aufgaben am relevantesten sind, wodurch sowohl die Trainings-Effizienz als auch die Effektivität gesteigert werden.
English
Parameter-efficient fine-tuning (PEFT) is crucial for customizing Large
Language Models (LLMs) with constrained resources. Although there have been
various PEFT methods for dense-architecture LLMs, PEFT for sparse-architecture
LLMs is still underexplored. In this work, we study the PEFT method for LLMs
with the Mixture-of-Experts (MoE) architecture and the contents of this work
are mainly threefold: (1) We investigate the dispersion degree of the activated
experts in customized tasks, and found that the routing distribution for a
specific task tends to be highly concentrated, while the distribution of
activated experts varies significantly across different tasks. (2) We propose
Expert-Specialized Fine-Tuning, or ESFT, which tunes the experts most relevant
to downstream tasks while freezing the other experts and modules; experimental
results demonstrate that our method not only improves the tuning efficiency,
but also matches or even surpasses the performance of full-parameter
fine-tuning. (3) We further analyze the impact of the MoE architecture on
expert-specialized fine-tuning. We find that MoE models with finer-grained
experts are more advantageous in selecting the combination of experts that are
most relevant to downstream tasks, thereby enhancing both the training
efficiency and effectiveness.Summary
AI-Generated Summary