ChatPaper.aiChatPaper

Laissez l'expert se concentrer sur son domaine : Réglage fin spécialisé pour les modèles de langage massifs à architecture parcimonieuse.

Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models

July 2, 2024
Auteurs: Zihan Wang, Deli Chen, Damai Dai, Runxin Xu, Zhuoshu Li, Y. Wu
cs.AI

Résumé

Le réglage efficace des paramètres (PEFT) est crucial pour personnaliser les modèles de langage de grande taille (LLMs) avec des ressources limitées. Bien qu'il existe diverses méthodes PEFT pour les LLMs à architecture dense, le PEFT pour les LLMs à architecture clairsemée reste encore peu exploré. Dans ce travail, nous étudions la méthode PEFT pour les LLMs avec l'architecture Mixture-of-Experts (MoE), et les contributions de ce travail sont principalement triples : (1) Nous examinons le degré de dispersion des experts activés dans des tâches personnalisées, et nous avons constaté que la distribution de routage pour une tâche spécifique tend à être très concentrée, tandis que la distribution des experts activés varie considérablement selon les différentes tâches. (2) Nous proposons le réglage spécialisé des experts, ou ESFT, qui ajuste les experts les plus pertinents pour les tâches en aval tout en gelant les autres experts et modules ; les résultats expérimentaux démontrent que notre méthode améliore non seulement l'efficacité du réglage, mais correspond ou dépasse même les performances du réglage complet des paramètres. (3) Nous analysons en outre l'impact de l'architecture MoE sur le réglage spécialisé des experts. Nous constatons que les modèles MoE avec des experts plus granulaires sont plus avantageux pour sélectionner la combinaison d'experts la plus pertinente pour les tâches en aval, améliorant ainsi à la fois l'efficacité et l'efficience de l'entraînement.
English
Parameter-efficient fine-tuning (PEFT) is crucial for customizing Large Language Models (LLMs) with constrained resources. Although there have been various PEFT methods for dense-architecture LLMs, PEFT for sparse-architecture LLMs is still underexplored. In this work, we study the PEFT method for LLMs with the Mixture-of-Experts (MoE) architecture and the contents of this work are mainly threefold: (1) We investigate the dispersion degree of the activated experts in customized tasks, and found that the routing distribution for a specific task tends to be highly concentrated, while the distribution of activated experts varies significantly across different tasks. (2) We propose Expert-Specialized Fine-Tuning, or ESFT, which tunes the experts most relevant to downstream tasks while freezing the other experts and modules; experimental results demonstrate that our method not only improves the tuning efficiency, but also matches or even surpasses the performance of full-parameter fine-tuning. (3) We further analyze the impact of the MoE architecture on expert-specialized fine-tuning. We find that MoE models with finer-grained experts are more advantageous in selecting the combination of experts that are most relevant to downstream tasks, thereby enhancing both the training efficiency and effectiveness.

Summary

AI-Generated Summary

PDF431November 28, 2024