ChatPaper.aiChatPaper

Deja que el Experto se Atenga a su Especialidad: Ajuste Fino Especializado para Modelos de Lenguaje Grandes con Arquitecturas Escasas

Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models

July 2, 2024
Autores: Zihan Wang, Deli Chen, Damai Dai, Runxin Xu, Zhuoshu Li, Y. Wu
cs.AI

Resumen

El ajuste fino eficiente de parámetros (PEFT) es crucial para personalizar Modelos de Lenguaje Grandes (LLMs) con recursos limitados. Aunque ha habido varios métodos de PEFT para LLMs de arquitectura densa, el PEFT para LLMs de arquitectura dispersa aún está poco explorado. En este trabajo, estudiamos el método PEFT para LLMs con la arquitectura de Mezcla de Expertos (MoE) y los contenidos de este trabajo son principalmente tres: (1) Investigamos el grado de dispersión de los expertos activados en tareas personalizadas, y encontramos que la distribución de enrutamiento para una tarea específica tiende a ser altamente concentrada, mientras que la distribución de expertos activados varía significativamente entre diferentes tareas. (2) Proponemos el Ajuste Fino Especializado de Expertos, o ESFT, que ajusta los expertos más relevantes para las tareas posteriores mientras congela los otros expertos y módulos; los resultados experimentales demuestran que nuestro método no solo mejora la eficiencia de ajuste, sino que también iguala o incluso supera el rendimiento del ajuste fino de parámetros completo. (3) Analizamos además el impacto de la arquitectura MoE en el ajuste fino especializado de expertos. Descubrimos que los modelos MoE con expertos más detallados son más ventajosos para seleccionar la combinación de expertos más relevantes para las tareas posteriores, mejorando así tanto la eficiencia como la efectividad del entrenamiento.
English
Parameter-efficient fine-tuning (PEFT) is crucial for customizing Large Language Models (LLMs) with constrained resources. Although there have been various PEFT methods for dense-architecture LLMs, PEFT for sparse-architecture LLMs is still underexplored. In this work, we study the PEFT method for LLMs with the Mixture-of-Experts (MoE) architecture and the contents of this work are mainly threefold: (1) We investigate the dispersion degree of the activated experts in customized tasks, and found that the routing distribution for a specific task tends to be highly concentrated, while the distribution of activated experts varies significantly across different tasks. (2) We propose Expert-Specialized Fine-Tuning, or ESFT, which tunes the experts most relevant to downstream tasks while freezing the other experts and modules; experimental results demonstrate that our method not only improves the tuning efficiency, but also matches or even surpasses the performance of full-parameter fine-tuning. (3) We further analyze the impact of the MoE architecture on expert-specialized fine-tuning. We find that MoE models with finer-grained experts are more advantageous in selecting the combination of experts that are most relevant to downstream tasks, thereby enhancing both the training efficiency and effectiveness.

Summary

AI-Generated Summary

PDF431November 28, 2024