ChatPaper.aiChatPaper

Deixe o Especialista Focar em Sua Área: Ajuste Fino Especializado para Modelos de Linguagem Grandes com Arquitetura Esparsa

Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models

July 2, 2024
Autores: Zihan Wang, Deli Chen, Damai Dai, Runxin Xu, Zhuoshu Li, Y. Wu
cs.AI

Resumo

A afinação eficiente de parâmetros (PEFT) é crucial para personalizar Modelos de Linguagem Grandes (LLMs) com recursos limitados. Embora tenham sido desenvolvidos vários métodos de PEFT para LLMs de arquitetura densa, o PEFT para LLMs de arquitetura esparsa ainda é pouco explorado. Neste trabalho, estudamos o método PEFT para LLMs com a arquitetura Mixture-of-Experts (MoE) e o conteúdo deste trabalho é principalmente triplo: (1) Investigamos o grau de dispersão dos especialistas ativados em tarefas personalizadas e descobrimos que a distribuição de roteamento para uma tarefa específica tende a ser altamente concentrada, enquanto a distribuição de especialistas ativados varia significativamente entre diferentes tarefas. (2) Propomos a Afinação Especializada de Especialistas, ou ESFT, que ajusta os especialistas mais relevantes para as tarefas downstream enquanto congela os outros especialistas e módulos; os resultados experimentais demonstram que nosso método não apenas melhora a eficiência de ajuste, mas também iguala ou até supera o desempenho da afinação de parâmetros completa. (3) Analisamos ainda o impacto da arquitetura MoE na afinação especializada de especialistas. Descobrimos que os modelos MoE com especialistas mais refinados são mais vantajosos na seleção da combinação de especialistas mais relevantes para as tarefas downstream, aumentando assim tanto a eficiência quanto a eficácia do treinamento.
English
Parameter-efficient fine-tuning (PEFT) is crucial for customizing Large Language Models (LLMs) with constrained resources. Although there have been various PEFT methods for dense-architecture LLMs, PEFT for sparse-architecture LLMs is still underexplored. In this work, we study the PEFT method for LLMs with the Mixture-of-Experts (MoE) architecture and the contents of this work are mainly threefold: (1) We investigate the dispersion degree of the activated experts in customized tasks, and found that the routing distribution for a specific task tends to be highly concentrated, while the distribution of activated experts varies significantly across different tasks. (2) We propose Expert-Specialized Fine-Tuning, or ESFT, which tunes the experts most relevant to downstream tasks while freezing the other experts and modules; experimental results demonstrate that our method not only improves the tuning efficiency, but also matches or even surpasses the performance of full-parameter fine-tuning. (3) We further analyze the impact of the MoE architecture on expert-specialized fine-tuning. We find that MoE models with finer-grained experts are more advantageous in selecting the combination of experts that are most relevant to downstream tasks, thereby enhancing both the training efficiency and effectiveness.
PDF431November 28, 2024