ChatPaper.aiChatPaper

Пусть эксперт придерживается своего дела: экспертная настройка для разреженных архитектур крупных языковых моделей.

Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models

July 2, 2024
Авторы: Zihan Wang, Deli Chen, Damai Dai, Runxin Xu, Zhuoshu Li, Y. Wu
cs.AI

Аннотация

Параметро-эффективное донастройка (PEFT) является важным для настройки Больших Языковых Моделей (LLM) с ограниченными ресурсами. Хотя существует несколько методов PEFT для плотно-архитектурных LLM, PEFT для разреженно-архитектурных LLM до сих пор мало исследовался. В данной работе мы изучаем метод PEFT для LLM с архитектурой Mixture-of-Experts (MoE), и содержание данной работы в основном тройное: (1) Мы исследуем степень дисперсии активированных экспертов в настраиваемых задачах и обнаружили, что распределение маршрутизации для конкретной задачи имеет тенденцию к высокой концентрации, в то время как распределение активированных экспертов значительно различается в различных задачах. (2) Мы предлагаем Fine-Tuning, специализированный для экспертов, или ESFT, который настраивает экспертов, наиболее релевантных для последующих задач, при этом замораживая других экспертов и модули; экспериментальные результаты демонстрируют, что наш метод не только улучшает эффективность настройки, но также соответствует или даже превосходит производительность полного параметрического донастройки. (3) Мы дополнительно анализируем влияние архитектуры MoE на специализированную настройку экспертов. Мы обнаружили, что модели MoE с более детализированными экспертами более выгодны при выборе комбинации экспертов, наиболее релевантных для последующих задач, тем самым улучшая как эффективность обучения, так и эффективность.
English
Parameter-efficient fine-tuning (PEFT) is crucial for customizing Large Language Models (LLMs) with constrained resources. Although there have been various PEFT methods for dense-architecture LLMs, PEFT for sparse-architecture LLMs is still underexplored. In this work, we study the PEFT method for LLMs with the Mixture-of-Experts (MoE) architecture and the contents of this work are mainly threefold: (1) We investigate the dispersion degree of the activated experts in customized tasks, and found that the routing distribution for a specific task tends to be highly concentrated, while the distribution of activated experts varies significantly across different tasks. (2) We propose Expert-Specialized Fine-Tuning, or ESFT, which tunes the experts most relevant to downstream tasks while freezing the other experts and modules; experimental results demonstrate that our method not only improves the tuning efficiency, but also matches or even surpasses the performance of full-parameter fine-tuning. (3) We further analyze the impact of the MoE architecture on expert-specialized fine-tuning. We find that MoE models with finer-grained experts are more advantageous in selecting the combination of experts that are most relevant to downstream tasks, thereby enhancing both the training efficiency and effectiveness.

Summary

AI-Generated Summary

PDF431November 28, 2024