Пусть эксперт придерживается своего дела: экспертная настройка для разреженных архитектур крупных языковых моделей.Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for
Sparse Architectural Large Language Models
Параметро-эффективное донастройка (PEFT) является важным для настройки Больших Языковых Моделей (LLM) с ограниченными ресурсами. Хотя существует несколько методов PEFT для плотно-архитектурных LLM, PEFT для разреженно-архитектурных LLM до сих пор мало исследовался. В данной работе мы изучаем метод PEFT для LLM с архитектурой Mixture-of-Experts (MoE), и содержание данной работы в основном тройное: (1) Мы исследуем степень дисперсии активированных экспертов в настраиваемых задачах и обнаружили, что распределение маршрутизации для конкретной задачи имеет тенденцию к высокой концентрации, в то время как распределение активированных экспертов значительно различается в различных задачах. (2) Мы предлагаем Fine-Tuning, специализированный для экспертов, или ESFT, который настраивает экспертов, наиболее релевантных для последующих задач, при этом замораживая других экспертов и модули; экспериментальные результаты демонстрируют, что наш метод не только улучшает эффективность настройки, но также соответствует или даже превосходит производительность полного параметрического донастройки. (3) Мы дополнительно анализируем влияние архитектуры MoE на специализированную настройку экспертов. Мы обнаружили, что модели MoE с более детализированными экспертами более выгодны при выборе комбинации экспертов, наиболее релевантных для последующих задач, тем самым улучшая как эффективность обучения, так и эффективность.