ChatPaper.aiChatPaper

SiRA: Разреженная смесь адаптаций с низким рангом

SiRA: Sparse Mixture of Low Rank Adaptation

November 15, 2023
Авторы: Yun Zhu, Nevan Wichers, Chu-Cheng Lin, Xinyi Wang, Tianlong Chen, Lei Shu, Han Lu, Canoee Liu, Liangchen Luo, Jindong Chen, Lei Meng
cs.AI

Аннотация

Эффективная настройка параметров стала важным подходом для адаптации крупных языковых моделей к конкретным задачам. Большинство предыдущих работ рассматривали добавление плотных обучаемых параметров, где все параметры используются для адаптации к определённой задаче. Мы обнаружили, что на практике это менее эффективно, как показал пример LoRA, где введение большего количества обучаемых параметров не приносит пользы. Вдохновлённые этим, мы исследуем важность использования "разреженных" вычислений и предлагаем SiRA: разреженную смесь низкоранговой адаптации. SiRA использует разреженную смесь экспертов (SMoE) для повышения производительности LoRA. В частности, она применяет маршрутизацию к топ-k экспертам с ограничением ёмкости, которое ограничивает максимальное количество токенов, обрабатываемых каждым экспертом. Мы предлагаем новый и простой метод исключения экспертов на основе сети управления для снижения проблемы переобучения. В ходе обширных экспериментов мы подтверждаем, что SiRA превосходит LoRA и другие подходы, основанные на смеси экспертов, в различных задачах, как одиночных, так и многозадачных.
English
Parameter Efficient Tuning has been an prominent approach to adapt the Large Language Model to downstream tasks. Most previous works considers adding the dense trainable parameters, where all parameters are used to adapt certain task. We found this less effective empirically using the example of LoRA that introducing more trainable parameters does not help. Motivated by this we investigate the importance of leveraging "sparse" computation and propose SiRA: sparse mixture of low rank adaption. SiRA leverages the Sparse Mixture of Expert(SMoE) to boost the performance of LoRA. Specifically it enforces the top k experts routing with a capacity limit restricting the maximum number of tokens each expert can process. We propose a novel and simple expert dropout on top of gating network to reduce the over-fitting issue. Through extensive experiments, we verify SiRA performs better than LoRA and other mixture of expert approaches across different single tasks and multitask settings.
PDF90December 15, 2024