Слияние DELLA: снижение вмешательства при слиянии моделей с помощью выборки на основе величины
DELLA-Merging: Reducing Interference in Model Merging through Magnitude-Based Sampling
June 17, 2024
Авторы: Pala Tej Deep, Rishabh Bhardwaj, Soujanya Poria
cs.AI
Аннотация
С появлением моделей, специализированных для определенных областей, техника объединения моделей стала актуальной. Она представляет собой набор методов, которые объединяют возможности нескольких моделей в одну, способную выполнять несколько задач без дополнительного обучения. В данной статье мы предлагаем новую технику объединения моделей, Drop and rEscaLe via sampLing with mAgnitude (DELLA-Merging), которая использует новый метод обрезки, MAGPRUNE, демонстрирующий значительные преимущества по сравнению с DARE и TIES. MAGPRUNE сначала ранжирует параметры по величине и назначает более высокие вероятности отсева (p) параметрам с более низкими рангами, соответствующими меньшим величинам. Для приближения исходных вложений MAGPRUNE использует операцию масштабирования параметров, которые остаются после случайного отсева, на 1/(1 - p). На трех различных экспертных моделях, рассматриваемых для объединения (LM, Math, Code), и соответствующих наборах данных для тестирования (AlpacaEval, GSM8K, MBPP), DELLA показывает среднее улучшение на 2.4 пункта по сравнению с базовыми методами, использующими обрезку параметров по дельте (улучшение на 3.6 пункта по сравнению с TIES, на 1.2 пункта по сравнению с DARE), и на 11.1 пункта по сравнению с базовым методом без обрезки (TA). Мы предоставляем исходный код по ссылке: https://github.com/declare-lab/della.
English
With the proliferation of domain-specific models, model merging has emerged
as a set of techniques that combine the capabilities of multiple models into
one that can multitask without the cost of additional training. In this paper,
we propose a new model merging technique, Drop and rEscaLe via sampLing with
mAgnitude (DELLA-Merging), that employs a novel pruning technique, MAGPRUNE,
which shows significant advantages over DARE and TIES. MAGPRUNE first ranks the
parameters in order of their magnitude and assigns higher dropout probabilities
(p) to parameters with lower ranks corresponding to lower magnitudes. To
approximate the original embeddings, MAGPRUNE employs a rescaling operation on
the parameters that survive the random dropping by 1/(1 - p). On three
different expert models considered for merging (LM, Math, Code) and
corresponding benchmark datasets (AlpacaEval, GSM8K, MBPP), DELLA shows an
average improvement of 2.4 points over baseline methods employing delta
parameter pruning (an improvement of 3.6 points over TIES, 1.2 points over
DARE), and 11.1 points over the no-pruning baseline (TA). We release the source
code at: https://github.com/declare-lab/della.Summary
AI-Generated Summary