DELLA-Merging: Reduzindo Interferências na Fusão de Modelos por Meio de Amostragem Baseada em Magnitude
DELLA-Merging: Reducing Interference in Model Merging through Magnitude-Based Sampling
June 17, 2024
Autores: Pala Tej Deep, Rishabh Bhardwaj, Soujanya Poria
cs.AI
Resumo
Com a proliferação de modelos específicos de domínio, a fusão de modelos surgiu como um conjunto de técnicas que combinam as capacidades de vários modelos em um que pode executar várias tarefas sem o custo de treinamento adicional. Neste artigo, propomos uma nova técnica de fusão de modelos, Drop and rEscaLe via sampLing with mAgnitude (DELLA-Merging), que emprega uma técnica de poda inovadora, MAGPRUNE, que demonstra vantagens significativas sobre DARE e TIES. O MAGPRUNE classifica inicialmente os parâmetros de acordo com sua magnitude e atribui probabilidades de desistência (p) mais altas aos parâmetros com classificações mais baixas correspondentes a magnitudes menores. Para aproximar os embeddings originais, o MAGPRUNE emprega uma operação de redimensionamento nos parâmetros que sobrevivem à exclusão aleatória por 1/(1 - p). Em três modelos especializados diferentes considerados para fusão (LM, Matemática, Código) e conjuntos de dados de referência correspondentes (AlpacaEval, GSM8K, MBPP), o DELLA mostra uma melhoria média de 2,4 pontos em relação aos métodos de referência que empregam poda de parâmetros delta (uma melhoria de 3,6 pontos em relação a TIES, 1,2 pontos em relação a DARE) e 11,1 pontos em relação à linha de base sem poda (TA). Disponibilizamos o código-fonte em: https://github.com/declare-lab/della.
English
With the proliferation of domain-specific models, model merging has emerged
as a set of techniques that combine the capabilities of multiple models into
one that can multitask without the cost of additional training. In this paper,
we propose a new model merging technique, Drop and rEscaLe via sampLing with
mAgnitude (DELLA-Merging), that employs a novel pruning technique, MAGPRUNE,
which shows significant advantages over DARE and TIES. MAGPRUNE first ranks the
parameters in order of their magnitude and assigns higher dropout probabilities
(p) to parameters with lower ranks corresponding to lower magnitudes. To
approximate the original embeddings, MAGPRUNE employs a rescaling operation on
the parameters that survive the random dropping by 1/(1 - p). On three
different expert models considered for merging (LM, Math, Code) and
corresponding benchmark datasets (AlpacaEval, GSM8K, MBPP), DELLA shows an
average improvement of 2.4 points over baseline methods employing delta
parameter pruning (an improvement of 3.6 points over TIES, 1.2 points over
DARE), and 11.1 points over the no-pruning baseline (TA). We release the source
code at: https://github.com/declare-lab/della.