DELLA-Merging: Vermindering van interferentie bij modelmerging door middel van magnitude-gebaseerde bemonstering
DELLA-Merging: Reducing Interference in Model Merging through Magnitude-Based Sampling
June 17, 2024
Auteurs: Pala Tej Deep, Rishabh Bhardwaj, Soujanya Poria
cs.AI
Samenvatting
Met de opkomst van domeinspecifieke modellen is modelmerging naar voren gekomen als een reeks technieken die de mogelijkheden van meerdere modellen combineren tot één model dat multitasking kan uitvoeren zonder de kosten van aanvullende training. In dit artikel stellen we een nieuwe modelmergingtechniek voor, genaamd Drop and rEscaLe via sampLing with mAgnitude (DELLA-Merging), die gebruikmaakt van een nieuwe pruningtechniek, MAGPRUNE, die aanzienlijke voordelen laat zien ten opzichte van DARE en TIES. MAGPRUNE rangschikt eerst de parameters op basis van hun grootte en wijst hogere dropoutkansen (p) toe aan parameters met lagere rangen die overeenkomen met kleinere grootten. Om de oorspronkelijke embeddings te benaderen, past MAGPRUNE een herschalingsoperatie toe op de parameters die het willekeurige droppen overleven, met een factor van 1/(1 - p). Op drie verschillende expertmodellen die in aanmerking worden genomen voor merging (LM, Math, Code) en bijbehorende benchmarkdatasets (AlpacaEval, GSM8K, MBPP), laat DELLA een gemiddelde verbetering zien van 2,4 punten ten opzichte van baseline-methoden die delta-parameterpruning toepassen (een verbetering van 3,6 punten ten opzichte van TIES, 1,2 punten ten opzichte van DARE), en 11,1 punten ten opzichte van de baseline zonder pruning (TA). We hebben de broncode vrijgegeven op: https://github.com/declare-lab/della.
English
With the proliferation of domain-specific models, model merging has emerged
as a set of techniques that combine the capabilities of multiple models into
one that can multitask without the cost of additional training. In this paper,
we propose a new model merging technique, Drop and rEscaLe via sampLing with
mAgnitude (DELLA-Merging), that employs a novel pruning technique, MAGPRUNE,
which shows significant advantages over DARE and TIES. MAGPRUNE first ranks the
parameters in order of their magnitude and assigns higher dropout probabilities
(p) to parameters with lower ranks corresponding to lower magnitudes. To
approximate the original embeddings, MAGPRUNE employs a rescaling operation on
the parameters that survive the random dropping by 1/(1 - p). On three
different expert models considered for merging (LM, Math, Code) and
corresponding benchmark datasets (AlpacaEval, GSM8K, MBPP), DELLA shows an
average improvement of 2.4 points over baseline methods employing delta
parameter pruning (an improvement of 3.6 points over TIES, 1.2 points over
DARE), and 11.1 points over the no-pruning baseline (TA). We release the source
code at: https://github.com/declare-lab/della.