ChatPaper.aiChatPaper

DELLA-Merging: Vermindering van interferentie bij modelmerging door middel van magnitude-gebaseerde bemonstering

DELLA-Merging: Reducing Interference in Model Merging through Magnitude-Based Sampling

June 17, 2024
Auteurs: Pala Tej Deep, Rishabh Bhardwaj, Soujanya Poria
cs.AI

Samenvatting

Met de opkomst van domeinspecifieke modellen is modelmerging naar voren gekomen als een reeks technieken die de mogelijkheden van meerdere modellen combineren tot één model dat multitasking kan uitvoeren zonder de kosten van aanvullende training. In dit artikel stellen we een nieuwe modelmergingtechniek voor, genaamd Drop and rEscaLe via sampLing with mAgnitude (DELLA-Merging), die gebruikmaakt van een nieuwe pruningtechniek, MAGPRUNE, die aanzienlijke voordelen laat zien ten opzichte van DARE en TIES. MAGPRUNE rangschikt eerst de parameters op basis van hun grootte en wijst hogere dropoutkansen (p) toe aan parameters met lagere rangen die overeenkomen met kleinere grootten. Om de oorspronkelijke embeddings te benaderen, past MAGPRUNE een herschalingsoperatie toe op de parameters die het willekeurige droppen overleven, met een factor van 1/(1 - p). Op drie verschillende expertmodellen die in aanmerking worden genomen voor merging (LM, Math, Code) en bijbehorende benchmarkdatasets (AlpacaEval, GSM8K, MBPP), laat DELLA een gemiddelde verbetering zien van 2,4 punten ten opzichte van baseline-methoden die delta-parameterpruning toepassen (een verbetering van 3,6 punten ten opzichte van TIES, 1,2 punten ten opzichte van DARE), en 11,1 punten ten opzichte van de baseline zonder pruning (TA). We hebben de broncode vrijgegeven op: https://github.com/declare-lab/della.
English
With the proliferation of domain-specific models, model merging has emerged as a set of techniques that combine the capabilities of multiple models into one that can multitask without the cost of additional training. In this paper, we propose a new model merging technique, Drop and rEscaLe via sampLing with mAgnitude (DELLA-Merging), that employs a novel pruning technique, MAGPRUNE, which shows significant advantages over DARE and TIES. MAGPRUNE first ranks the parameters in order of their magnitude and assigns higher dropout probabilities (p) to parameters with lower ranks corresponding to lower magnitudes. To approximate the original embeddings, MAGPRUNE employs a rescaling operation on the parameters that survive the random dropping by 1/(1 - p). On three different expert models considered for merging (LM, Math, Code) and corresponding benchmark datasets (AlpacaEval, GSM8K, MBPP), DELLA shows an average improvement of 2.4 points over baseline methods employing delta parameter pruning (an improvement of 3.6 points over TIES, 1.2 points over DARE), and 11.1 points over the no-pruning baseline (TA). We release the source code at: https://github.com/declare-lab/della.
PDF81November 29, 2024