DELLA-Merging: Riduzione dell'interferenza nella fusione di modelli attraverso campionamento basato sulla magnitudine
DELLA-Merging: Reducing Interference in Model Merging through Magnitude-Based Sampling
June 17, 2024
Autori: Pala Tej Deep, Rishabh Bhardwaj, Soujanya Poria
cs.AI
Abstract
Con la proliferazione di modelli specifici per dominio, il merging di modelli è emerso come un insieme di tecniche che combinano le capacità di più modelli in uno solo in grado di svolgere più compiti senza il costo di un addestramento aggiuntivo. In questo articolo, proponiamo una nuova tecnica di merging di modelli, denominata Drop and rEscaLe via sampLing with mAgnitude (DELLA-Merging), che utilizza una tecnica innovativa di pruning, MAGPRUNE, che mostra vantaggi significativi rispetto a DARE e TIES. MAGPRUNE classifica prima i parametri in base alla loro magnitudine e assegna probabilità di dropout (p) più elevate ai parametri con ranghi inferiori, corrispondenti a magnitudini più basse. Per approssimare gli embedding originali, MAGPRUNE utilizza un'operazione di riscalamento sui parametri che sopravvivono al dropout casuale di 1/(1 - p). Su tre diversi modelli esperti considerati per il merging (LM, Math, Code) e i corrispondenti dataset di benchmark (AlpacaEval, GSM8K, MBPP), DELLA mostra un miglioramento medio di 2,4 punti rispetto ai metodi di base che impiegano il pruning dei parametri delta (un miglioramento di 3,6 punti rispetto a TIES, 1,2 punti rispetto a DARE) e di 11,1 punti rispetto alla baseline senza pruning (TA). Rilasciamo il codice sorgente all'indirizzo: https://github.com/declare-lab/della.
English
With the proliferation of domain-specific models, model merging has emerged
as a set of techniques that combine the capabilities of multiple models into
one that can multitask without the cost of additional training. In this paper,
we propose a new model merging technique, Drop and rEscaLe via sampLing with
mAgnitude (DELLA-Merging), that employs a novel pruning technique, MAGPRUNE,
which shows significant advantages over DARE and TIES. MAGPRUNE first ranks the
parameters in order of their magnitude and assigns higher dropout probabilities
(p) to parameters with lower ranks corresponding to lower magnitudes. To
approximate the original embeddings, MAGPRUNE employs a rescaling operation on
the parameters that survive the random dropping by 1/(1 - p). On three
different expert models considered for merging (LM, Math, Code) and
corresponding benchmark datasets (AlpacaEval, GSM8K, MBPP), DELLA shows an
average improvement of 2.4 points over baseline methods employing delta
parameter pruning (an improvement of 3.6 points over TIES, 1.2 points over
DARE), and 11.1 points over the no-pruning baseline (TA). We release the source
code at: https://github.com/declare-lab/della.