DELLA-Merging: Riduzione dell'interferenza nella fusione di modelli attraverso campionamento basato sulla magnitudine

Abstract

Con la proliferazione di modelli specifici per dominio, il merging di modelli è emerso come un insieme di tecniche che combinano le capacità di più modelli in uno solo in grado di svolgere più compiti senza il costo di un addestramento aggiuntivo. In questo articolo, proponiamo una nuova tecnica di merging di modelli, denominata Drop and rEscaLe via sampLing with mAgnitude (DELLA-Merging), che utilizza una tecnica innovativa di pruning, MAGPRUNE, che mostra vantaggi significativi rispetto a DARE e TIES. MAGPRUNE classifica prima i parametri in base alla loro magnitudine e assegna probabilità di dropout (p) più elevate ai parametri con ranghi inferiori, corrispondenti a magnitudini più basse. Per approssimare gli embedding originali, MAGPRUNE utilizza un'operazione di riscalamento sui parametri che sopravvivono al dropout casuale di 1/(1 - p). Su tre diversi modelli esperti considerati per il merging (LM, Math, Code) e i corrispondenti dataset di benchmark (AlpacaEval, GSM8K, MBPP), DELLA mostra un miglioramento medio di 2,4 punti rispetto ai metodi di base che impiegano il pruning dei parametri delta (un miglioramento di 3,6 punti rispetto a TIES, 1,2 punti rispetto a DARE) e di 11,1 punti rispetto alla baseline senza pruning (TA). Rilasciamo il codice sorgente all'indirizzo: https://github.com/declare-lab/della.

English

With the proliferation of domain-specific models, model merging has emerged as a set of techniques that combine the capabilities of multiple models into one that can multitask without the cost of additional training. In this paper, we propose a new model merging technique, Drop and rEscaLe via sampLing with mAgnitude (DELLA-Merging), that employs a novel pruning technique, MAGPRUNE, which shows significant advantages over DARE and TIES. MAGPRUNE first ranks the parameters in order of their magnitude and assigns higher dropout probabilities (p) to parameters with lower ranks corresponding to lower magnitudes. To approximate the original embeddings, MAGPRUNE employs a rescaling operation on the parameters that survive the random dropping by 1/(1 - p). On three different expert models considered for merging (LM, Math, Code) and corresponding benchmark datasets (AlpacaEval, GSM8K, MBPP), DELLA shows an average improvement of 2.4 points over baseline methods employing delta parameter pruning (an improvement of 3.6 points over TIES, 1.2 points over DARE), and 11.1 points over the no-pruning baseline (TA). We release the source code at: https://github.com/declare-lab/della.

DELLA-Merging: Riduzione dell'interferenza nella fusione di modelli attraverso campionamento basato sulla magnitudine

DELLA-Merging: Reducing Interference in Model Merging through Magnitude-Based Sampling

Abstract

Support