DELLA-Merging : Réduction des interférences dans la fusion de modèles par échantillonnage basé sur l'amplitude
DELLA-Merging: Reducing Interference in Model Merging through Magnitude-Based Sampling
June 17, 2024
Auteurs: Pala Tej Deep, Rishabh Bhardwaj, Soujanya Poria
cs.AI
Résumé
Avec la prolifération des modèles spécifiques à un domaine, la fusion de modèles est apparue comme un ensemble de techniques permettant de combiner les capacités de plusieurs modèles en un seul capable de multitâches sans le coût d'un entraînement supplémentaire. Dans cet article, nous proposons une nouvelle technique de fusion de modèles, Drop and rEscaLe via sampLing with mAgnitude (DELLA-Merging), qui utilise une technique d'élagage innovante, MAGPRUNE, démontrant des avantages significatifs par rapport à DARE et TIES. MAGPRUNE classe d'abord les paramètres en fonction de leur magnitude et attribue des probabilités d'abandon (p) plus élevées aux paramètres de rang inférieur correspondant à des magnitudes plus faibles. Pour approximer les embeddings originaux, MAGPRUNE applique une opération de redimensionnement sur les paramètres qui survivent à l'abandon aléatoire par 1/(1 - p). Sur trois modèles experts considérés pour la fusion (LM, Math, Code) et les ensembles de données de référence correspondants (AlpacaEval, GSM8K, MBPP), DELLA montre une amélioration moyenne de 2,4 points par rapport aux méthodes de base utilisant l'élagage des paramètres delta (une amélioration de 3,6 points par rapport à TIES, 1,2 points par rapport à DARE), et de 11,1 points par rapport à la base sans élagage (TA). Nous publions le code source à l'adresse suivante : https://github.com/declare-lab/della.
English
With the proliferation of domain-specific models, model merging has emerged
as a set of techniques that combine the capabilities of multiple models into
one that can multitask without the cost of additional training. In this paper,
we propose a new model merging technique, Drop and rEscaLe via sampLing with
mAgnitude (DELLA-Merging), that employs a novel pruning technique, MAGPRUNE,
which shows significant advantages over DARE and TIES. MAGPRUNE first ranks the
parameters in order of their magnitude and assigns higher dropout probabilities
(p) to parameters with lower ranks corresponding to lower magnitudes. To
approximate the original embeddings, MAGPRUNE employs a rescaling operation on
the parameters that survive the random dropping by 1/(1 - p). On three
different expert models considered for merging (LM, Math, Code) and
corresponding benchmark datasets (AlpacaEval, GSM8K, MBPP), DELLA shows an
average improvement of 2.4 points over baseline methods employing delta
parameter pruning (an improvement of 3.6 points over TIES, 1.2 points over
DARE), and 11.1 points over the no-pruning baseline (TA). We release the source
code at: https://github.com/declare-lab/della.Summary
AI-Generated Summary