ChatPaper.aiChatPaper

DELLA-Merging : Réduction des interférences dans la fusion de modèles par échantillonnage basé sur l'amplitude

DELLA-Merging: Reducing Interference in Model Merging through Magnitude-Based Sampling

June 17, 2024
Auteurs: Pala Tej Deep, Rishabh Bhardwaj, Soujanya Poria
cs.AI

Résumé

Avec la prolifération des modèles spécifiques à un domaine, la fusion de modèles est apparue comme un ensemble de techniques permettant de combiner les capacités de plusieurs modèles en un seul capable de multitâches sans le coût d'un entraînement supplémentaire. Dans cet article, nous proposons une nouvelle technique de fusion de modèles, Drop and rEscaLe via sampLing with mAgnitude (DELLA-Merging), qui utilise une technique d'élagage innovante, MAGPRUNE, démontrant des avantages significatifs par rapport à DARE et TIES. MAGPRUNE classe d'abord les paramètres en fonction de leur magnitude et attribue des probabilités d'abandon (p) plus élevées aux paramètres de rang inférieur correspondant à des magnitudes plus faibles. Pour approximer les embeddings originaux, MAGPRUNE applique une opération de redimensionnement sur les paramètres qui survivent à l'abandon aléatoire par 1/(1 - p). Sur trois modèles experts considérés pour la fusion (LM, Math, Code) et les ensembles de données de référence correspondants (AlpacaEval, GSM8K, MBPP), DELLA montre une amélioration moyenne de 2,4 points par rapport aux méthodes de base utilisant l'élagage des paramètres delta (une amélioration de 3,6 points par rapport à TIES, 1,2 points par rapport à DARE), et de 11,1 points par rapport à la base sans élagage (TA). Nous publions le code source à l'adresse suivante : https://github.com/declare-lab/della.
English
With the proliferation of domain-specific models, model merging has emerged as a set of techniques that combine the capabilities of multiple models into one that can multitask without the cost of additional training. In this paper, we propose a new model merging technique, Drop and rEscaLe via sampLing with mAgnitude (DELLA-Merging), that employs a novel pruning technique, MAGPRUNE, which shows significant advantages over DARE and TIES. MAGPRUNE first ranks the parameters in order of their magnitude and assigns higher dropout probabilities (p) to parameters with lower ranks corresponding to lower magnitudes. To approximate the original embeddings, MAGPRUNE employs a rescaling operation on the parameters that survive the random dropping by 1/(1 - p). On three different expert models considered for merging (LM, Math, Code) and corresponding benchmark datasets (AlpacaEval, GSM8K, MBPP), DELLA shows an average improvement of 2.4 points over baseline methods employing delta parameter pruning (an improvement of 3.6 points over TIES, 1.2 points over DARE), and 11.1 points over the no-pruning baseline (TA). We release the source code at: https://github.com/declare-lab/della.

Summary

AI-Generated Summary

PDF81November 29, 2024