DELLA-Verschmelzung: Reduzierung von Interferenzen bei der Modellverschmelzung durch stichprobenbasierte Auswahl nach Betrag
DELLA-Merging: Reducing Interference in Model Merging through Magnitude-Based Sampling
June 17, 2024
Autoren: Pala Tej Deep, Rishabh Bhardwaj, Soujanya Poria
cs.AI
Zusammenfassung
Mit der Verbreitung von domänenspezifischen Modellen hat sich das Modell-Merging als eine Reihe von Techniken etabliert, die die Fähigkeiten mehrerer Modelle kombinieren, um ein Modell zu schaffen, das mehrere Aufgaben gleichzeitig erledigen kann, ohne zusätzliche Schulungskosten zu verursachen. In diesem Papier schlagen wir eine neue Modell-Merging-Technik namens Drop and rEscaLe via sampLing with mAgnitude (DELLA-Merging) vor, die eine neuartige Beschneidungstechnik, MAGPRUNE, verwendet, die signifikante Vorteile gegenüber DARE und TIES aufweist. MAGPRUNE ordnet zunächst die Parameter nach ihrer Größenordnung und weist Parametern mit niedrigeren Rängen, die niedrigeren Größenordnungen entsprechen, höhere Ausfallwahrscheinlichkeiten (p) zu. Um die ursprünglichen Einbettungen zu approximieren, verwendet MAGPRUNE eine Neuskalierung der Parameter, die das Überleben des zufälligen Ausfalls um 1/(1 - p) ermöglicht. Anhand von drei verschiedenen Expertenmodellen, die für das Merging in Betracht gezogen wurden (LM, Math, Code), sowie den entsprechenden Benchmark-Datensätzen (AlpacaEval, GSM8K, MBPP) zeigt DELLA eine durchschnittliche Verbesserung von 2,4 Punkten gegenüber Basismethoden, die eine Delta-Parameter-Beschneidung verwenden (eine Verbesserung von 3,6 Punkten gegenüber TIES, 1,2 Punkten gegenüber DARE) und 11,1 Punkten gegenüber dem Baseline-Modell ohne Beschneidung (TA). Den Quellcode veröffentlichen wir unter: https://github.com/declare-lab/della.
English
With the proliferation of domain-specific models, model merging has emerged
as a set of techniques that combine the capabilities of multiple models into
one that can multitask without the cost of additional training. In this paper,
we propose a new model merging technique, Drop and rEscaLe via sampLing with
mAgnitude (DELLA-Merging), that employs a novel pruning technique, MAGPRUNE,
which shows significant advantages over DARE and TIES. MAGPRUNE first ranks the
parameters in order of their magnitude and assigns higher dropout probabilities
(p) to parameters with lower ranks corresponding to lower magnitudes. To
approximate the original embeddings, MAGPRUNE employs a rescaling operation on
the parameters that survive the random dropping by 1/(1 - p). On three
different expert models considered for merging (LM, Math, Code) and
corresponding benchmark datasets (AlpacaEval, GSM8K, MBPP), DELLA shows an
average improvement of 2.4 points over baseline methods employing delta
parameter pruning (an improvement of 3.6 points over TIES, 1.2 points over
DARE), and 11.1 points over the no-pruning baseline (TA). We release the source
code at: https://github.com/declare-lab/della.Summary
AI-Generated Summary