DELLA-Verschmelzung: Reduzierung von Interferenzen bei der Modellverschmelzung durch stichprobenbasierte Auswahl nach Betrag

papers.abstract

Mit der Verbreitung von domänenspezifischen Modellen hat sich das Modell-Merging als eine Reihe von Techniken etabliert, die die Fähigkeiten mehrerer Modelle kombinieren, um ein Modell zu schaffen, das mehrere Aufgaben gleichzeitig erledigen kann, ohne zusätzliche Schulungskosten zu verursachen. In diesem Papier schlagen wir eine neue Modell-Merging-Technik namens Drop and rEscaLe via sampLing with mAgnitude (DELLA-Merging) vor, die eine neuartige Beschneidungstechnik, MAGPRUNE, verwendet, die signifikante Vorteile gegenüber DARE und TIES aufweist. MAGPRUNE ordnet zunächst die Parameter nach ihrer Größenordnung und weist Parametern mit niedrigeren Rängen, die niedrigeren Größenordnungen entsprechen, höhere Ausfallwahrscheinlichkeiten (p) zu. Um die ursprünglichen Einbettungen zu approximieren, verwendet MAGPRUNE eine Neuskalierung der Parameter, die das Überleben des zufälligen Ausfalls um 1/(1 - p) ermöglicht. Anhand von drei verschiedenen Expertenmodellen, die für das Merging in Betracht gezogen wurden (LM, Math, Code), sowie den entsprechenden Benchmark-Datensätzen (AlpacaEval, GSM8K, MBPP) zeigt DELLA eine durchschnittliche Verbesserung von 2,4 Punkten gegenüber Basismethoden, die eine Delta-Parameter-Beschneidung verwenden (eine Verbesserung von 3,6 Punkten gegenüber TIES, 1,2 Punkten gegenüber DARE) und 11,1 Punkten gegenüber dem Baseline-Modell ohne Beschneidung (TA). Den Quellcode veröffentlichen wir unter: https://github.com/declare-lab/della.

English

With the proliferation of domain-specific models, model merging has emerged as a set of techniques that combine the capabilities of multiple models into one that can multitask without the cost of additional training. In this paper, we propose a new model merging technique, Drop and rEscaLe via sampLing with mAgnitude (DELLA-Merging), that employs a novel pruning technique, MAGPRUNE, which shows significant advantages over DARE and TIES. MAGPRUNE first ranks the parameters in order of their magnitude and assigns higher dropout probabilities (p) to parameters with lower ranks corresponding to lower magnitudes. To approximate the original embeddings, MAGPRUNE employs a rescaling operation on the parameters that survive the random dropping by 1/(1 - p). On three different expert models considered for merging (LM, Math, Code) and corresponding benchmark datasets (AlpacaEval, GSM8K, MBPP), DELLA shows an average improvement of 2.4 points over baseline methods employing delta parameter pruning (an improvement of 3.6 points over TIES, 1.2 points over DARE), and 11.1 points over the no-pruning baseline (TA). We release the source code at: https://github.com/declare-lab/della.

DELLA-Verschmelzung: Reduzierung von Interferenzen bei der Modellverschmelzung durch stichprobenbasierte Auswahl nach Betrag

DELLA-Merging: Reducing Interference in Model Merging through Magnitude-Based Sampling

papers.abstract

Support