DELLA-Merging: Reducción de Interferencias en la Fusión de Modelos mediante Muestreo Basado en Magnitud
DELLA-Merging: Reducing Interference in Model Merging through Magnitude-Based Sampling
June 17, 2024
Autores: Pala Tej Deep, Rishabh Bhardwaj, Soujanya Poria
cs.AI
Resumen
Con la proliferación de modelos específicos de dominio, la fusión de modelos ha surgido como un conjunto de técnicas que combinan las capacidades de múltiples modelos en uno que puede realizar múltiples tareas sin el costo de entrenamiento adicional. En este artículo, proponemos una nueva técnica de fusión de modelos, Drop and rEscaLe via sampLing with mAgnitude (DELLA-Merging), que emplea una novedosa técnica de poda, MAGPRUNE, que muestra ventajas significativas sobre DARE y TIES. MAGPRUNE primero clasifica los parámetros en orden de su magnitud y asigna probabilidades de descarte (p) más altas a los parámetros con rangos más bajos, correspondientes a magnitudes menores. Para aproximar las incrustaciones originales, MAGPRUNE emplea una operación de reescalado en los parámetros que sobreviven al descarte aleatorio por 1/(1 - p). En tres modelos expertos considerados para la fusión (LM, Math, Code) y los conjuntos de datos de referencia correspondientes (AlpacaEval, GSM8K, MBPP), DELLA muestra una mejora promedio de 2.4 puntos sobre los métodos base que emplean la poda de parámetros delta (una mejora de 3.6 puntos sobre TIES, 1.2 puntos sobre DARE), y 11.1 puntos sobre la línea base sin poda (TA). Publicamos el código fuente en: https://github.com/declare-lab/della.
English
With the proliferation of domain-specific models, model merging has emerged
as a set of techniques that combine the capabilities of multiple models into
one that can multitask without the cost of additional training. In this paper,
we propose a new model merging technique, Drop and rEscaLe via sampLing with
mAgnitude (DELLA-Merging), that employs a novel pruning technique, MAGPRUNE,
which shows significant advantages over DARE and TIES. MAGPRUNE first ranks the
parameters in order of their magnitude and assigns higher dropout probabilities
(p) to parameters with lower ranks corresponding to lower magnitudes. To
approximate the original embeddings, MAGPRUNE employs a rescaling operation on
the parameters that survive the random dropping by 1/(1 - p). On three
different expert models considered for merging (LM, Math, Code) and
corresponding benchmark datasets (AlpacaEval, GSM8K, MBPP), DELLA shows an
average improvement of 2.4 points over baseline methods employing delta
parameter pruning (an improvement of 3.6 points over TIES, 1.2 points over
DARE), and 11.1 points over the no-pruning baseline (TA). We release the source
code at: https://github.com/declare-lab/della.Summary
AI-Generated Summary