ChatPaper.aiChatPaper

DELLA-Merging: マグニチュードベースサンプリングによるモデルマージングにおける干渉の低減

DELLA-Merging: Reducing Interference in Model Merging through Magnitude-Based Sampling

June 17, 2024
著者: Pala Tej Deep, Rishabh Bhardwaj, Soujanya Poria
cs.AI

要旨

ドメイン特化型モデルの普及に伴い、モデルマージングは複数のモデルの能力を単一のモデルに統合し、追加のトレーニングコストをかけずにマルチタスクを可能にする技術として注目を集めています。本論文では、新しいモデルマージング技術である「Drop and rEscaLe via sampLing with mAgnitude (DELLA-Merging)」を提案します。この技術は、新たなプルーニング手法「MAGPRUNE」を採用しており、DAREやTIESを上回る大きな利点を示しています。MAGPRUNEは、まずパラメータをその大きさに基づいてランク付けし、低いランク(つまり小さい大きさ)に対応するパラメータに高いドロップアウト確率(p)を割り当てます。元の埋め込みを近似するために、MAGPRUNEはランダムなドロップを生き残ったパラメータに対して1/(1 - p)のリスケーリング操作を行います。マージング対象とした3つの専門モデル(LM、Math、Code)と対応するベンチマークデータセット(AlpacaEval、GSM8K、MBPP)において、DELLAはデルタパラメータプルーニングを採用したベースライン手法に対して平均2.4ポイントの改善(TIESに対して3.6ポイント、DAREに対して1.2ポイントの改善)を示し、プルーニングを行わないベースライン(TA)に対しては11.1ポイントの改善を達成しました。ソースコードは以下で公開しています: https://github.com/declare-lab/della。
English
With the proliferation of domain-specific models, model merging has emerged as a set of techniques that combine the capabilities of multiple models into one that can multitask without the cost of additional training. In this paper, we propose a new model merging technique, Drop and rEscaLe via sampLing with mAgnitude (DELLA-Merging), that employs a novel pruning technique, MAGPRUNE, which shows significant advantages over DARE and TIES. MAGPRUNE first ranks the parameters in order of their magnitude and assigns higher dropout probabilities (p) to parameters with lower ranks corresponding to lower magnitudes. To approximate the original embeddings, MAGPRUNE employs a rescaling operation on the parameters that survive the random dropping by 1/(1 - p). On three different expert models considered for merging (LM, Math, Code) and corresponding benchmark datasets (AlpacaEval, GSM8K, MBPP), DELLA shows an average improvement of 2.4 points over baseline methods employing delta parameter pruning (an improvement of 3.6 points over TIES, 1.2 points over DARE), and 11.1 points over the no-pruning baseline (TA). We release the source code at: https://github.com/declare-lab/della.

Summary

AI-Generated Summary

PDF81November 29, 2024