DELLA-Merging: 크기 기반 샘플링을 통한 모델 병합 간섭 감소
DELLA-Merging: Reducing Interference in Model Merging through Magnitude-Based Sampling
June 17, 2024
저자: Pala Tej Deep, Rishabh Bhardwaj, Soujanya Poria
cs.AI
초록
도메인 특화 모델의 확산과 함께, 모델 병합은 추가적인 학습 비용 없이 다중 작업을 수행할 수 있는 하나의 모델로 여러 모델의 기능을 결합하는 기술로 부상했습니다. 본 논문에서는 새로운 모델 병합 기법인 Drop and rEscaLe via sampLing with mAgnitude (DELLA-Merging)을 제안합니다. 이 기법은 MAGPRUNE이라는 새로운 가지치기(pruning) 기술을 사용하며, DARE와 TIES에 비해 상당한 이점을 보입니다. MAGPRUNE은 먼저 매개변수를 크기(magnitude) 순으로 정렬하고, 더 낮은 순위(즉, 더 작은 크기)에 해당하는 매개변수에 더 높은 드롭아웃 확률(p)을 할당합니다. 원래 임베딩을 근사하기 위해 MAGPRUNE은 무작위 드롭아웃에서 살아남은 매개변수에 1/(1 - p)로 재조정(rescaling) 연산을 적용합니다. 병합을 위해 고려된 세 가지 전문가 모델(LM, Math, Code)과 해당 벤치마크 데이터셋(AlpacaEval, GSM8K, MBPP)에서 DELLA는 델타 매개변수 가지치기를 사용한 베이스라인 방법보다 평균 2.4점의 개선을 보였으며(TIES보다 3.6점, DARE보다 1.2점 개선), 가지치기를 적용하지 않은 베이스라인(TA)보다는 11.1점의 향상을 달성했습니다. 소스 코드는 https://github.com/declare-lab/della에서 공개합니다.
English
With the proliferation of domain-specific models, model merging has emerged
as a set of techniques that combine the capabilities of multiple models into
one that can multitask without the cost of additional training. In this paper,
we propose a new model merging technique, Drop and rEscaLe via sampLing with
mAgnitude (DELLA-Merging), that employs a novel pruning technique, MAGPRUNE,
which shows significant advantages over DARE and TIES. MAGPRUNE first ranks the
parameters in order of their magnitude and assigns higher dropout probabilities
(p) to parameters with lower ranks corresponding to lower magnitudes. To
approximate the original embeddings, MAGPRUNE employs a rescaling operation on
the parameters that survive the random dropping by 1/(1 - p). On three
different expert models considered for merging (LM, Math, Code) and
corresponding benchmark datasets (AlpacaEval, GSM8K, MBPP), DELLA shows an
average improvement of 2.4 points over baseline methods employing delta
parameter pruning (an improvement of 3.6 points over TIES, 1.2 points over
DARE), and 11.1 points over the no-pruning baseline (TA). We release the source
code at: https://github.com/declare-lab/della.Summary
AI-Generated Summary