ChatPaper.aiChatPaper

DELLA-Merging: 크기 기반 샘플링을 통한 모델 병합 간섭 감소

DELLA-Merging: Reducing Interference in Model Merging through Magnitude-Based Sampling

June 17, 2024
저자: Pala Tej Deep, Rishabh Bhardwaj, Soujanya Poria
cs.AI

초록

도메인 특화 모델의 확산과 함께, 모델 병합은 추가적인 학습 비용 없이 다중 작업을 수행할 수 있는 하나의 모델로 여러 모델의 기능을 결합하는 기술로 부상했습니다. 본 논문에서는 새로운 모델 병합 기법인 Drop and rEscaLe via sampLing with mAgnitude (DELLA-Merging)을 제안합니다. 이 기법은 MAGPRUNE이라는 새로운 가지치기(pruning) 기술을 사용하며, DARE와 TIES에 비해 상당한 이점을 보입니다. MAGPRUNE은 먼저 매개변수를 크기(magnitude) 순으로 정렬하고, 더 낮은 순위(즉, 더 작은 크기)에 해당하는 매개변수에 더 높은 드롭아웃 확률(p)을 할당합니다. 원래 임베딩을 근사하기 위해 MAGPRUNE은 무작위 드롭아웃에서 살아남은 매개변수에 1/(1 - p)로 재조정(rescaling) 연산을 적용합니다. 병합을 위해 고려된 세 가지 전문가 모델(LM, Math, Code)과 해당 벤치마크 데이터셋(AlpacaEval, GSM8K, MBPP)에서 DELLA는 델타 매개변수 가지치기를 사용한 베이스라인 방법보다 평균 2.4점의 개선을 보였으며(TIES보다 3.6점, DARE보다 1.2점 개선), 가지치기를 적용하지 않은 베이스라인(TA)보다는 11.1점의 향상을 달성했습니다. 소스 코드는 https://github.com/declare-lab/della에서 공개합니다.
English
With the proliferation of domain-specific models, model merging has emerged as a set of techniques that combine the capabilities of multiple models into one that can multitask without the cost of additional training. In this paper, we propose a new model merging technique, Drop and rEscaLe via sampLing with mAgnitude (DELLA-Merging), that employs a novel pruning technique, MAGPRUNE, which shows significant advantages over DARE and TIES. MAGPRUNE first ranks the parameters in order of their magnitude and assigns higher dropout probabilities (p) to parameters with lower ranks corresponding to lower magnitudes. To approximate the original embeddings, MAGPRUNE employs a rescaling operation on the parameters that survive the random dropping by 1/(1 - p). On three different expert models considered for merging (LM, Math, Code) and corresponding benchmark datasets (AlpacaEval, GSM8K, MBPP), DELLA shows an average improvement of 2.4 points over baseline methods employing delta parameter pruning (an improvement of 3.6 points over TIES, 1.2 points over DARE), and 11.1 points over the no-pruning baseline (TA). We release the source code at: https://github.com/declare-lab/della.

Summary

AI-Generated Summary

PDF81November 29, 2024