대규모 모델 병합에서 중요한 요소는 무엇인가요?
What Matters for Model Merging at Scale?
October 4, 2024
저자: Prateek Yadav, Tu Vu, Jonathan Lai, Alexandra Chronopoulou, Manaal Faruqui, Mohit Bansal, Tsendsuren Munkhdalai
cs.AI
초록
모델 병합은 여러 전문가 모델을 더 강력한 단일 모델로 결합하여 저장 및 서비스 비용을 줄이고 개선된 일반화 및 분산 모델 개발 지원과 같은 이점을 제공하는 것을 목표로 합니다. 그러나 이러한 유망성에도 불구하고, 이전 연구들은 주로 소규모 모델을 병합하는 데 초점을 맞추었습니다. 이로 인해 모델 크기의 확장이 모델 크기 조정과 다른 주요 요인들 -- 기본 모델 품질 및 전문가 모델 수와 같은 -- 과 어떻게 상호작용하여 병합된 모델의 성능에 영향을 미치는지에 대한 많은 질문이 남아 있습니다. 본 연구는 모델 병합의 유효성을 체계적으로 평가하며 이러한 다양한 요인들의 영향을 조사합니다. 우리는 1B-64B 매개변수 범위의 모델 크기에서 8개의 다른 전문가 모델을 병합하는 실험을 수행하면서 4가지 인기있는 병합 방법 -- 평균화, 작업 산술, Dare 및 TIES -- 를 사용합니다. 우리는 전문가의 훈련 작업인 보유 작업과 보유되지 않은 작업에 대한 제로샷 일반화 모델을 평가합니다. 우리의 실험은 대규모 모델 병합의 유용성과 다양한 요인들 간의 상호작용을 조사하여 새로운 통찰력을 제공합니다. 첫째, 우리는 전문가가 좋은 제로샷 성능을 가진 강력한 기본 모델에서 생성될 때 병합이 더 효과적임을 발견했습니다. 둘째, 더 큰 모델은 더 쉬운 병합을 용이하게 합니다. 셋째, 병합은 일반화 능력을 일관되게 향상시킵니다. 특히, 8개의 대규모 전문가 모델을 병합할 때, 병합된 모델은 종래의 다중 작업 훈련 모델보다 일반화 성능이 더 좋을 때가 많습니다. 넷째, 더 큰 모델을 다룰 때 더 많은 전문가 모델을 더 잘 병합할 수 있습니다. 다섯째, 다른 병합 방법들은 대규모에서 매우 유사하게 작동합니다. 전반적으로, 우리의 연구 결과는 모델 병합의 흥미로운 특성을 밝히면서 동시에 일부 제한 사항을 강조합니다. 이 연구가 향후 연구를 위한 대규모 병합의 참고 자료로 활용되기를 희망합니다.
English
Model merging aims to combine multiple expert models into a more capable
single model, offering benefits such as reduced storage and serving costs,
improved generalization, and support for decentralized model development.
Despite its promise, previous studies have primarily focused on merging a few
small models. This leaves many unanswered questions about the effect of scaling
model size and how it interplays with other key factors -- like the base model
quality and number of expert models -- , to affect the merged model's
performance. This work systematically evaluates the utility of model merging at
scale, examining the impact of these different factors. We experiment with
merging fully fine-tuned models using 4 popular merging methods -- Averaging,
Task~Arithmetic, Dare, and TIES -- across model sizes ranging from 1B-64B
parameters and merging up to 8 different expert models. We evaluate the merged
models on both held-in tasks, i.e., the expert's training tasks, and zero-shot
generalization to unseen held-out tasks. Our experiments provide several new
insights about model merging at scale and the interplay between different
factors. First, we find that merging is more effective when experts are created
from strong base models, i.e., models with good zero-shot performance. Second,
larger models facilitate easier merging. Third merging consistently improves
generalization capabilities. Notably, when merging 8 large expert models, the
merged models often generalize better compared to the multitask trained models.
Fourth, we can better merge more expert models when working with larger models.
Fifth, different merging methods behave very similarly at larger scales.
Overall, our findings shed light on some interesting properties of model
merging while also highlighting some limitations. We hope that this study will
serve as a reference point on large-scale merging for upcoming research.Summary
AI-Generated Summary