Wat is belangrijk voor het samenvoegen van modellen op grote schaal?
What Matters for Model Merging at Scale?
October 4, 2024
Auteurs: Prateek Yadav, Tu Vu, Jonathan Lai, Alexandra Chronopoulou, Manaal Faruqui, Mohit Bansal, Tsendsuren Munkhdalai
cs.AI
Samenvatting
Model samenvoegen heeft als doel om meerdere expertmodellen te combineren tot een capabeler enkel model, met voordelen zoals verminderde opslag- en serverkosten, verbeterde generalisatie en ondersteuning voor gedecentraliseerde modelontwikkeling. Ondanks de belofte hebben eerdere studies zich voornamelijk gericht op het samenvoegen van een paar kleine modellen. Dit laat veel onbeantwoorde vragen over het effect van het vergroten van de modelgrootte en hoe dit samenhangt met andere belangrijke factoren -- zoals de kwaliteit van het basismodel en het aantal expertmodellen -- om de prestaties van het samengevoegde model te beïnvloeden. Dit werk evalueert systematisch de bruikbaarheid van model samenvoegen op schaal, waarbij het effect van deze verschillende factoren wordt onderzocht. We experimenteren met het samenvoegen van volledig fijnafgestemde modellen met behulp van 4 populaire samenvoegmethoden -- Gemiddelde, Taakaritmetica, Dare en TIES -- over modelgroottes variërend van 1B-64B parameters en het samenvoegen van maximaal 8 verschillende expertmodellen. We evalueren de samengevoegde modellen zowel op vastgehouden taken, d.w.z. de trainings taken van de expert, als op generalisatie naar ongeziene uitgehouden taken. Onze experimenten bieden verschillende nieuwe inzichten over model samenvoegen op schaal en de interactie tussen verschillende factoren. Ten eerste vinden we dat samenvoegen effectiever is wanneer experts worden gecreëerd van sterke basismodellen, d.w.z. modellen met goede zero-shot prestaties. Ten tweede vergemakkelijken grotere modellen het samenvoegen. Ten derde verbetert samenvoegen consequent de generalisatiecapaciteiten. Opmerkelijk is dat bij het samenvoegen van 8 grote expertmodellen, de samengevoegde modellen vaak beter generaliseren in vergelijking met de multitask getrainde modellen. Ten vierde kunnen we beter meer expertmodellen samenvoegen wanneer we werken met grotere modellen. Ten vijfde gedragen verschillende samenvoegmethoden zich zeer vergelijkbaar op grotere schalen. Over het algemeen werpen onze bevindingen licht op enkele interessante eigenschappen van model samenvoegen, terwijl ze ook enkele beperkingen benadrukken. We hopen dat deze studie zal dienen als referentiepunt voor grootschalig samenvoegen voor toekomstig onderzoek.
English
Model merging aims to combine multiple expert models into a more capable
single model, offering benefits such as reduced storage and serving costs,
improved generalization, and support for decentralized model development.
Despite its promise, previous studies have primarily focused on merging a few
small models. This leaves many unanswered questions about the effect of scaling
model size and how it interplays with other key factors -- like the base model
quality and number of expert models -- , to affect the merged model's
performance. This work systematically evaluates the utility of model merging at
scale, examining the impact of these different factors. We experiment with
merging fully fine-tuned models using 4 popular merging methods -- Averaging,
Task~Arithmetic, Dare, and TIES -- across model sizes ranging from 1B-64B
parameters and merging up to 8 different expert models. We evaluate the merged
models on both held-in tasks, i.e., the expert's training tasks, and zero-shot
generalization to unseen held-out tasks. Our experiments provide several new
insights about model merging at scale and the interplay between different
factors. First, we find that merging is more effective when experts are created
from strong base models, i.e., models with good zero-shot performance. Second,
larger models facilitate easier merging. Third merging consistently improves
generalization capabilities. Notably, when merging 8 large expert models, the
merged models often generalize better compared to the multitask trained models.
Fourth, we can better merge more expert models when working with larger models.
Fifth, different merging methods behave very similarly at larger scales.
Overall, our findings shed light on some interesting properties of model
merging while also highlighting some limitations. We hope that this study will
serve as a reference point on large-scale merging for upcoming research.Summary
AI-Generated Summary