Cosa conta per la fusione dei modelli su larga scala?
What Matters for Model Merging at Scale?
October 4, 2024
Autori: Prateek Yadav, Tu Vu, Jonathan Lai, Alexandra Chronopoulou, Manaal Faruqui, Mohit Bansal, Tsendsuren Munkhdalai
cs.AI
Abstract
La fusione di modelli mira a combinare più modelli esperti in un unico modello più capace, offrendo vantaggi come la riduzione dei costi di archiviazione e di servizio, un'ottimizzazione della generalizzazione e il supporto allo sviluppo decentralizzato dei modelli. Nonostante le sue potenzialità, studi precedenti si sono concentrati principalmente sulla fusione di alcuni modelli di piccole dimensioni. Ciò lascia molte domande senza risposta sull'effetto della scalabilità delle dimensioni del modello e su come interagisca con altri fattori chiave - come la qualità del modello di base e il numero di modelli esperti - per influenzare le prestazioni del modello fuso. Questo lavoro valuta sistematicamente l'utilità della fusione di modelli su larga scala, esaminando l'impatto di questi diversi fattori. Sperimentiamo la fusione di modelli completamente ottimizzati utilizzando 4 metodi di fusione popolari - Media, Aritmetica delle Attività, Dare e TIES - su dimensioni del modello che vanno da 1 miliardo a 64 miliardi di parametri e fondendo fino a 8 diversi modelli esperti. Valutiamo i modelli fusi sia su compiti mantenuti, cioè i compiti di addestramento degli esperti, sia sulla generalizzazione zero-shot a compiti non visti. I nostri esperimenti forniscono diverse nuove intuizioni sulla fusione di modelli su larga scala e sull'interazione tra diversi fattori. In primo luogo, scopriamo che la fusione è più efficace quando gli esperti sono creati da modelli di base solidi, cioè modelli con buone prestazioni zero-shot. In secondo luogo, modelli più grandi facilitano una fusione più semplice. Terzo, la fusione migliora costantemente le capacità di generalizzazione. In particolare, quando si fondono 8 grandi modelli esperti, i modelli fusi spesso generalizzano meglio rispetto ai modelli addestrati con multitasking. In quarto luogo, possiamo fondere meglio più modelli esperti quando si lavora con modelli più grandi. Quinto, diversi metodi di fusione si comportano in modo molto simile su scale più grandi. Nel complesso, le nostre scoperte gettano luce su alcune interessanti proprietà della fusione di modelli, evidenziando anche alcune limitazioni. Speriamo che questo studio possa servire come punto di riferimento sulla fusione su larga scala per le ricerche future.
English
Model merging aims to combine multiple expert models into a more capable
single model, offering benefits such as reduced storage and serving costs,
improved generalization, and support for decentralized model development.
Despite its promise, previous studies have primarily focused on merging a few
small models. This leaves many unanswered questions about the effect of scaling
model size and how it interplays with other key factors -- like the base model
quality and number of expert models -- , to affect the merged model's
performance. This work systematically evaluates the utility of model merging at
scale, examining the impact of these different factors. We experiment with
merging fully fine-tuned models using 4 popular merging methods -- Averaging,
Task~Arithmetic, Dare, and TIES -- across model sizes ranging from 1B-64B
parameters and merging up to 8 different expert models. We evaluate the merged
models on both held-in tasks, i.e., the expert's training tasks, and zero-shot
generalization to unseen held-out tasks. Our experiments provide several new
insights about model merging at scale and the interplay between different
factors. First, we find that merging is more effective when experts are created
from strong base models, i.e., models with good zero-shot performance. Second,
larger models facilitate easier merging. Third merging consistently improves
generalization capabilities. Notably, when merging 8 large expert models, the
merged models often generalize better compared to the multitask trained models.
Fourth, we can better merge more expert models when working with larger models.
Fifth, different merging methods behave very similarly at larger scales.
Overall, our findings shed light on some interesting properties of model
merging while also highlighting some limitations. We hope that this study will
serve as a reference point on large-scale merging for upcoming research.