ChatPaper.aiChatPaper

Qu'est-ce qui compte pour la fusion de modèles à grande échelle ?

What Matters for Model Merging at Scale?

October 4, 2024
Auteurs: Prateek Yadav, Tu Vu, Jonathan Lai, Alexandra Chronopoulou, Manaal Faruqui, Mohit Bansal, Tsendsuren Munkhdalai
cs.AI

Résumé

La fusion de modèles vise à combiner plusieurs modèles d'experts en un modèle unique plus performant, offrant des avantages tels qu'une réduction des coûts de stockage et de service, une amélioration de la généralisation et un soutien au développement décentralisé des modèles. Malgré ses promesses, les études précédentes se sont principalement concentrées sur la fusion de quelques petits modèles. Cela laisse de nombreuses questions sans réponse sur l'effet de l'augmentation de la taille du modèle et sur la façon dont elle interagit avec d'autres facteurs clés, tels que la qualité du modèle de base et le nombre de modèles d'experts, pour influencer les performances du modèle fusionné. Ce travail évalue systématiquement l'utilité de la fusion de modèles à grande échelle, examinant l'impact de ces différents facteurs. Nous expérimentons en fusionnant des modèles entièrement affinés à l'aide de 4 méthodes de fusion populaires - Moyenne, Arithmétique de tâches, Dare et TIES - sur des tailles de modèles allant de 1 milliard à 64 milliards de paramètres et en fusionnant jusqu'à 8 modèles d'experts différents. Nous évaluons les modèles fusionnés à la fois sur des tâches retenues, c'est-à-dire les tâches d'entraînement des experts, et sur une généralisation sans apprentissage à des tâches non vues. Nos expériences fournissent plusieurs nouvelles perspectives sur la fusion de modèles à grande échelle et sur l'interaction entre différents facteurs. Premièrement, nous constatons que la fusion est plus efficace lorsque les experts sont créés à partir de modèles de base solides, c'est-à-dire des modèles avec une bonne performance sans apprentissage. Deuxièmement, les modèles plus grands facilitent une fusion plus aisée. Troisièmement, la fusion améliore de manière constante les capacités de généralisation. Notamment, lors de la fusion de 8 grands modèles d'experts, les modèles fusionnés généralisent souvent mieux par rapport aux modèles entraînés en multitâche. Quatrièmement, nous pouvons mieux fusionner davantage de modèles d'experts en travaillant avec des modèles plus grands. Cinquièmement, différentes méthodes de fusion se comportent de manière très similaire à plus grande échelle. Dans l'ensemble, nos résultats mettent en lumière certaines propriétés intéressantes de la fusion de modèles tout en soulignant certaines limitations. Nous espérons que cette étude servira de point de référence sur la fusion à grande échelle pour les recherches à venir.
English
Model merging aims to combine multiple expert models into a more capable single model, offering benefits such as reduced storage and serving costs, improved generalization, and support for decentralized model development. Despite its promise, previous studies have primarily focused on merging a few small models. This leaves many unanswered questions about the effect of scaling model size and how it interplays with other key factors -- like the base model quality and number of expert models -- , to affect the merged model's performance. This work systematically evaluates the utility of model merging at scale, examining the impact of these different factors. We experiment with merging fully fine-tuned models using 4 popular merging methods -- Averaging, Task~Arithmetic, Dare, and TIES -- across model sizes ranging from 1B-64B parameters and merging up to 8 different expert models. We evaluate the merged models on both held-in tasks, i.e., the expert's training tasks, and zero-shot generalization to unseen held-out tasks. Our experiments provide several new insights about model merging at scale and the interplay between different factors. First, we find that merging is more effective when experts are created from strong base models, i.e., models with good zero-shot performance. Second, larger models facilitate easier merging. Third merging consistently improves generalization capabilities. Notably, when merging 8 large expert models, the merged models often generalize better compared to the multitask trained models. Fourth, we can better merge more expert models when working with larger models. Fifth, different merging methods behave very similarly at larger scales. Overall, our findings shed light on some interesting properties of model merging while also highlighting some limitations. We hope that this study will serve as a reference point on large-scale merging for upcoming research.

Summary

AI-Generated Summary

PDF82November 16, 2024