Was ist entscheidend für das Zusammenführen von Modellen im großen Maßstab?

papers.abstract

Die Modellzusammenführung zielt darauf ab, mehrere Expertenmodelle in ein leistungsfähigeres einzelnes Modell zu kombinieren, was Vorteile wie reduzierte Speicher- und Betriebskosten, verbesserte Verallgemeinerung und Unterstützung für dezentrale Modellentwicklung bietet. Trotz ihres Potenzials haben sich frühere Studien hauptsächlich auf die Zusammenführung weniger kleiner Modelle konzentriert. Dies wirft viele unbeantwortete Fragen über die Auswirkungen der Skalierung der Modellgröße und deren Zusammenspiel mit anderen wichtigen Faktoren auf - wie die Qualität des Basismodells und die Anzahl der Expertenmodelle -, um die Leistung des zusammengeführten Modells zu beeinflussen. Diese Arbeit bewertet systematisch den Nutzen der Modellzusammenführung im großen Maßstab und untersucht die Auswirkungen dieser verschiedenen Faktoren. Wir experimentieren mit der Zusammenführung vollständig feinabgestimmter Modelle unter Verwendung von 4 beliebten Zusammenführungsmethoden - Durchschnitt, Aufgabenarithmetik, Dare und TIES - über Modellgrößen von 1B-64B Parametern und der Zusammenführung von bis zu 8 verschiedenen Expertenmodellen. Wir bewerten die zusammengeführten Modelle sowohl anhand gehaltener Aufgaben, d.h. den Schulungsaufgaben der Experten, als auch anhand der Generalisierung ohne Vorwissen auf nicht gezeigte gehaltene Aufgaben. Unsere Experimente liefern mehrere neue Erkenntnisse über die Modellzusammenführung im großen Maßstab und das Zusammenspiel verschiedener Faktoren. Erstens stellen wir fest, dass die Zusammenführung effektiver ist, wenn Experten aus starken Basismodellen erstellt werden, d.h. Modellen mit guter Generalisierungsleistung ohne Vorwissen. Zweitens erleichtern größere Modelle eine einfachere Zusammenführung. Drittens verbessert die Zusammenführung konsistent die Verallgemeinerungsfähigkeiten. Bemerkenswert ist, dass die zusammengeführten Modelle oft besser verallgemeinern, verglichen mit den multitask trainierten Modellen, wenn 8 große Expertenmodelle zusammengeführt werden. Viertens können wir mehr Expertenmodelle besser zusammenführen, wenn wir mit größeren Modellen arbeiten. Fünftens verhalten sich verschiedene Zusammenführungsmethoden in größeren Maßstäben sehr ähnlich. Insgesamt beleuchten unsere Ergebnisse einige interessante Eigenschaften der Modellzusammenführung und heben gleichzeitig einige Einschränkungen hervor. Wir hoffen, dass diese Studie als Referenzpunkt für die groß angelegte Zusammenführung für zukünftige Forschung dienen wird.

English

Model merging aims to combine multiple expert models into a more capable single model, offering benefits such as reduced storage and serving costs, improved generalization, and support for decentralized model development. Despite its promise, previous studies have primarily focused on merging a few small models. This leaves many unanswered questions about the effect of scaling model size and how it interplays with other key factors -- like the base model quality and number of expert models -- , to affect the merged model's performance. This work systematically evaluates the utility of model merging at scale, examining the impact of these different factors. We experiment with merging fully fine-tuned models using 4 popular merging methods -- Averaging, Task~Arithmetic, Dare, and TIES -- across model sizes ranging from 1B-64B parameters and merging up to 8 different expert models. We evaluate the merged models on both held-in tasks, i.e., the expert's training tasks, and zero-shot generalization to unseen held-out tasks. Our experiments provide several new insights about model merging at scale and the interplay between different factors. First, we find that merging is more effective when experts are created from strong base models, i.e., models with good zero-shot performance. Second, larger models facilitate easier merging. Third merging consistently improves generalization capabilities. Notably, when merging 8 large expert models, the merged models often generalize better compared to the multitask trained models. Fourth, we can better merge more expert models when working with larger models. Fifth, different merging methods behave very similarly at larger scales. Overall, our findings shed light on some interesting properties of model merging while also highlighting some limitations. We hope that this study will serve as a reference point on large-scale merging for upcoming research.

Was ist entscheidend für das Zusammenführen von Modellen im großen Maßstab?

What Matters for Model Merging at Scale?

papers.abstract

Support