ChatPaper.aiChatPaper

¿Qué es importante para la fusión de modelos a gran escala?

What Matters for Model Merging at Scale?

October 4, 2024
Autores: Prateek Yadav, Tu Vu, Jonathan Lai, Alexandra Chronopoulou, Manaal Faruqui, Mohit Bansal, Tsendsuren Munkhdalai
cs.AI

Resumen

La fusión de modelos tiene como objetivo combinar múltiples modelos expertos en un solo modelo más capaz, ofreciendo beneficios como la reducción de costos de almacenamiento y servicio, una mejor generalización y soporte para el desarrollo descentralizado de modelos. A pesar de su promesa, estudios anteriores se han centrado principalmente en fusionar unos pocos modelos pequeños. Esto deja muchas preguntas sin respuesta sobre el efecto de escalar el tamaño del modelo y cómo interactúa con otros factores clave, como la calidad del modelo base y el número de modelos expertos, para afectar el rendimiento del modelo fusionado. Este trabajo evalúa sistemáticamente la utilidad de la fusión de modelos a escala, examinando el impacto de estos diferentes factores. Experimentamos fusionando modelos completamente ajustados utilizando 4 métodos de fusión populares: Promedio, Aritmética de Tareas, Dare y TIES, en tamaños de modelos que van desde 1B-64B parámetros y fusionando hasta 8 modelos expertos diferentes. Evaluamos los modelos fusionados tanto en tareas retenidas, es decir, las tareas de entrenamiento de los expertos, como en generalización de cero disparos a tareas no vistas. Nuestros experimentos proporcionan varias ideas nuevas sobre la fusión de modelos a escala y la interacción entre diferentes factores. Primero, encontramos que la fusión es más efectiva cuando los expertos se crean a partir de modelos base sólidos, es decir, modelos con buen rendimiento de cero disparos. En segundo lugar, los modelos más grandes facilitan una fusión más sencilla. En tercer lugar, la fusión mejora consistentemente las capacidades de generalización. Especialmente, al fusionar 8 grandes modelos expertos, los modelos fusionados a menudo generalizan mejor en comparación con los modelos entrenados con multitareas. En cuarto lugar, podemos fusionar mejor más modelos expertos al trabajar con modelos más grandes. Quinto, diferentes métodos de fusión se comportan de manera muy similar en escalas mayores. En general, nuestros hallazgos arrojan luz sobre algunas propiedades interesantes de la fusión de modelos, al mismo tiempo que destacan algunas limitaciones. Esperamos que este estudio sirva como punto de referencia sobre la fusión a gran escala para investigaciones futuras.
English
Model merging aims to combine multiple expert models into a more capable single model, offering benefits such as reduced storage and serving costs, improved generalization, and support for decentralized model development. Despite its promise, previous studies have primarily focused on merging a few small models. This leaves many unanswered questions about the effect of scaling model size and how it interplays with other key factors -- like the base model quality and number of expert models -- , to affect the merged model's performance. This work systematically evaluates the utility of model merging at scale, examining the impact of these different factors. We experiment with merging fully fine-tuned models using 4 popular merging methods -- Averaging, Task~Arithmetic, Dare, and TIES -- across model sizes ranging from 1B-64B parameters and merging up to 8 different expert models. We evaluate the merged models on both held-in tasks, i.e., the expert's training tasks, and zero-shot generalization to unseen held-out tasks. Our experiments provide several new insights about model merging at scale and the interplay between different factors. First, we find that merging is more effective when experts are created from strong base models, i.e., models with good zero-shot performance. Second, larger models facilitate easier merging. Third merging consistently improves generalization capabilities. Notably, when merging 8 large expert models, the merged models often generalize better compared to the multitask trained models. Fourth, we can better merge more expert models when working with larger models. Fifth, different merging methods behave very similarly at larger scales. Overall, our findings shed light on some interesting properties of model merging while also highlighting some limitations. We hope that this study will serve as a reference point on large-scale merging for upcoming research.

Summary

AI-Generated Summary

PDF82November 16, 2024