ChatPaper.aiChatPaper

O que é importante para a fusão de modelos em grande escala?

What Matters for Model Merging at Scale?

October 4, 2024
Autores: Prateek Yadav, Tu Vu, Jonathan Lai, Alexandra Chronopoulou, Manaal Faruqui, Mohit Bansal, Tsendsuren Munkhdalai
cs.AI

Resumo

A fusão de modelos tem como objetivo combinar vários modelos especializados em um único modelo mais capaz, oferecendo benefícios como redução de custos de armazenamento e operação, melhoria na generalização e suporte ao desenvolvimento descentralizado de modelos. Apesar de suas promessas, estudos anteriores têm se concentrado principalmente na fusão de alguns modelos pequenos, deixando muitas questões em aberto sobre o efeito da escala do tamanho do modelo e como isso interage com outros fatores-chave - como a qualidade do modelo base e o número de modelos especializados - para afetar o desempenho do modelo fundido. Este trabalho avalia sistematicamente a utilidade da fusão de modelos em escala, examinando o impacto desses diferentes fatores. Experimentamos a fusão de modelos totalmente ajustados usando 4 métodos de fusão populares - Média, Aritmética de Tarefas, Dare e TIES - em tamanhos de modelo variando de 1B-64B parâmetros e fundindo até 8 modelos especializados diferentes. Avaliamos os modelos fundidos em tarefas mantidas internamente, ou seja, as tarefas de treinamento dos especialistas, e na generalização de zero-shot para tarefas mantidas externamente não vistas. Nossos experimentos fornecem várias novas perspectivas sobre a fusão de modelos em escala e a interação entre diferentes fatores. Primeiramente, descobrimos que a fusão é mais eficaz quando os especialistas são criados a partir de modelos base fortes, ou seja, modelos com bom desempenho de zero-shot. Em segundo lugar, modelos maiores facilitam uma fusão mais simples. Em terceiro lugar, a fusão melhora consistentemente as capacidades de generalização. Notavelmente, ao fundir 8 grandes modelos especializados, os modelos fundidos frequentemente generalizam melhor em comparação com os modelos treinados em multitarefa. Em quarto lugar, podemos fundir melhor mais modelos especializados ao trabalhar com modelos maiores. Em quinto lugar, diferentes métodos de fusão se comportam de maneira muito semelhante em escalas maiores. No geral, nossas descobertas lançam luz sobre algumas propriedades interessantes da fusão de modelos, destacando também algumas limitações. Esperamos que este estudo sirva como um ponto de referência sobre fusão em larga escala para pesquisas futuras.
English
Model merging aims to combine multiple expert models into a more capable single model, offering benefits such as reduced storage and serving costs, improved generalization, and support for decentralized model development. Despite its promise, previous studies have primarily focused on merging a few small models. This leaves many unanswered questions about the effect of scaling model size and how it interplays with other key factors -- like the base model quality and number of expert models -- , to affect the merged model's performance. This work systematically evaluates the utility of model merging at scale, examining the impact of these different factors. We experiment with merging fully fine-tuned models using 4 popular merging methods -- Averaging, Task~Arithmetic, Dare, and TIES -- across model sizes ranging from 1B-64B parameters and merging up to 8 different expert models. We evaluate the merged models on both held-in tasks, i.e., the expert's training tasks, and zero-shot generalization to unseen held-out tasks. Our experiments provide several new insights about model merging at scale and the interplay between different factors. First, we find that merging is more effective when experts are created from strong base models, i.e., models with good zero-shot performance. Second, larger models facilitate easier merging. Third merging consistently improves generalization capabilities. Notably, when merging 8 large expert models, the merged models often generalize better compared to the multitask trained models. Fourth, we can better merge more expert models when working with larger models. Fifth, different merging methods behave very similarly at larger scales. Overall, our findings shed light on some interesting properties of model merging while also highlighting some limitations. We hope that this study will serve as a reference point on large-scale merging for upcoming research.

Summary

AI-Generated Summary

PDF82November 16, 2024