ChatPaper.aiChatPaper

Что важно для объединения моделей в масштабе?

What Matters for Model Merging at Scale?

October 4, 2024
Авторы: Prateek Yadav, Tu Vu, Jonathan Lai, Alexandra Chronopoulou, Manaal Faruqui, Mohit Bansal, Tsendsuren Munkhdalai
cs.AI

Аннотация

Слияние моделей направлено на объединение нескольких экспертных моделей в более способную одиночную модель, предлагая преимущества, такие как снижение затрат на хранение и обслуживание, улучшенная обобщающая способность и поддержка децентрализованного развития моделей. Несмотря на свои перспективы, предыдущие исследования в основном сосредоточены на слиянии нескольких небольших моделей. Это оставляет много нерешенных вопросов о влиянии масштабирования размера модели и взаимодействии с другими ключевыми факторами - такими как качество базовой модели и количество экспертных моделей - на производительность объединенной модели. В данной работе систематически оценивается полезность слияния моделей в масштабе, изучая влияние этих различных факторов. Мы экспериментируем со слиянием полностью донастроенных моделей с использованием 4 популярных методов слияния - Усреднение, Арифметика задач, Dare и TIES - на моделях различного размера от 1 млрд до 64 млрд параметров и слиянием до 8 различных экспертных моделей. Мы оцениваем объединенные модели как на удерживаемых задачах, т.е. на обучающих задачах экспертов, так и на обобщении нулевого уровня к невидимым задачам. Наши эксперименты предоставляют несколько новых идей о слиянии моделей в масштабе и взаимодействии между различными факторами. Во-первых, мы обнаружили, что слияние эффективнее, когда эксперты созданы на основе сильных базовых моделей, т.е. моделей с хорошей производительностью на обобщении нулевого уровня. Во-вторых, более крупные модели облегчают слияние. В-третьих, слияние последовательно улучшает обобщающие способности. Заметно, что при слиянии 8 крупных экспертных моделей объединенные модели часто обобщают лучше по сравнению с моделями, обученными на нескольких задачах. В-четвертых, мы можем лучше сливать больше экспертных моделей, когда работаем с более крупными моделями. В-пятых, различные методы слияния ведут себя очень похожим образом на более крупных масштабах. В целом, наши результаты проливают свет на некоторые интересные свойства слияния моделей, а также выделяют некоторые ограничения. Мы надеемся, что данное исследование послужит точкой отсчета для исследований слияния в крупном масштабе в будущем.
English
Model merging aims to combine multiple expert models into a more capable single model, offering benefits such as reduced storage and serving costs, improved generalization, and support for decentralized model development. Despite its promise, previous studies have primarily focused on merging a few small models. This leaves many unanswered questions about the effect of scaling model size and how it interplays with other key factors -- like the base model quality and number of expert models -- , to affect the merged model's performance. This work systematically evaluates the utility of model merging at scale, examining the impact of these different factors. We experiment with merging fully fine-tuned models using 4 popular merging methods -- Averaging, Task~Arithmetic, Dare, and TIES -- across model sizes ranging from 1B-64B parameters and merging up to 8 different expert models. We evaluate the merged models on both held-in tasks, i.e., the expert's training tasks, and zero-shot generalization to unseen held-out tasks. Our experiments provide several new insights about model merging at scale and the interplay between different factors. First, we find that merging is more effective when experts are created from strong base models, i.e., models with good zero-shot performance. Second, larger models facilitate easier merging. Third merging consistently improves generalization capabilities. Notably, when merging 8 large expert models, the merged models often generalize better compared to the multitask trained models. Fourth, we can better merge more expert models when working with larger models. Fifth, different merging methods behave very similarly at larger scales. Overall, our findings shed light on some interesting properties of model merging while also highlighting some limitations. We hope that this study will serve as a reference point on large-scale merging for upcoming research.

Summary

AI-Generated Summary

PDF82November 16, 2024