ChatPaper.aiChatPaper

Ни одна задача не останется без внимания: объединение моделей изотропного типа с общими и задачно-специфическими подпространствами.

No Task Left Behind: Isotropic Model Merging with Common and Task-Specific Subspaces

February 7, 2025
Авторы: Daniel Marczak, Simone Magistri, Sebastian Cygert, Bartłomiej Twardowski, Andrew D. Bagdanov, Joost van de Weijer
cs.AI

Аннотация

Слияние моделей интегрирует веса нескольких моделей, специфичных для задач, в одну многозадачную модель. Несмотря на недавний интерес к проблеме, остается значительный разрыв в производительности между объединенными и однозадачными моделями. В данной статье мы исследуем ключевые характеристики матриц задач - матриц обновления весов, применяемых к предварительно обученной модели - которые обеспечивают эффективное слияние. Мы показываем, что согласованность между отдельными компонентами моделей, специфичных для задач, и объединенными матрицами тесно коррелирует с улучшением производительности по сравнению с предварительно обученной моделью. На основе этого мы предлагаем изотропную рамочную модель слияния, которая выравнивает спектр сингулярных значений матриц задач, улучшает согласованность и уменьшает разрыв в производительности. Кроме того, мы включаем как общие, так и специфичные для задач подпространства для дальнейшего улучшения согласованности и производительности. Наш подход достигает передовой производительности в различных сценариях, включая различные наборы задач и масштабы моделей. Эта работа продвигает понимание динамики слияния моделей, предлагая эффективную методологию слияния моделей без необходимости дополнительного обучения. Код доступен по адресу https://github.com/danielm1405/iso-merging.
English
Model merging integrates the weights of multiple task-specific models into a single multi-task model. Despite recent interest in the problem, a significant performance gap between the combined and single-task models remains. In this paper, we investigate the key characteristics of task matrices -- weight update matrices applied to a pre-trained model -- that enable effective merging. We show that alignment between singular components of task-specific and merged matrices strongly correlates with performance improvement over the pre-trained model. Based on this, we propose an isotropic merging framework that flattens the singular value spectrum of task matrices, enhances alignment, and reduces the performance gap. Additionally, we incorporate both common and task-specific subspaces to further improve alignment and performance. Our proposed approach achieves state-of-the-art performance across multiple scenarios, including various sets of tasks and model scales. This work advances the understanding of model merging dynamics, offering an effective methodology to merge models without requiring additional training. Code is available at https://github.com/danielm1405/iso-merging .
PDF112February 10, 2025