Aucune tâche laissée de côté : Fusion de modèles isotropes avec des sous-espaces communs et spécifiques à la tâche
No Task Left Behind: Isotropic Model Merging with Common and Task-Specific Subspaces
February 7, 2025
Auteurs: Daniel Marczak, Simone Magistri, Sebastian Cygert, Bartłomiej Twardowski, Andrew D. Bagdanov, Joost van de Weijer
cs.AI
Résumé
La fusion de modèles intègre les poids de plusieurs modèles spécifiques à des tâches dans un seul modèle multi-tâches. Malgré l'intérêt récent pour le problème, un écart de performance significatif persiste entre les modèles combinés et les modèles mono-tâche. Dans cet article, nous étudions les caractéristiques clés des matrices de tâches -- matrices de mise à jour des poids appliquées à un modèle pré-entraîné -- qui permettent une fusion efficace. Nous montrons que l'alignement entre les composants singuliers des matrices spécifiques à des tâches et fusionnées est fortement corrélé à l'amélioration des performances par rapport au modèle pré-entraîné. Sur cette base, nous proposons un cadre de fusion isotropique qui aplatit le spectre de valeurs singulières des matrices de tâches, améliore l'alignement et réduit l'écart de performance. De plus, nous incorporons à la fois des sous-espaces communs et spécifiques à des tâches pour améliorer davantage l'alignement et les performances. Notre approche proposée atteint des performances de pointe dans plusieurs scénarios, y compris divers ensembles de tâches et échelles de modèles. Ce travail fait progresser la compréhension de la dynamique de fusion de modèles, offrant une méthodologie efficace pour fusionner des modèles sans nécessiter de formation supplémentaire. Le code est disponible sur https://github.com/danielm1405/iso-merging.
English
Model merging integrates the weights of multiple task-specific models into a
single multi-task model. Despite recent interest in the problem, a significant
performance gap between the combined and single-task models remains. In this
paper, we investigate the key characteristics of task matrices -- weight update
matrices applied to a pre-trained model -- that enable effective merging. We
show that alignment between singular components of task-specific and merged
matrices strongly correlates with performance improvement over the pre-trained
model. Based on this, we propose an isotropic merging framework that flattens
the singular value spectrum of task matrices, enhances alignment, and reduces
the performance gap. Additionally, we incorporate both common and task-specific
subspaces to further improve alignment and performance. Our proposed approach
achieves state-of-the-art performance across multiple scenarios, including
various sets of tasks and model scales. This work advances the understanding of
model merging dynamics, offering an effective methodology to merge models
without requiring additional training. Code is available at
https://github.com/danielm1405/iso-merging .Summary
AI-Generated Summary