Aucune tâche laissée de côté : Fusion de modèles isotropes avec des sous-espaces communs et spécifiques à la tâche

papers.abstract

La fusion de modèles intègre les poids de plusieurs modèles spécifiques à des tâches dans un seul modèle multi-tâches. Malgré l'intérêt récent pour le problème, un écart de performance significatif persiste entre les modèles combinés et les modèles mono-tâche. Dans cet article, nous étudions les caractéristiques clés des matrices de tâches -- matrices de mise à jour des poids appliquées à un modèle pré-entraîné -- qui permettent une fusion efficace. Nous montrons que l'alignement entre les composants singuliers des matrices spécifiques à des tâches et fusionnées est fortement corrélé à l'amélioration des performances par rapport au modèle pré-entraîné. Sur cette base, nous proposons un cadre de fusion isotropique qui aplatit le spectre de valeurs singulières des matrices de tâches, améliore l'alignement et réduit l'écart de performance. De plus, nous incorporons à la fois des sous-espaces communs et spécifiques à des tâches pour améliorer davantage l'alignement et les performances. Notre approche proposée atteint des performances de pointe dans plusieurs scénarios, y compris divers ensembles de tâches et échelles de modèles. Ce travail fait progresser la compréhension de la dynamique de fusion de modèles, offrant une méthodologie efficace pour fusionner des modèles sans nécessiter de formation supplémentaire. Le code est disponible sur https://github.com/danielm1405/iso-merging.

English

Model merging integrates the weights of multiple task-specific models into a single multi-task model. Despite recent interest in the problem, a significant performance gap between the combined and single-task models remains. In this paper, we investigate the key characteristics of task matrices -- weight update matrices applied to a pre-trained model -- that enable effective merging. We show that alignment between singular components of task-specific and merged matrices strongly correlates with performance improvement over the pre-trained model. Based on this, we propose an isotropic merging framework that flattens the singular value spectrum of task matrices, enhances alignment, and reduces the performance gap. Additionally, we incorporate both common and task-specific subspaces to further improve alignment and performance. Our proposed approach achieves state-of-the-art performance across multiple scenarios, including various sets of tasks and model scales. This work advances the understanding of model merging dynamics, offering an effective methodology to merge models without requiring additional training. Code is available at https://github.com/danielm1405/iso-merging .

Aucune tâche laissée de côté : Fusion de modèles isotropes avec des sous-espaces communs et spécifiques à la tâche

No Task Left Behind: Isotropic Model Merging with Common and Task-Specific Subspaces

papers.abstract

Support