ChatPaper.aiChatPaper

Geen Taak Achtergelaten: Isotroop Model Samenvoegen met Gemeenschappelijke en Taakspecifieke Subruimtes

No Task Left Behind: Isotropic Model Merging with Common and Task-Specific Subspaces

February 7, 2025
Auteurs: Daniel Marczak, Simone Magistri, Sebastian Cygert, Bartłomiej Twardowski, Andrew D. Bagdanov, Joost van de Weijer
cs.AI

Samenvatting

Model merging integreert de gewichten van meerdere taakspecifieke modellen in een enkel multi-taakmodel. Ondanks de recente interesse in het probleem, blijft er een aanzienlijk prestatieverschil bestaan tussen de gecombineerde en enkelvoudige modellen. In dit artikel onderzoeken we de belangrijkste kenmerken van taakmatrices - gewichtsupdatematrixen toegepast op een voorgeleerd model - die effectieve samenvoeging mogelijk maken. We laten zien dat de afstemming tussen afzonderlijke componenten van taakspecifieke en samengevoegde matrices sterk correleert met prestatieverbetering ten opzichte van het voorgeleerde model. Op basis hiervan stellen we een isotropisch samenvoegingskader voor dat het singulariteitswaardespectrum van taakmatrices afvlakt, de afstemming verbetert en het prestatieverschil verkleint. Daarnaast nemen we zowel gemeenschappelijke als taakspecifieke subspace op om de afstemming en prestaties verder te verbeteren. Onze voorgestelde aanpak behaalt state-of-the-art prestaties in verschillende scenario's, waaronder diverse takenreeksen en modelgroottes. Dit werk bevordert het begrip van de dynamiek van model samenvoeging en biedt een effectieve methodologie om modellen samen te voegen zonder extra training. De code is beschikbaar op https://github.com/danielm1405/iso-merging.
English
Model merging integrates the weights of multiple task-specific models into a single multi-task model. Despite recent interest in the problem, a significant performance gap between the combined and single-task models remains. In this paper, we investigate the key characteristics of task matrices -- weight update matrices applied to a pre-trained model -- that enable effective merging. We show that alignment between singular components of task-specific and merged matrices strongly correlates with performance improvement over the pre-trained model. Based on this, we propose an isotropic merging framework that flattens the singular value spectrum of task matrices, enhances alignment, and reduces the performance gap. Additionally, we incorporate both common and task-specific subspaces to further improve alignment and performance. Our proposed approach achieves state-of-the-art performance across multiple scenarios, including various sets of tasks and model scales. This work advances the understanding of model merging dynamics, offering an effective methodology to merge models without requiring additional training. Code is available at https://github.com/danielm1405/iso-merging .

Summary

AI-Generated Summary

PDF112February 10, 2025