ChatPaper.aiChatPaper

Keine Aufgabe bleibt unerledigt: Isotropes Modellverschmelzen mit gemeinsamen und aufgaben-spezifischen Unterräumen

No Task Left Behind: Isotropic Model Merging with Common and Task-Specific Subspaces

February 7, 2025
Autoren: Daniel Marczak, Simone Magistri, Sebastian Cygert, Bartłomiej Twardowski, Andrew D. Bagdanov, Joost van de Weijer
cs.AI

Zusammenfassung

Die Modellfusion integriert die Gewichte mehrerer aufgabenbezogener Modelle in ein einziges Multi-Task-Modell. Trotz des aktuellen Interesses an diesem Problem bleibt eine signifikante Leistungslücke zwischen den kombinierten und einzelnen Task-Modellen bestehen. In diesem Paper untersuchen wir die Schlüsselmerkmale von Aufgabenmatrizen - Gewichtsaktualisierungsmatrizen, die auf ein vorab trainiertes Modell angewendet werden -, die eine effektive Fusion ermöglichen. Wir zeigen, dass die Ausrichtung zwischen singulären Komponenten von aufgabenbezogenen und fusionierten Matrizen stark mit der Leistungsverbesserung gegenüber dem vorab trainierten Modell korreliert. Basierend darauf schlagen wir ein isotropes Fusionsframework vor, das das singuläre Wertespektrum von Aufgabenmatrizen abflacht, die Ausrichtung verbessert und die Leistungslücke reduziert. Darüber hinaus integrieren wir sowohl gemeinsame als auch aufgabenbezogene Unterräume, um die Ausrichtung und Leistung weiter zu verbessern. Unser vorgeschlagener Ansatz erzielt Spitzenleistungen in verschiedenen Szenarien, einschließlich verschiedener Aufgabensets und Modellgrößen. Diese Arbeit trägt zum Verständnis der Dynamik der Modellfusion bei und bietet eine effektive Methodik zur Fusion von Modellen, ohne zusätzliches Training zu erfordern. Der Code ist verfügbar unter https://github.com/danielm1405/iso-merging.
English
Model merging integrates the weights of multiple task-specific models into a single multi-task model. Despite recent interest in the problem, a significant performance gap between the combined and single-task models remains. In this paper, we investigate the key characteristics of task matrices -- weight update matrices applied to a pre-trained model -- that enable effective merging. We show that alignment between singular components of task-specific and merged matrices strongly correlates with performance improvement over the pre-trained model. Based on this, we propose an isotropic merging framework that flattens the singular value spectrum of task matrices, enhances alignment, and reduces the performance gap. Additionally, we incorporate both common and task-specific subspaces to further improve alignment and performance. Our proposed approach achieves state-of-the-art performance across multiple scenarios, including various sets of tasks and model scales. This work advances the understanding of model merging dynamics, offering an effective methodology to merge models without requiring additional training. Code is available at https://github.com/danielm1405/iso-merging .

Summary

AI-Generated Summary

PDF112February 10, 2025