Nessun compito lasciato indietro: Fusione del Modello Isotropico con Sottospazi Comuni e Specifici del Compito
No Task Left Behind: Isotropic Model Merging with Common and Task-Specific Subspaces
February 7, 2025
Autori: Daniel Marczak, Simone Magistri, Sebastian Cygert, Bartłomiej Twardowski, Andrew D. Bagdanov, Joost van de Weijer
cs.AI
Abstract
La fusione di modelli integra i pesi di più modelli specifici per compiti in un unico modello multi-task. Nonostante l'interesse recente nel problema, rimane un significativo divario di prestazioni tra i modelli combinati e quelli a singolo compito. In questo articolo, indaghiamo sulle caratteristiche chiave delle matrici di compiti - matrici di aggiornamento dei pesi applicate a un modello pre-addestrato - che consentono una fusione efficace. Dimostriamo che l'allineamento tra componenti singolari delle matrici specifiche per compiti e delle matrici fusi correla fortemente con il miglioramento delle prestazioni rispetto al modello pre-addestrato. Sulla base di ciò, proponiamo un quadro di fusione isotropico che appiattisce lo spettro dei valori singolari delle matrici di compiti, potenzia l'allineamento e riduce il divario di prestazioni. Inoltre, incorporiamo sia sottospazi comuni che specifici per compiti per migliorare ulteriormente l'allineamento e le prestazioni. Il nostro approccio proposto raggiunge prestazioni all'avanguardia in vari scenari, inclusi diversi insiemi di compiti e dimensioni dei modelli. Questo lavoro fa progredire la comprensione della dinamica della fusione dei modelli, offrendo una metodologia efficace per fondere i modelli senza richiedere ulteriore addestramento. Il codice è disponibile su https://github.com/danielm1405/iso-merging.
English
Model merging integrates the weights of multiple task-specific models into a
single multi-task model. Despite recent interest in the problem, a significant
performance gap between the combined and single-task models remains. In this
paper, we investigate the key characteristics of task matrices -- weight update
matrices applied to a pre-trained model -- that enable effective merging. We
show that alignment between singular components of task-specific and merged
matrices strongly correlates with performance improvement over the pre-trained
model. Based on this, we propose an isotropic merging framework that flattens
the singular value spectrum of task matrices, enhances alignment, and reduces
the performance gap. Additionally, we incorporate both common and task-specific
subspaces to further improve alignment and performance. Our proposed approach
achieves state-of-the-art performance across multiple scenarios, including
various sets of tasks and model scales. This work advances the understanding of
model merging dynamics, offering an effective methodology to merge models
without requiring additional training. Code is available at
https://github.com/danielm1405/iso-merging .Summary
AI-Generated Summary