Nessun compito lasciato indietro: Fusione del Modello Isotropico con Sottospazi Comuni e Specifici del Compito

Abstract

La fusione di modelli integra i pesi di più modelli specifici per compiti in un unico modello multi-task. Nonostante l'interesse recente nel problema, rimane un significativo divario di prestazioni tra i modelli combinati e quelli a singolo compito. In questo articolo, indaghiamo sulle caratteristiche chiave delle matrici di compiti - matrici di aggiornamento dei pesi applicate a un modello pre-addestrato - che consentono una fusione efficace. Dimostriamo che l'allineamento tra componenti singolari delle matrici specifiche per compiti e delle matrici fusi correla fortemente con il miglioramento delle prestazioni rispetto al modello pre-addestrato. Sulla base di ciò, proponiamo un quadro di fusione isotropico che appiattisce lo spettro dei valori singolari delle matrici di compiti, potenzia l'allineamento e riduce il divario di prestazioni. Inoltre, incorporiamo sia sottospazi comuni che specifici per compiti per migliorare ulteriormente l'allineamento e le prestazioni. Il nostro approccio proposto raggiunge prestazioni all'avanguardia in vari scenari, inclusi diversi insiemi di compiti e dimensioni dei modelli. Questo lavoro fa progredire la comprensione della dinamica della fusione dei modelli, offrendo una metodologia efficace per fondere i modelli senza richiedere ulteriore addestramento. Il codice è disponibile su https://github.com/danielm1405/iso-merging.

English

Model merging integrates the weights of multiple task-specific models into a single multi-task model. Despite recent interest in the problem, a significant performance gap between the combined and single-task models remains. In this paper, we investigate the key characteristics of task matrices -- weight update matrices applied to a pre-trained model -- that enable effective merging. We show that alignment between singular components of task-specific and merged matrices strongly correlates with performance improvement over the pre-trained model. Based on this, we propose an isotropic merging framework that flattens the singular value spectrum of task matrices, enhances alignment, and reduces the performance gap. Additionally, we incorporate both common and task-specific subspaces to further improve alignment and performance. Our proposed approach achieves state-of-the-art performance across multiple scenarios, including various sets of tasks and model scales. This work advances the understanding of model merging dynamics, offering an effective methodology to merge models without requiring additional training. Code is available at https://github.com/danielm1405/iso-merging .

Nessun compito lasciato indietro: Fusione del Modello Isotropico con Sottospazi Comuni e Specifici del Compito

No Task Left Behind: Isotropic Model Merging with Common and Task-Specific Subspaces

Abstract

Support