Nenhuma Tarefa Deixada para Trás: Fusão de Modelos Isotrópicos com Subespaços Comuns e Específicos da Tarefa
No Task Left Behind: Isotropic Model Merging with Common and Task-Specific Subspaces
February 7, 2025
Autores: Daniel Marczak, Simone Magistri, Sebastian Cygert, Bartłomiej Twardowski, Andrew D. Bagdanov, Joost van de Weijer
cs.AI
Resumo
A fusão de modelos integra os pesos de vários modelos específicos de tarefas em um único modelo multi-tarefa. Apesar do interesse recente no problema, uma diferença significativa de desempenho entre os modelos combinados e de tarefa única ainda persiste. Neste artigo, investigamos as principais características das matrizes de tarefas - matrizes de atualização de pesos aplicadas a um modelo pré-treinado - que possibilitam uma fusão eficaz. Mostramos que a alinhamento entre componentes singulares das matrizes específicas de tarefas e fundidas está fortemente correlacionado com a melhoria de desempenho em relação ao modelo pré-treinado. Com base nisso, propomos um framework de fusão isotrópica que aplaina o espectro de valores singulares das matrizes de tarefas, aprimora o alinhamento e reduz a diferença de desempenho. Além disso, incorporamos subespaços comuns e específicos da tarefa para melhorar ainda mais o alinhamento e o desempenho. Nossa abordagem proposta alcança um desempenho de ponta em vários cenários, incluindo diversos conjuntos de tarefas e escalas de modelos. Este trabalho avança na compreensão da dinâmica de fusão de modelos, oferecendo uma metodologia eficaz para fundir modelos sem a necessidade de treinamento adicional. O código está disponível em https://github.com/danielm1405/iso-merging.
English
Model merging integrates the weights of multiple task-specific models into a
single multi-task model. Despite recent interest in the problem, a significant
performance gap between the combined and single-task models remains. In this
paper, we investigate the key characteristics of task matrices -- weight update
matrices applied to a pre-trained model -- that enable effective merging. We
show that alignment between singular components of task-specific and merged
matrices strongly correlates with performance improvement over the pre-trained
model. Based on this, we propose an isotropic merging framework that flattens
the singular value spectrum of task matrices, enhances alignment, and reduces
the performance gap. Additionally, we incorporate both common and task-specific
subspaces to further improve alignment and performance. Our proposed approach
achieves state-of-the-art performance across multiple scenarios, including
various sets of tasks and model scales. This work advances the understanding of
model merging dynamics, offering an effective methodology to merge models
without requiring additional training. Code is available at
https://github.com/danielm1405/iso-merging .Summary
AI-Generated Summary