Nenhuma Tarefa Deixada para Trás: Fusão de Modelos Isotrópicos com Subespaços Comuns e Específicos da Tarefa

Resumo

A fusão de modelos integra os pesos de vários modelos específicos de tarefas em um único modelo multi-tarefa. Apesar do interesse recente no problema, uma diferença significativa de desempenho entre os modelos combinados e de tarefa única ainda persiste. Neste artigo, investigamos as principais características das matrizes de tarefas - matrizes de atualização de pesos aplicadas a um modelo pré-treinado - que possibilitam uma fusão eficaz. Mostramos que a alinhamento entre componentes singulares das matrizes específicas de tarefas e fundidas está fortemente correlacionado com a melhoria de desempenho em relação ao modelo pré-treinado. Com base nisso, propomos um framework de fusão isotrópica que aplaina o espectro de valores singulares das matrizes de tarefas, aprimora o alinhamento e reduz a diferença de desempenho. Além disso, incorporamos subespaços comuns e específicos da tarefa para melhorar ainda mais o alinhamento e o desempenho. Nossa abordagem proposta alcança um desempenho de ponta em vários cenários, incluindo diversos conjuntos de tarefas e escalas de modelos. Este trabalho avança na compreensão da dinâmica de fusão de modelos, oferecendo uma metodologia eficaz para fundir modelos sem a necessidade de treinamento adicional. O código está disponível em https://github.com/danielm1405/iso-merging.

English

Model merging integrates the weights of multiple task-specific models into a single multi-task model. Despite recent interest in the problem, a significant performance gap between the combined and single-task models remains. In this paper, we investigate the key characteristics of task matrices -- weight update matrices applied to a pre-trained model -- that enable effective merging. We show that alignment between singular components of task-specific and merged matrices strongly correlates with performance improvement over the pre-trained model. Based on this, we propose an isotropic merging framework that flattens the singular value spectrum of task matrices, enhances alignment, and reduces the performance gap. Additionally, we incorporate both common and task-specific subspaces to further improve alignment and performance. Our proposed approach achieves state-of-the-art performance across multiple scenarios, including various sets of tasks and model scales. This work advances the understanding of model merging dynamics, offering an effective methodology to merge models without requiring additional training. Code is available at https://github.com/danielm1405/iso-merging .

Nenhuma Tarefa Deixada para Trás: Fusão de Modelos Isotrópicos com Subespaços Comuns e Específicos da Tarefa

No Task Left Behind: Isotropic Model Merging with Common and Task-Specific Subspaces

Resumo

Support