ChatPaper.aiChatPaper

Ninguna tarea se queda atrás: Fusión de modelos isotrópicos con subespacios comunes y específicos de tarea.

No Task Left Behind: Isotropic Model Merging with Common and Task-Specific Subspaces

February 7, 2025
Autores: Daniel Marczak, Simone Magistri, Sebastian Cygert, Bartłomiej Twardowski, Andrew D. Bagdanov, Joost van de Weijer
cs.AI

Resumen

La fusión de modelos integra los pesos de múltiples modelos específicos de tareas en un solo modelo multitarea. A pesar del interés reciente en el problema, sigue existiendo una brecha significativa de rendimiento entre los modelos combinados y los de una sola tarea. En este artículo, investigamos las características clave de las matrices de tareas, que son matrices de actualización de pesos aplicadas a un modelo preentrenado, que permiten una fusión efectiva. Mostramos que la alineación entre los componentes singulares de las matrices específicas de tareas y las matrices fusionadas se correlaciona fuertemente con la mejora del rendimiento sobre el modelo preentrenado. Basándonos en esto, proponemos un marco de fusión isótropa que aplana el espectro de valores singulares de las matrices de tareas, mejora la alineación y reduce la brecha de rendimiento. Además, incorporamos subespacios comunes y específicos de tareas para mejorar aún más la alineación y el rendimiento. Nuestro enfoque propuesto logra un rendimiento de vanguardia en múltiples escenarios, incluidos varios conjuntos de tareas y escalas de modelos. Este trabajo avanza en la comprensión de la dinámica de fusión de modelos, ofreciendo una metodología efectiva para fusionar modelos sin necesidad de entrenamiento adicional. El código está disponible en https://github.com/danielm1405/iso-merging.
English
Model merging integrates the weights of multiple task-specific models into a single multi-task model. Despite recent interest in the problem, a significant performance gap between the combined and single-task models remains. In this paper, we investigate the key characteristics of task matrices -- weight update matrices applied to a pre-trained model -- that enable effective merging. We show that alignment between singular components of task-specific and merged matrices strongly correlates with performance improvement over the pre-trained model. Based on this, we propose an isotropic merging framework that flattens the singular value spectrum of task matrices, enhances alignment, and reduces the performance gap. Additionally, we incorporate both common and task-specific subspaces to further improve alignment and performance. Our proposed approach achieves state-of-the-art performance across multiple scenarios, including various sets of tasks and model scales. This work advances the understanding of model merging dynamics, offering an effective methodology to merge models without requiring additional training. Code is available at https://github.com/danielm1405/iso-merging .

Summary

AI-Generated Summary

PDF112February 10, 2025