ChatPaper.aiChatPaper

미션을 놓치지 말라: 공통 및 과제별 부분 공간을 활용한 등방성 모델 병합

No Task Left Behind: Isotropic Model Merging with Common and Task-Specific Subspaces

February 7, 2025
저자: Daniel Marczak, Simone Magistri, Sebastian Cygert, Bartłomiej Twardowski, Andrew D. Bagdanov, Joost van de Weijer
cs.AI

초록

모델 병합은 여러 과제별 모델의 가중치를 하나의 다중 과제 모델로 통합합니다. 최근에는 이 문제에 대한 관심이 높아졌지만, 병합된 모델과 단일 과제 모델 간에는 상당한 성능 차이가 남아 있습니다. 본 논문에서는 효과적인 병합을 가능하게 하는 과제 행렬의 주요 특성 -- 사전 훈련된 모델에 적용되는 가중치 업데이트 행렬 -- 을 조사합니다. 우리는 과제별 및 병합된 행렬의 특이 구성 요소 간의 정렬이 사전 훈련된 모델 대비 성능 향상과 강한 상관 관계가 있음을 보여줍니다. 이를 바탕으로 우리는 과제 행렬의 특이값 스펙트럼을 평평하게 하는 등방성 병합 프레임워크를 제안하며, 정렬을 강화하고 성능 차이를 줄입니다. 또한 공통 및 과제별 부분 공간을 통합하여 정렬과 성능을 더욱 개선합니다. 우리의 제안된 방법은 다양한 과제 세트 및 모델 규모를 포함한 여러 시나리오에서 최첨단 성능을 달성합니다. 본 연구는 모델 병합 역학의 이해를 발전시키며, 추가적인 훈련을 필요로 하지 않고 모델을 병합하는 효과적인 방법론을 제공합니다. 코드는 https://github.com/danielm1405/iso-merging 에서 확인할 수 있습니다.
English
Model merging integrates the weights of multiple task-specific models into a single multi-task model. Despite recent interest in the problem, a significant performance gap between the combined and single-task models remains. In this paper, we investigate the key characteristics of task matrices -- weight update matrices applied to a pre-trained model -- that enable effective merging. We show that alignment between singular components of task-specific and merged matrices strongly correlates with performance improvement over the pre-trained model. Based on this, we propose an isotropic merging framework that flattens the singular value spectrum of task matrices, enhances alignment, and reduces the performance gap. Additionally, we incorporate both common and task-specific subspaces to further improve alignment and performance. Our proposed approach achieves state-of-the-art performance across multiple scenarios, including various sets of tasks and model scales. This work advances the understanding of model merging dynamics, offering an effective methodology to merge models without requiring additional training. Code is available at https://github.com/danielm1405/iso-merging .

Summary

AI-Generated Summary

PDF112February 10, 2025