AdaMMS: 비지도 계수 최적화를 통한 이기종 멀티모달 대규모 언어 모델 병합
AdaMMS: Model Merging for Heterogeneous Multimodal Large Language Models with Unsupervised Coefficient Optimization
March 31, 2025
저자: Yiyang Du, Xiaochen Wang, Chi Chen, Jiabo Ye, Yiru Wang, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Zhifang Sui, Maosong Sun, Yang Liu
cs.AI
초록
최근, 모델 병합 방법들은 여러 대형 언어 모델(LLMs)의 다양한 작업에 대한 능력을 결합하는 데 강력한 성능을 보여주고 있습니다. 기존의 모델 병합 방법들은 주로 동일한 아키텍처를 가진 동종 모델들을 병합하는 데 초점을 맞추었지만, 모델 아키텍처의 차이와 파라미터 공간의 비대칭성과 같은 내재적 이질성을 가진 다중모달 대형 언어 모델(MLLMs)을 다룰 때는 어려움에 직면했습니다. 본 연구에서는 이러한 이질적인 MLLMs를 위해 특별히 설계된 새로운 모델 병합 방법인 AdaMMS를 제안합니다. 우리의 방법은 매핑, 병합, 탐색의 세 단계로 이러한 문제를 해결합니다. 구체적으로, 먼저 서로 다른 아키텍처를 가진 MLLMs에 모델 병합을 적용하기 위해 모델 간 매핑 함수를 설계합니다. 그런 다음, 이질적인 MLLMs의 비대칭성에 적극적으로 대응하기 위해 모델 가중치에 선형 보간을 적용합니다. 마지막으로 하이퍼파라미터 탐색 단계에서는 모델 병합을 위한 비지도 하이퍼파라미터 선택 방법을 제안합니다. 레이블이 없는 데이터에서도 이질적인 MLLMs를 병합할 수 있는 최초의 모델 병합 방법으로서, 다양한 모델 조합에 대한 광범위한 실험을 통해 AdaMMS가 다양한 비전-언어 벤치마크에서 기존의 모델 병합 방법들을 능가하는 성능을 보여주었습니다.
English
Recently, model merging methods have demonstrated powerful strengths in
combining abilities on various tasks from multiple Large Language Models
(LLMs). While previous model merging methods mainly focus on merging
homogeneous models with identical architecture, they meet challenges when
dealing with Multimodal Large Language Models (MLLMs) with inherent
heterogeneous property, including differences in model architecture and the
asymmetry in the parameter space. In this work, we propose AdaMMS, a novel
model merging method tailored for heterogeneous MLLMs. Our method tackles the
challenges in three steps: mapping, merging and searching. Specifically, we
first design mapping function between models to apply model merging on MLLMs
with different architecture. Then we apply linear interpolation on model
weights to actively adapt the asymmetry in the heterogeneous MLLMs. Finally in
the hyper-parameter searching step, we propose an unsupervised hyper-parameter
selection method for model merging. As the first model merging method capable
of merging heterogeneous MLLMs without labeled data, extensive experiments on
various model combinations demonstrated that AdaMMS outperforms previous model
merging methods on various vision-language benchmarks.Summary
AI-Generated Summary