AdaMMS: Fusão de Modelos para Grandes Modelos de Linguagem Multimodais Heterogêneos com Otimização de Coeficientes Não Supervisionada
AdaMMS: Model Merging for Heterogeneous Multimodal Large Language Models with Unsupervised Coefficient Optimization
March 31, 2025
Autores: Yiyang Du, Xiaochen Wang, Chi Chen, Jiabo Ye, Yiru Wang, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Zhifang Sui, Maosong Sun, Yang Liu
cs.AI
Resumo
Recentemente, os métodos de fusão de modelos têm demonstrado grande eficácia na combinação de habilidades em diversas tarefas a partir de múltiplos Modelos de Linguagem de Grande Escala (LLMs). Enquanto os métodos anteriores de fusão de modelos se concentravam principalmente na fusão de modelos homogêneos com arquitetura idêntica, eles enfrentam desafios ao lidar com Modelos de Linguagem de Grande Escala Multimodais (MLLMs), que possuem uma propriedade inerentemente heterogênea, incluindo diferenças na arquitetura do modelo e assimetria no espaço de parâmetros. Neste trabalho, propomos o AdaMMS, um novo método de fusão de modelos projetado especificamente para MLLMs heterogêneos. Nosso método aborda os desafios em três etapas: mapeamento, fusão e busca. Especificamente, primeiro projetamos uma função de mapeamento entre modelos para aplicar a fusão de modelos em MLLMs com arquiteturas diferentes. Em seguida, aplicamos interpolação linear nos pesos dos modelos para adaptar ativamente a assimetria presente nos MLLMs heterogêneos. Por fim, na etapa de busca de hiperparâmetros, propomos um método de seleção de hiperparâmetros não supervisionado para a fusão de modelos. Como o primeiro método de fusão de modelos capaz de fundir MLLMs heterogêneos sem dados rotulados, experimentos extensivos em diversas combinações de modelos demonstraram que o AdaMMS supera os métodos anteriores de fusão de modelos em vários benchmarks de visão e linguagem.
English
Recently, model merging methods have demonstrated powerful strengths in
combining abilities on various tasks from multiple Large Language Models
(LLMs). While previous model merging methods mainly focus on merging
homogeneous models with identical architecture, they meet challenges when
dealing with Multimodal Large Language Models (MLLMs) with inherent
heterogeneous property, including differences in model architecture and the
asymmetry in the parameter space. In this work, we propose AdaMMS, a novel
model merging method tailored for heterogeneous MLLMs. Our method tackles the
challenges in three steps: mapping, merging and searching. Specifically, we
first design mapping function between models to apply model merging on MLLMs
with different architecture. Then we apply linear interpolation on model
weights to actively adapt the asymmetry in the heterogeneous MLLMs. Finally in
the hyper-parameter searching step, we propose an unsupervised hyper-parameter
selection method for model merging. As the first model merging method capable
of merging heterogeneous MLLMs without labeled data, extensive experiments on
various model combinations demonstrated that AdaMMS outperforms previous model
merging methods on various vision-language benchmarks.Summary
AI-Generated Summary