AdaMMS: Fusión de Modelos para Modelos de Lenguaje Multimodales Heterogéneos a Gran Escala con Optimización de Coeficientes No Supervisada
AdaMMS: Model Merging for Heterogeneous Multimodal Large Language Models with Unsupervised Coefficient Optimization
March 31, 2025
Autores: Yiyang Du, Xiaochen Wang, Chi Chen, Jiabo Ye, Yiru Wang, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Zhifang Sui, Maosong Sun, Yang Liu
cs.AI
Resumen
Recientemente, los métodos de fusión de modelos han demostrado una gran capacidad para combinar habilidades en diversas tareas a partir de múltiples Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). Mientras que los métodos anteriores de fusión de modelos se centraban principalmente en fusionar modelos homogéneos con arquitecturas idénticas, enfrentan desafíos al tratar con Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) que poseen una naturaleza inherentemente heterogénea, incluyendo diferencias en la arquitectura del modelo y asimetrías en el espacio de parámetros. En este trabajo, proponemos AdaMMS, un novedoso método de fusión de modelos diseñado específicamente para MLLMs heterogéneos. Nuestro método aborda estos desafíos en tres pasos: mapeo, fusión y búsqueda. En concreto, primero diseñamos una función de mapeo entre modelos para aplicar la fusión en MLLMs con arquitecturas diferentes. Luego, aplicamos interpolación lineal en los pesos del modelo para adaptar activamente la asimetría presente en los MLLMs heterogéneos. Finalmente, en el paso de búsqueda de hiperparámetros, proponemos un método de selección de hiperparámetros no supervisado para la fusión de modelos. Como el primer método de fusión de modelos capaz de combinar MLLMs heterogéneos sin necesidad de datos etiquetados, experimentos exhaustivos en diversas combinaciones de modelos demostraron que AdaMMS supera a los métodos anteriores de fusión de modelos en varios benchmarks de visión y lenguaje.
English
Recently, model merging methods have demonstrated powerful strengths in
combining abilities on various tasks from multiple Large Language Models
(LLMs). While previous model merging methods mainly focus on merging
homogeneous models with identical architecture, they meet challenges when
dealing with Multimodal Large Language Models (MLLMs) with inherent
heterogeneous property, including differences in model architecture and the
asymmetry in the parameter space. In this work, we propose AdaMMS, a novel
model merging method tailored for heterogeneous MLLMs. Our method tackles the
challenges in three steps: mapping, merging and searching. Specifically, we
first design mapping function between models to apply model merging on MLLMs
with different architecture. Then we apply linear interpolation on model
weights to actively adapt the asymmetry in the heterogeneous MLLMs. Finally in
the hyper-parameter searching step, we propose an unsupervised hyper-parameter
selection method for model merging. As the first model merging method capable
of merging heterogeneous MLLMs without labeled data, extensive experiments on
various model combinations demonstrated that AdaMMS outperforms previous model
merging methods on various vision-language benchmarks.Summary
AI-Generated Summary