ChatPaper.aiChatPaper

AdaMMS: Fusión de Modelos para Modelos de Lenguaje Multimodales Heterogéneos a Gran Escala con Optimización de Coeficientes No Supervisada

AdaMMS: Model Merging for Heterogeneous Multimodal Large Language Models with Unsupervised Coefficient Optimization

March 31, 2025
Autores: Yiyang Du, Xiaochen Wang, Chi Chen, Jiabo Ye, Yiru Wang, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Zhifang Sui, Maosong Sun, Yang Liu
cs.AI

Resumen

Recientemente, los métodos de fusión de modelos han demostrado una gran capacidad para combinar habilidades en diversas tareas a partir de múltiples Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). Mientras que los métodos anteriores de fusión de modelos se centraban principalmente en fusionar modelos homogéneos con arquitecturas idénticas, enfrentan desafíos al tratar con Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) que poseen una naturaleza inherentemente heterogénea, incluyendo diferencias en la arquitectura del modelo y asimetrías en el espacio de parámetros. En este trabajo, proponemos AdaMMS, un novedoso método de fusión de modelos diseñado específicamente para MLLMs heterogéneos. Nuestro método aborda estos desafíos en tres pasos: mapeo, fusión y búsqueda. En concreto, primero diseñamos una función de mapeo entre modelos para aplicar la fusión en MLLMs con arquitecturas diferentes. Luego, aplicamos interpolación lineal en los pesos del modelo para adaptar activamente la asimetría presente en los MLLMs heterogéneos. Finalmente, en el paso de búsqueda de hiperparámetros, proponemos un método de selección de hiperparámetros no supervisado para la fusión de modelos. Como el primer método de fusión de modelos capaz de combinar MLLMs heterogéneos sin necesidad de datos etiquetados, experimentos exhaustivos en diversas combinaciones de modelos demostraron que AdaMMS supera a los métodos anteriores de fusión de modelos en varios benchmarks de visión y lenguaje.
English
Recently, model merging methods have demonstrated powerful strengths in combining abilities on various tasks from multiple Large Language Models (LLMs). While previous model merging methods mainly focus on merging homogeneous models with identical architecture, they meet challenges when dealing with Multimodal Large Language Models (MLLMs) with inherent heterogeneous property, including differences in model architecture and the asymmetry in the parameter space. In this work, we propose AdaMMS, a novel model merging method tailored for heterogeneous MLLMs. Our method tackles the challenges in three steps: mapping, merging and searching. Specifically, we first design mapping function between models to apply model merging on MLLMs with different architecture. Then we apply linear interpolation on model weights to actively adapt the asymmetry in the heterogeneous MLLMs. Finally in the hyper-parameter searching step, we propose an unsupervised hyper-parameter selection method for model merging. As the first model merging method capable of merging heterogeneous MLLMs without labeled data, extensive experiments on various model combinations demonstrated that AdaMMS outperforms previous model merging methods on various vision-language benchmarks.

Summary

AI-Generated Summary

PDF113April 2, 2025