γ-MoD: Explorando la Adaptación de Mezcla de Profundidad para Modelos de Lenguaje Multimodales de Gran Escala
γ-MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models
October 17, 2024
Autores: Yaxin Luo, Gen Luo, Jiayi Ji, Yiyi Zhou, Xiaoshuai Sun, Zhiqiang Shen, Rongrong Ji
cs.AI
Resumen
A pesar del significativo progreso en los modelos de lenguaje multimodales grandes (MLLMs), su alto costo computacional sigue siendo una barrera para su implementación en el mundo real. Inspirados por la mezcla de profundidades (MoDs) en el procesamiento de lenguaje natural, nuestro objetivo es abordar esta limitación desde la perspectiva de los "tokens activados". Nuestra idea clave es que si la mayoría de los tokens son redundantes para el cálculo de capas, entonces pueden omitirse directamente a través de la capa MoD. Sin embargo, convertir directamente las capas densas de los MLLMs en capas MoD conlleva una degradación sustancial del rendimiento. Para abordar este problema, proponemos una estrategia de adaptación MoD innovadora para los MLLMs existentes llamada gamma-MoD. En gamma-MoD, se propone una nueva métrica para guiar la implementación de MoDs en el MLLM, a saber, el rango de mapas de atención (ARank). A través de ARank, podemos identificar de manera efectiva qué capa es redundante y debería ser reemplazada por la capa MoD. Basándonos en ARank, proponemos además dos diseños novedosos para maximizar la dispersión computacional de MLLM manteniendo su rendimiento, a saber, enrutador compartido visión-lenguaje y aprendizaje de enrutamiento enmascarado. Con estos diseños, más del 90% de las capas densas del MLLM pueden convertirse efectivamente en capas MoD. Para validar nuestro método, lo aplicamos a tres MLLMs populares y realizamos experimentos extensos en 9 conjuntos de datos de referencia. Los resultados experimentales no solo validan el beneficio significativo de eficiencia de gamma-MoD para los MLLMs existentes, sino que también confirman su capacidad de generalización en varios MLLMs. Por ejemplo, con una ligera disminución en el rendimiento, es decir, -1.5%, gamma-MoD puede reducir el tiempo de entrenamiento e inferencia de LLaVA-HR en un 31.0% y 53.2%, respectivamente.
English
Despite the significant progress in multimodal large language models (MLLMs),
their high computational cost remains a barrier to real-world deployment.
Inspired by the mixture of depths (MoDs) in natural language processing, we aim
to address this limitation from the perspective of ``activated tokens''. Our
key insight is that if most tokens are redundant for the layer computation,
then can be skipped directly via the MoD layer. However, directly converting
the dense layers of MLLMs to MoD layers leads to substantial performance
degradation. To address this issue, we propose an innovative MoD adaptation
strategy for existing MLLMs called gamma-MoD. In gamma-MoD, a novel
metric is proposed to guide the deployment of MoDs in the MLLM, namely rank of
attention maps (ARank). Through ARank, we can effectively identify which layer
is redundant and should be replaced with the MoD layer. Based on ARank, we
further propose two novel designs to maximize the computational sparsity of
MLLM while maintaining its performance, namely shared vision-language router
and masked routing learning. With these designs, more than 90% dense layers of
the MLLM can be effectively converted to the MoD ones. To validate our method,
we apply it to three popular MLLMs, and conduct extensive experiments on 9
benchmark datasets. Experimental results not only validate the significant
efficiency benefit of gamma-MoD to existing MLLMs but also confirm its
generalization ability on various MLLMs. For example, with a minor performance
drop, i.e., -1.5%, gamma-MoD can reduce the training and inference time of
LLaVA-HR by 31.0% and 53.2%, respectively.Summary
AI-Generated Summary