γ-MoD: Explorando a Adaptação de Mistura de Profundidade para Modelos de Linguagem Multimodais de Grande Escala
γ-MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models
October 17, 2024
Autores: Yaxin Luo, Gen Luo, Jiayi Ji, Yiyi Zhou, Xiaoshuai Sun, Zhiqiang Shen, Rongrong Ji
cs.AI
Resumo
Apesar do significativo progresso em modelos de linguagem multimodais de grande escala (MLLMs), seu alto custo computacional continua sendo uma barreira para implementações no mundo real. Inspirados pela mistura de profundidades (MoDs) no processamento de linguagem natural, nosso objetivo é abordar essa limitação a partir da perspectiva dos "tokens ativados". Nossa principal percepção é que se a maioria dos tokens for redundante para o cálculo da camada, eles podem ser pulados diretamente via camada MoD. No entanto, a conversão direta das camadas densas dos MLLMs para camadas MoD leva a uma degradação substancial de desempenho. Para lidar com esse problema, propomos uma estratégia inovadora de adaptação MoD para MLLMs existentes chamada gamma-MoD. No gamma-MoD, uma métrica inovadora é proposta para orientar a implementação de MoDs no MLLM, ou seja, a classificação dos mapas de atenção (ARank). Através do ARank, podemos identificar de forma eficaz qual camada é redundante e deve ser substituída pela camada MoD. Com base no ARank, propomos ainda dois projetos inovadores para maximizar a esparsidade computacional do MLLM mantendo seu desempenho, ou seja, roteador compartilhado visão-linguagem e aprendizado de roteamento mascarado. Com esses projetos, mais de 90% das camadas densas do MLLM podem ser efetivamente convertidas para as MoD. Para validar nosso método, aplicamo-lo a três MLLMs populares e realizamos experimentos extensivos em 9 conjuntos de dados de referência. Os resultados experimentais não apenas validam o benefício significativo de eficiência do gamma-MoD para os MLLMs existentes, mas também confirmam sua capacidade de generalização em vários MLLMs. Por exemplo, com uma pequena queda de desempenho, ou seja, -1,5%, o gamma-MoD pode reduzir o tempo de treinamento e inferência do LLaVA-HR em 31,0% e 53,2%, respectivamente.
English
Despite the significant progress in multimodal large language models (MLLMs),
their high computational cost remains a barrier to real-world deployment.
Inspired by the mixture of depths (MoDs) in natural language processing, we aim
to address this limitation from the perspective of ``activated tokens''. Our
key insight is that if most tokens are redundant for the layer computation,
then can be skipped directly via the MoD layer. However, directly converting
the dense layers of MLLMs to MoD layers leads to substantial performance
degradation. To address this issue, we propose an innovative MoD adaptation
strategy for existing MLLMs called gamma-MoD. In gamma-MoD, a novel
metric is proposed to guide the deployment of MoDs in the MLLM, namely rank of
attention maps (ARank). Through ARank, we can effectively identify which layer
is redundant and should be replaced with the MoD layer. Based on ARank, we
further propose two novel designs to maximize the computational sparsity of
MLLM while maintaining its performance, namely shared vision-language router
and masked routing learning. With these designs, more than 90% dense layers of
the MLLM can be effectively converted to the MoD ones. To validate our method,
we apply it to three popular MLLMs, and conduct extensive experiments on 9
benchmark datasets. Experimental results not only validate the significant
efficiency benefit of gamma-MoD to existing MLLMs but also confirm its
generalization ability on various MLLMs. For example, with a minor performance
drop, i.e., -1.5%, gamma-MoD can reduce the training and inference time of
LLaVA-HR by 31.0% and 53.2%, respectively.Summary
AI-Generated Summary