γ-MoD: Esplorazione dell'Adattamento a Miscela di Profondità per Modelli Linguistici Multimodali di Grandi Dimensioni
γ-MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models
October 17, 2024
Autori: Yaxin Luo, Gen Luo, Jiayi Ji, Yiyi Zhou, Xiaoshuai Sun, Zhiqiang Shen, Rongrong Ji
cs.AI
Abstract
Nonostante i significativi progressi nei modelli di linguaggio multimodali di grandi dimensioni (MLLM), il loro elevato costo computazionale rimane un ostacolo alla distribuzione pratica. Ispirandoci alla miscela di profondità (MoDs) nel trattamento del linguaggio naturale, miriamo ad affrontare questa limitazione dal punto di vista dei "token attivati". La nostra intuizione chiave è che se la maggior parte dei token è ridondante per il calcolo del livello, allora possono essere saltati direttamente tramite il livello MoD. Tuttavia, la conversione diretta dei livelli densi dei MLLM in livelli MoD porta a un degrado delle prestazioni sostanziale. Per affrontare questo problema, proponiamo una strategia di adattamento MoD innovativa per i MLLM esistenti chiamata gamma-MoD. In gamma-MoD, viene proposto un nuovo metrico per guidare la distribuzione dei MoD nel MLLM, ovvero il rango delle mappe di attenzione (ARank). Attraverso ARank, possiamo identificare efficacemente quale livello è ridondante e dovrebbe essere sostituito con il livello MoD. Sulla base di ARank, proponiamo inoltre due nuovi design per massimizzare la sparità computazionale del MLLM mantenendone le prestazioni, ovvero router condiviso visione-linguaggio e apprendimento del routing mascherato. Con questi design, più del 90% dei livelli densi del MLLM possono essere efficacemente convertiti in quelli MoD. Per convalidare il nostro metodo, lo applichiamo a tre popolari MLLM e conduciamo ampi esperimenti su 9 set di dati di benchmark. I risultati sperimentali non solo convalidano il significativo beneficio di efficienza di gamma-MoD rispetto ai MLLM esistenti, ma confermano anche la sua capacità di generalizzazione su vari MLLM. Ad esempio, con una lieve diminuzione delle prestazioni, cioè -1,5%, gamma-MoD può ridurre il tempo di addestramento e inferenza di LLaVA-HR rispettivamente del 31,0% e del 53,2%.
English
Despite the significant progress in multimodal large language models (MLLMs),
their high computational cost remains a barrier to real-world deployment.
Inspired by the mixture of depths (MoDs) in natural language processing, we aim
to address this limitation from the perspective of ``activated tokens''. Our
key insight is that if most tokens are redundant for the layer computation,
then can be skipped directly via the MoD layer. However, directly converting
the dense layers of MLLMs to MoD layers leads to substantial performance
degradation. To address this issue, we propose an innovative MoD adaptation
strategy for existing MLLMs called gamma-MoD. In gamma-MoD, a novel
metric is proposed to guide the deployment of MoDs in the MLLM, namely rank of
attention maps (ARank). Through ARank, we can effectively identify which layer
is redundant and should be replaced with the MoD layer. Based on ARank, we
further propose two novel designs to maximize the computational sparsity of
MLLM while maintaining its performance, namely shared vision-language router
and masked routing learning. With these designs, more than 90% dense layers of
the MLLM can be effectively converted to the MoD ones. To validate our method,
we apply it to three popular MLLMs, and conduct extensive experiments on 9
benchmark datasets. Experimental results not only validate the significant
efficiency benefit of gamma-MoD to existing MLLMs but also confirm its
generalization ability on various MLLMs. For example, with a minor performance
drop, i.e., -1.5%, gamma-MoD can reduce the training and inference time of
LLaVA-HR by 31.0% and 53.2%, respectively.Summary
AI-Generated Summary