ChatPaper.aiChatPaper

γ-MoD : Exploration de l'adaptation de mélange de profondeur pour les grands modèles de langage multimodal

γ-MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models

October 17, 2024
Auteurs: Yaxin Luo, Gen Luo, Jiayi Ji, Yiyi Zhou, Xiaoshuai Sun, Zhiqiang Shen, Rongrong Ji
cs.AI

Résumé

Malgré les progrès significatifs réalisés dans les grands modèles de langage multimodaux (MLLMs), leur coût computationnel élevé reste un obstacle au déploiement réel. Inspirés par le mélange de profondeurs (MoDs) en traitement automatique du langage naturel, nous visons à aborder cette limitation du point de vue des "tokens activés". Notre idée principale est que si la plupart des tokens sont redondants pour le calcul de la couche, ils peuvent être directement sautés via la couche MoD. Cependant, la conversion directe des couches denses des MLLMs en couches MoD entraîne une dégradation significative des performances. Pour résoudre ce problème, nous proposons une stratégie d'adaptation MoD innovante pour les MLLMs existants appelée gamma-MoD. Dans gamma-MoD, une nouvelle métrique est proposée pour guider le déploiement des MoDs dans le MLLM, à savoir le rang des cartes d'attention (ARank). À travers ARank, nous pouvons identifier efficacement quelle couche est redondante et devrait être remplacée par la couche MoD. Sur la base d'ARank, nous proposons en outre deux conceptions novatrices pour maximiser la parcimonie computationnelle des MLLM tout en maintenant leurs performances, à savoir un routeur partagé vision-langage et un apprentissage de routage masqué. Avec ces conceptions, plus de 90 % des couches denses du MLLM peuvent être efficacement converties en couches MoD. Pour valider notre méthode, nous l'appliquons à trois MLLMs populaires et menons des expériences approfondies sur 9 jeux de données de référence. Les résultats expérimentaux valident non seulement l'importante efficacité de gamma-MoD par rapport aux MLLMs existants, mais confirment également sa capacité de généralisation sur divers MLLMs. Par exemple, avec une légère baisse de performance, c'est-à-dire -1,5 %, gamma-MoD peut réduire le temps d'entraînement et d'inférence de LLaVA-HR respectivement de 31,0 % et 53,2 %.
English
Despite the significant progress in multimodal large language models (MLLMs), their high computational cost remains a barrier to real-world deployment. Inspired by the mixture of depths (MoDs) in natural language processing, we aim to address this limitation from the perspective of ``activated tokens''. Our key insight is that if most tokens are redundant for the layer computation, then can be skipped directly via the MoD layer. However, directly converting the dense layers of MLLMs to MoD layers leads to substantial performance degradation. To address this issue, we propose an innovative MoD adaptation strategy for existing MLLMs called gamma-MoD. In gamma-MoD, a novel metric is proposed to guide the deployment of MoDs in the MLLM, namely rank of attention maps (ARank). Through ARank, we can effectively identify which layer is redundant and should be replaced with the MoD layer. Based on ARank, we further propose two novel designs to maximize the computational sparsity of MLLM while maintaining its performance, namely shared vision-language router and masked routing learning. With these designs, more than 90% dense layers of the MLLM can be effectively converted to the MoD ones. To validate our method, we apply it to three popular MLLMs, and conduct extensive experiments on 9 benchmark datasets. Experimental results not only validate the significant efficiency benefit of gamma-MoD to existing MLLMs but also confirm its generalization ability on various MLLMs. For example, with a minor performance drop, i.e., -1.5%, gamma-MoD can reduce the training and inference time of LLaVA-HR by 31.0% and 53.2%, respectively.

Summary

AI-Generated Summary

PDF82November 16, 2024