ChatPaper.aiChatPaper

γ-MoD: Erforschung der Mischung-aus-Tiefen-Anpassung für multimodale große Sprachmodelle

γ-MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models

October 17, 2024
Autoren: Yaxin Luo, Gen Luo, Jiayi Ji, Yiyi Zhou, Xiaoshuai Sun, Zhiqiang Shen, Rongrong Ji
cs.AI

Zusammenfassung

Trotz des signifikanten Fortschritts bei multimodalen großen Sprachmodellen (MLLMs) bleibt ihr hoher Rechenaufwand ein Hindernis für den Einsatz in der realen Welt. Inspiriert von der Mischung von Tiefen (MoDs) in der natürlichen Sprachverarbeitung zielen wir darauf ab, diese Einschränkung aus der Perspektive der "aktivierten Token" anzugehen. Unsere Schlüsselerkenntnis ist, dass, wenn die meisten Token für die Schichtberechnung überflüssig sind, sie direkt über die MoD-Schicht übersprungen werden können. Die direkte Umwandlung der dichten Schichten von MLLMs in MoD-Schichten führt jedoch zu erheblichen Leistungseinbußen. Um dieses Problem zu lösen, schlagen wir eine innovative MoD-Anpassungsstrategie für bestehende MLLMs namens Gamma-MoD vor. Bei Gamma-MoD wird eine neue Metrik vorgeschlagen, um die Bereitstellung von MoDs im MLLM zu steuern, nämlich der Rang der Aufmerksamkeitskarten (ARank). Durch ARank können wir effektiv identifizieren, welche Schicht überflüssig ist und durch die MoD-Schicht ersetzt werden sollte. Basierend auf ARank schlagen wir außerdem zwei neue Designs vor, um die Rechensparsamkeit von MLLM zu maximieren, während seine Leistung beibehalten wird, nämlich gemeinsamer Vision-Sprach-Router und maskiertes Routing-Lernen. Mit diesen Designs können mehr als 90% der dichten Schichten des MLLM effektiv in MoD-Schichten umgewandelt werden. Um unsere Methode zu validieren, wenden wir sie auf drei beliebte MLLMs an und führen umfangreiche Experimente an 9 Benchmark-Datensätzen durch. Die experimentellen Ergebnisse bestätigen nicht nur den signifikanten Effizienzvorteil von Gamma-MoD gegenüber bestehenden MLLMs, sondern bestätigen auch seine Verallgemeinerungsfähigkeit auf verschiedene MLLMs. Beispielsweise kann Gamma-MoD bei einem geringfügigen Leistungsabfall von -1,5% die Trainings- und Inferenzzeit von LLaVA-HR um 31,0% bzw. 53,2% reduzieren.
English
Despite the significant progress in multimodal large language models (MLLMs), their high computational cost remains a barrier to real-world deployment. Inspired by the mixture of depths (MoDs) in natural language processing, we aim to address this limitation from the perspective of ``activated tokens''. Our key insight is that if most tokens are redundant for the layer computation, then can be skipped directly via the MoD layer. However, directly converting the dense layers of MLLMs to MoD layers leads to substantial performance degradation. To address this issue, we propose an innovative MoD adaptation strategy for existing MLLMs called gamma-MoD. In gamma-MoD, a novel metric is proposed to guide the deployment of MoDs in the MLLM, namely rank of attention maps (ARank). Through ARank, we can effectively identify which layer is redundant and should be replaced with the MoD layer. Based on ARank, we further propose two novel designs to maximize the computational sparsity of MLLM while maintaining its performance, namely shared vision-language router and masked routing learning. With these designs, more than 90% dense layers of the MLLM can be effectively converted to the MoD ones. To validate our method, we apply it to three popular MLLMs, and conduct extensive experiments on 9 benchmark datasets. Experimental results not only validate the significant efficiency benefit of gamma-MoD to existing MLLMs but also confirm its generalization ability on various MLLMs. For example, with a minor performance drop, i.e., -1.5%, gamma-MoD can reduce the training and inference time of LLaVA-HR by 31.0% and 53.2%, respectively.

Summary

AI-Generated Summary

PDF82November 16, 2024