ShortV: Effiziente multimodale Large Language Models durch Einfrieren visueller Tokens in ineffektiven Schichten
ShortV: Efficient Multimodal Large Language Models by Freezing Visual Tokens in Ineffective Layers
April 1, 2025
Autoren: Qianhao Yuan, Qingyu Zhang, Yanjiang Liu, Jiawei Chen, Yaojie Lu, Hongyu Lin, Jia Zheng, Xianpei Han, Le Sun
cs.AI
Zusammenfassung
Multimodale Large Language Models (MLLMs) leiden unter hohen Rechenkosten
aufgrund ihrer enormen Größe und der großen Anzahl visueller Tokens. In dieser Arbeit
untersuchen wir die redundanz auf Schichtebene in MLLMs, indem wir eine neue Metrik einführen,
den Layer Contribution (LC), der den Einfluss der Transformationen einer Schicht
auf visuelle und Text-Tokens quantifiziert. Die Berechnung des LC
beinhaltet die Messung der Abweichung in der Modellausgabe, die sich aus dem Entfernen
der Transformationen der Schicht auf die spezifizierten Tokens ergibt. Unser Pilotexperiment
zeigt, dass viele Schichten von MLLMs während der Verarbeitung
visueller Tokens nur einen minimalen Beitrag leisten. Motiviert durch diese Beobachtung schlagen wir ShortV vor,
eine trainingsfreie Methode, die LC nutzt, um ineffektive Schichten zu identifizieren und
die Aktualisierung visueller Tokens in diesen Schichten einfriert. Experimente zeigen, dass ShortV
die Aktualisierung visueller Tokens in etwa 60\% der MLLM-Schichten einfrieren kann, wodurch
die Rechenkosten im Zusammenhang mit der Aktualisierung visueller Tokens drastisch reduziert werden.
So erreicht es beispielsweise eine 50\%ige Reduzierung der FLOPs bei LLaVA-NeXT-13B, während
die überlegene Leistung erhalten bleibt. Der Code wird öffentlich verfügbar sein unter
https://github.com/icip-cas/ShortV.
English
Multimodal Large Language Models (MLLMs) suffer from high computational costs
due to their massive size and the large number of visual tokens. In this paper,
we investigate layer-wise redundancy in MLLMs by introducing a novel metric,
Layer Contribution (LC), which quantifies the impact of a layer's
transformations on visual and text tokens, respectively. The calculation of LC
involves measuring the divergence in model output that results from removing
the layer's transformations on the specified tokens. Our pilot experiment
reveals that many layers of MLLMs exhibit minimal contribution during the
processing of visual tokens. Motivated by this observation, we propose ShortV,
a training-free method that leverages LC to identify ineffective layers, and
freezes visual token updates in these layers. Experiments show that ShortV can
freeze visual token in approximately 60\% of the MLLM layers, thereby
dramatically reducing computational costs related to updating visual tokens.
For example, it achieves a 50\% reduction in FLOPs on LLaVA-NeXT-13B while
maintaining superior performance. The code will be publicly available at
https://github.com/icip-cas/ShortV