ShortV: Efficiënte Multimodale Large Language Models door Visuele Tokens te Bevriezen in Ineffectieve Lagen
ShortV: Efficient Multimodal Large Language Models by Freezing Visual Tokens in Ineffective Layers
April 1, 2025
Auteurs: Qianhao Yuan, Qingyu Zhang, Yanjiang Liu, Jiawei Chen, Yaojie Lu, Hongyu Lin, Jia Zheng, Xianpei Han, Le Sun
cs.AI
Samenvatting
Multimodale Large Language Models (MLLMs) kampen met hoge rekenkosten
vanwege hun enorme omvang en het grote aantal visuele tokens. In dit artikel
onderzoeken we laaggewijze redundantie in MLLMs door een nieuwe metriek te
introduceren, Layer Contribution (LC), die de impact van de transformaties van
een laag op respectievelijk visuele en teksttokens kwantificeert. De berekening
van LC houdt in dat de divergentie in de modeloutput wordt gemeten die ontstaat
door de transformaties van de laag op de gespecificeerde tokens te verwijderen.
Ons pilotexperiment toont aan dat veel lagen van MLLMs een minimale bijdrage
leveren tijdens de verwerking van visuele tokens. Gemotiveerd door deze
observatie stellen we ShortV voor, een trainingsvrije methode die LC gebruikt
om ineffectieve lagen te identificeren en de updates van visuele tokens in
deze lagen te bevriezen. Experimenten tonen aan dat ShortV visuele tokens in
ongeveer 60\% van de MLLM-lagen kan bevriezen, waardoor de rekenkosten voor
het updaten van visuele tokens aanzienlijk worden verlaagd. Zo wordt bijvoorbeeld
een reductie van 50\% in FLOPs bereikt op LLaVA-NeXT-13B, terwijl de superieure
prestaties behouden blijven. De code zal publiekelijk beschikbaar zijn op
https://github.com/icip-cas/ShortV.
English
Multimodal Large Language Models (MLLMs) suffer from high computational costs
due to their massive size and the large number of visual tokens. In this paper,
we investigate layer-wise redundancy in MLLMs by introducing a novel metric,
Layer Contribution (LC), which quantifies the impact of a layer's
transformations on visual and text tokens, respectively. The calculation of LC
involves measuring the divergence in model output that results from removing
the layer's transformations on the specified tokens. Our pilot experiment
reveals that many layers of MLLMs exhibit minimal contribution during the
processing of visual tokens. Motivated by this observation, we propose ShortV,
a training-free method that leverages LC to identify ineffective layers, and
freezes visual token updates in these layers. Experiments show that ShortV can
freeze visual token in approximately 60\% of the MLLM layers, thereby
dramatically reducing computational costs related to updating visual tokens.
For example, it achieves a 50\% reduction in FLOPs on LLaVA-NeXT-13B while
maintaining superior performance. The code will be publicly available at
https://github.com/icip-cas/ShortVSummary
AI-Generated Summary