ShortV: Modelos Multimodales de Lenguaje Grande Eficientes mediante la Congelación de Tokens Visuales en Capas Inefectivas

Resumen

Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) enfrentan altos costos computacionales debido a su tamaño masivo y al gran número de tokens visuales. En este artículo, investigamos la redundancia por capas en los MLLMs mediante la introducción de una nueva métrica, la Contribución de Capa (LC, por sus siglas en inglés), que cuantifica el impacto de las transformaciones de una capa en los tokens visuales y de texto, respectivamente. El cálculo de LC implica medir la divergencia en la salida del modelo que resulta de eliminar las transformaciones de la capa en los tokens especificados. Nuestro experimento piloto revela que muchas capas de los MLLMs muestran una contribución mínima durante el procesamiento de tokens visuales. Motivados por esta observación, proponemos ShortV, un método sin entrenamiento que aprovecha LC para identificar capas ineficaces y congela las actualizaciones de tokens visuales en estas capas. Los experimentos muestran que ShortV puede congelar tokens visuales en aproximadamente el 60\% de las capas de los MLLMs, reduciendo drásticamente los costos computacionales relacionados con la actualización de tokens visuales. Por ejemplo, logra una reducción del 50\% en FLOPs en LLaVA-NeXT-13B mientras mantiene un rendimiento superior. El código estará disponible públicamente en https://github.com/icip-cas/ShortV.

English

Multimodal Large Language Models (MLLMs) suffer from high computational costs due to their massive size and the large number of visual tokens. In this paper, we investigate layer-wise redundancy in MLLMs by introducing a novel metric, Layer Contribution (LC), which quantifies the impact of a layer's transformations on visual and text tokens, respectively. The calculation of LC involves measuring the divergence in model output that results from removing the layer's transformations on the specified tokens. Our pilot experiment reveals that many layers of MLLMs exhibit minimal contribution during the processing of visual tokens. Motivated by this observation, we propose ShortV, a training-free method that leverages LC to identify ineffective layers, and freezes visual token updates in these layers. Experiments show that ShortV can freeze visual token in approximately 60\% of the MLLM layers, thereby dramatically reducing computational costs related to updating visual tokens. For example, it achieves a 50\% reduction in FLOPs on LLaVA-NeXT-13B while maintaining superior performance. The code will be publicly available at https://github.com/icip-cas/ShortV

ShortV: Modelos Multimodales de Lenguaje Grande Eficientes mediante la Congelación de Tokens Visuales en Capas Inefectivas

ShortV: Efficient Multimodal Large Language Models by Freezing Visual Tokens in Ineffective Layers

Resumen

Support