Una Imagen Vale 1/2 Tokens Después de la Capa 2: Aceleración de Inferencia Plug-and-Play para Modelos Grandes de Visión y Lenguaje

Resumen

En este estudio, identificamos los fenómenos de atención ineficiente en los Modelos de Lenguaje y Visión de Gran Escala (LVLMs, por sus siglas en inglés), particularmente en modelos destacados como LLaVA-1.5, QwenVL-Chat y Video-LLaVA. Descubrimos que el cálculo de atención sobre los tokens visuales es extremadamente ineficiente en las capas profundas de los LVLMs más populares, lo que sugiere la necesidad de un enfoque más disperso en comparación con el manejo de datos textuales. Para abordar esto, presentamos FastV, un método versátil de tipo plug-and-play diseñado para optimizar la eficiencia computacional mediante el aprendizaje de patrones de atención adaptativos en las capas iniciales y la poda de tokens visuales en las capas posteriores. Nuestras evaluaciones demuestran que FastV es capaz de reducir drásticamente los costos computacionales (por ejemplo, una reducción del 45% en los FLOPs para LLaVA-1.5-13B) sin sacrificar el rendimiento en una amplia gama de tareas de comprensión de imágenes y videos. La relación entre la eficiencia computacional y el rendimiento de FastV es altamente personalizable y Pareto-eficiente. Puede comprimir los FLOPs de un modelo de 13B parámetros para alcanzar un presupuesto inferior al de un modelo de 7B parámetros, manteniendo al mismo tiempo un rendimiento superior. Creemos que FastV tiene un valor práctico para la implementación de LVLMs en dispositivos de borde y modelos comerciales. El código está disponible en https://github.com/pkunlp-icler/FastV.

English

In this study, we identify the inefficient attention phenomena in Large Vision-Language Models (LVLMs), notably within prominent models like LLaVA-1.5, QwenVL-Chat and Video-LLaVA. We find out that the attention computation over visual tokens is of extreme inefficiency in the deep layers of popular LVLMs, suggesting a need for a sparser approach compared to textual data handling. To this end, we introduce FastV, a versatile plug-and-play method designed to optimize computational efficiency by learning adaptive attention patterns in early layers and pruning visual tokens in subsequent ones. Our evaluations demonstrate FastV's ability to dramatically reduce computational costs (e.g., a 45 reduction in FLOPs for LLaVA-1.5-13B) without sacrificing performance in a wide range of image and video understanding tasks. The computational efficiency and performance trade-off of FastV are highly customizable and pareto-efficient. It can compress the FLOPs of a 13B-parameter model to achieve a lower budget than that of a 7B-parameter model, while still maintaining superior performance. We believe FastV has practical values for deployment of LVLMs in edge devices and commercial models. Code is released at https://github.com/pkunlp-icler/FastV.

Una Imagen Vale 1/2 Tokens Después de la Capa 2: Aceleración de Inferencia Plug-and-Play para Modelos Grandes de Visión y Lenguaje

An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models

Resumen

Support