Une image vaut 1/2 token après la couche 2 : Accélération d'inférence plug-and-play pour les grands modèles vision-langage

papers.abstract

Dans cette étude, nous identifions les phénomènes d'attention inefficace dans les grands modèles vision-langage (LVLMs), en particulier dans des modèles renommés tels que LLaVA-1.5, QwenVL-Chat et Video-LLaVA. Nous constatons que le calcul de l'attention sur les tokens visuels est extrêmement inefficace dans les couches profondes de ces LVLMs populaires, suggérant la nécessité d'une approche plus parcimonieuse par rapport au traitement des données textuelles. À cette fin, nous introduisons FastV, une méthode polyvalente plug-and-play conçue pour optimiser l'efficacité computationnelle en apprenant des motifs d'attention adaptatifs dans les premières couches et en élaguant les tokens visuels dans les couches suivantes. Nos évaluations démontrent la capacité de FastV à réduire considérablement les coûts computationnels (par exemple, une réduction de 45 % des FLOPs pour LLaVA-1.5-13B) sans sacrifier les performances sur une large gamme de tâches de compréhension d'images et de vidéos. Le compromis entre efficacité computationnelle et performance de FastV est hautement personnalisable et pareto-efficace. Il peut compresser les FLOPs d'un modèle à 13 milliards de paramètres pour atteindre un budget inférieur à celui d'un modèle à 7 milliards de paramètres, tout en maintenant une performance supérieure. Nous croyons que FastV a une valeur pratique pour le déploiement de LVLMs sur des appareils embarqués et dans des modèles commerciaux. Le code est disponible à l'adresse suivante : https://github.com/pkunlp-icler/FastV.

English

In this study, we identify the inefficient attention phenomena in Large Vision-Language Models (LVLMs), notably within prominent models like LLaVA-1.5, QwenVL-Chat and Video-LLaVA. We find out that the attention computation over visual tokens is of extreme inefficiency in the deep layers of popular LVLMs, suggesting a need for a sparser approach compared to textual data handling. To this end, we introduce FastV, a versatile plug-and-play method designed to optimize computational efficiency by learning adaptive attention patterns in early layers and pruning visual tokens in subsequent ones. Our evaluations demonstrate FastV's ability to dramatically reduce computational costs (e.g., a 45 reduction in FLOPs for LLaVA-1.5-13B) without sacrificing performance in a wide range of image and video understanding tasks. The computational efficiency and performance trade-off of FastV are highly customizable and pareto-efficient. It can compress the FLOPs of a 13B-parameter model to achieve a lower budget than that of a 7B-parameter model, while still maintaining superior performance. We believe FastV has practical values for deployment of LVLMs in edge devices and commercial models. Code is released at https://github.com/pkunlp-icler/FastV.

Une image vaut 1/2 token après la couche 2 : Accélération d'inférence plug-and-play pour les grands modèles vision-langage

An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models

papers.abstract

Support