VisionZip : Plus long est mieux mais pas nécessaire dans les modèles de langage vision.

papers.abstract

Les récents progrès dans les modèles vision-langage ont amélioré les performances en augmentant la longueur des jetons visuels, les rendant beaucoup plus longs que les jetons de texte et augmentant considérablement les coûts de calcul. Cependant, nous observons que les jetons visuels générés par des encodeurs visuels populaires, tels que CLIP et SigLIP, contiennent une redondance significative. Pour remédier à cela, nous introduisons VisionZip, une méthode simple mais efficace qui sélectionne un ensemble de jetons informatifs pour l'entrée du modèle de langage, réduisant la redondance des jetons visuels et améliorant l'efficacité tout en maintenant les performances du modèle. Le VisionZip proposé peut être largement appliqué aux tâches de compréhension d'images et de vidéos et est bien adapté aux dialogues multi-tours dans des scénarios réels, où les méthodes précédentes ont tendance à sous-performer. Les résultats expérimentaux montrent que VisionZip surpasse la méthode précédente de pointe d'au moins 5% de gains de performance dans presque tous les paramètres. De plus, notre méthode améliore significativement la vitesse d'inférence du modèle, en améliorant le temps de préremplissage de 8 fois et permettant au modèle LLaVA-Next 13B d'inférer plus rapidement que le modèle LLaVA-Next 7B tout en obtenant de meilleurs résultats. En outre, nous analysons les causes de cette redondance et encourageons la communauté à se concentrer sur l'extraction de meilleures caractéristiques visuelles plutôt que simplement d'augmenter la longueur des jetons. Notre code est disponible sur https://github.com/dvlab-research/VisionZip.

English

Recent advancements in vision-language models have enhanced performance by increasing the length of visual tokens, making them much longer than text tokens and significantly raising computational costs. However, we observe that the visual tokens generated by popular vision encoders, such as CLIP and SigLIP, contain significant redundancy. To address this, we introduce VisionZip, a simple yet effective method that selects a set of informative tokens for input to the language model, reducing visual token redundancy and improving efficiency while maintaining model performance. The proposed VisionZip can be widely applied to image and video understanding tasks and is well-suited for multi-turn dialogues in real-world scenarios, where previous methods tend to underperform. Experimental results show that VisionZip outperforms the previous state-of-the-art method by at least 5% performance gains across nearly all settings. Moreover, our method significantly enhances model inference speed, improving the prefilling time by 8x and enabling the LLaVA-Next 13B model to infer faster than the LLaVA-Next 7B model while achieving better results. Furthermore, we analyze the causes of this redundancy and encourage the community to focus on extracting better visual features rather than merely increasing token length. Our code is available at https://github.com/dvlab-research/VisionZip .

VisionZip : Plus long est mieux mais pas nécessaire dans les modèles de langage vision.

VisionZip: Longer is Better but Not Necessary in Vision Language Models

papers.abstract

Support