VisionZip : Plus long est mieux mais pas nécessaire dans les modèles de langage vision.
VisionZip: Longer is Better but Not Necessary in Vision Language Models
December 5, 2024
Auteurs: Senqiao Yang, Yukang Chen, Zhuotao Tian, Chengyao Wang, Jingyao Li, Bei Yu, Jiaya Jia
cs.AI
Résumé
Les récents progrès dans les modèles vision-langage ont amélioré les performances en augmentant la longueur des jetons visuels, les rendant beaucoup plus longs que les jetons de texte et augmentant considérablement les coûts de calcul. Cependant, nous observons que les jetons visuels générés par des encodeurs visuels populaires, tels que CLIP et SigLIP, contiennent une redondance significative. Pour remédier à cela, nous introduisons VisionZip, une méthode simple mais efficace qui sélectionne un ensemble de jetons informatifs pour l'entrée du modèle de langage, réduisant la redondance des jetons visuels et améliorant l'efficacité tout en maintenant les performances du modèle. Le VisionZip proposé peut être largement appliqué aux tâches de compréhension d'images et de vidéos et est bien adapté aux dialogues multi-tours dans des scénarios réels, où les méthodes précédentes ont tendance à sous-performer. Les résultats expérimentaux montrent que VisionZip surpasse la méthode précédente de pointe d'au moins 5% de gains de performance dans presque tous les paramètres. De plus, notre méthode améliore significativement la vitesse d'inférence du modèle, en améliorant le temps de préremplissage de 8 fois et permettant au modèle LLaVA-Next 13B d'inférer plus rapidement que le modèle LLaVA-Next 7B tout en obtenant de meilleurs résultats. En outre, nous analysons les causes de cette redondance et encourageons la communauté à se concentrer sur l'extraction de meilleures caractéristiques visuelles plutôt que simplement d'augmenter la longueur des jetons. Notre code est disponible sur https://github.com/dvlab-research/VisionZip.
English
Recent advancements in vision-language models have enhanced performance by
increasing the length of visual tokens, making them much longer than text
tokens and significantly raising computational costs. However, we observe that
the visual tokens generated by popular vision encoders, such as CLIP and
SigLIP, contain significant redundancy. To address this, we introduce
VisionZip, a simple yet effective method that selects a set of informative
tokens for input to the language model, reducing visual token redundancy and
improving efficiency while maintaining model performance. The proposed
VisionZip can be widely applied to image and video understanding tasks and is
well-suited for multi-turn dialogues in real-world scenarios, where previous
methods tend to underperform. Experimental results show that VisionZip
outperforms the previous state-of-the-art method by at least 5% performance
gains across nearly all settings. Moreover, our method significantly enhances
model inference speed, improving the prefilling time by 8x and enabling the
LLaVA-Next 13B model to infer faster than the LLaVA-Next 7B model while
achieving better results. Furthermore, we analyze the causes of this redundancy
and encourage the community to focus on extracting better visual features
rather than merely increasing token length. Our code is available at
https://github.com/dvlab-research/VisionZip .Summary
AI-Generated Summary