VisionZip : Plus long est mieux mais pas nécessaire dans les modèles de langage vision.VisionZip: Longer is Better but Not Necessary in Vision Language Models
Les récents progrès dans les modèles vision-langage ont amélioré les performances en augmentant la longueur des jetons visuels, les rendant beaucoup plus longs que les jetons de texte et augmentant considérablement les coûts de calcul. Cependant, nous observons que les jetons visuels générés par des encodeurs visuels populaires, tels que CLIP et SigLIP, contiennent une redondance significative. Pour remédier à cela, nous introduisons VisionZip, une méthode simple mais efficace qui sélectionne un ensemble de jetons informatifs pour l'entrée du modèle de langage, réduisant la redondance des jetons visuels et améliorant l'efficacité tout en maintenant les performances du modèle. Le VisionZip proposé peut être largement appliqué aux tâches de compréhension d'images et de vidéos et est bien adapté aux dialogues multi-tours dans des scénarios réels, où les méthodes précédentes ont tendance à sous-performer. Les résultats expérimentaux montrent que VisionZip surpasse la méthode précédente de pointe d'au moins 5% de gains de performance dans presque tous les paramètres. De plus, notre méthode améliore significativement la vitesse d'inférence du modèle, en améliorant le temps de préremplissage de 8 fois et permettant au modèle LLaVA-Next 13B d'inférer plus rapidement que le modèle LLaVA-Next 7B tout en obtenant de meilleurs résultats. En outre, nous analysons les causes de cette redondance et encourageons la communauté à se concentrer sur l'extraction de meilleures caractéristiques visuelles plutôt que simplement d'augmenter la longueur des jetons. Notre code est disponible sur https://github.com/dvlab-research/VisionZip.