Sur les limites des modèles vision-langage dans la compréhension des transformations d'images
On the Limitations of Vision-Language Models in Understanding Image Transforms
March 12, 2025
Auteurs: Ahmad Mustafa Anis, Hasnain Ali, Saquib Sarfraz
cs.AI
Résumé
Les modèles de vision et langage (VLMs) ont démontré un potentiel significatif dans diverses tâches en aval, notamment la génération d'images/vidéos, la réponse à des questions visuelles, les chatbots multimodaux et la compréhension vidéo. Cependant, ces modèles rencontrent souvent des difficultés avec les transformations d'images de base. Cet article étudie la compréhension au niveau de l'image des VLMs, en particulier CLIP d'OpenAI et SigLIP de Google. Nos résultats révèlent que ces modèles manquent de compréhension face à de multiples augmentations au niveau de l'image. Pour faciliter cette étude, nous avons créé une version augmentée du jeu de données Flickr8k, associant chaque image à une description détaillée de la transformation appliquée. Nous explorons également comment cette lacune impacte les tâches en aval, notamment dans l'édition d'images, et évaluons la performance des modèles Image2Image de pointe sur des transformations simples.
English
Vision Language Models (VLMs) have demonstrated significant potential in
various downstream tasks, including Image/Video Generation, Visual Question
Answering, Multimodal Chatbots, and Video Understanding. However, these models
often struggle with basic image transformations. This paper investigates the
image-level understanding of VLMs, specifically CLIP by OpenAI and SigLIP by
Google. Our findings reveal that these models lack comprehension of multiple
image-level augmentations. To facilitate this study, we created an augmented
version of the Flickr8k dataset, pairing each image with a detailed description
of the applied transformation. We further explore how this deficiency impacts
downstream tasks, particularly in image editing, and evaluate the performance
of state-of-the-art Image2Image models on simple transformations.Summary
AI-Generated Summary