Over de beperkingen van visueel-taalkundige modellen bij het begrijpen van beeldtransformaties
On the Limitations of Vision-Language Models in Understanding Image Transforms
March 12, 2025
Auteurs: Ahmad Mustafa Anis, Hasnain Ali, Saquib Sarfraz
cs.AI
Samenvatting
Vision Language Models (VLMs) hebben aanzienlijk potentieel getoond in
verschillende downstream taken, waaronder Beeld/Video Generatie, Visuele Vraag
Beantwoording, Multimodale Chatbots en Video Begrip. Deze modellen hebben echter
vaak moeite met eenvoudige beeldtransformaties. Dit artikel onderzoekt het
beeldniveau-begrip van VLMs, specifiek CLIP van OpenAI en SigLIP van
Google. Onze bevindingen tonen aan dat deze modellen geen begrip hebben van
meerdere beeldniveau-augmentaties. Om dit onderzoek te faciliteren, hebben we
een geaugmenteerde versie van de Flickr8k dataset gemaakt, waarbij elk beeld
gekoppeld is aan een gedetailleerde beschrijving van de toegepaste transformatie.
We onderzoeken verder hoe dit tekort downstream taken beïnvloedt, met name bij
beeldbewerking, en evalueren de prestaties van state-of-the-art Image2Image
modellen op eenvoudige transformaties.
English
Vision Language Models (VLMs) have demonstrated significant potential in
various downstream tasks, including Image/Video Generation, Visual Question
Answering, Multimodal Chatbots, and Video Understanding. However, these models
often struggle with basic image transformations. This paper investigates the
image-level understanding of VLMs, specifically CLIP by OpenAI and SigLIP by
Google. Our findings reveal that these models lack comprehension of multiple
image-level augmentations. To facilitate this study, we created an augmented
version of the Flickr8k dataset, pairing each image with a detailed description
of the applied transformation. We further explore how this deficiency impacts
downstream tasks, particularly in image editing, and evaluate the performance
of state-of-the-art Image2Image models on simple transformations.Summary
AI-Generated Summary