Sui Limiti dei Modelli Visione-Linguaggio nella Comprensione delle Trasformazioni delle Immagini
On the Limitations of Vision-Language Models in Understanding Image Transforms
March 12, 2025
Autori: Ahmad Mustafa Anis, Hasnain Ali, Saquib Sarfraz
cs.AI
Abstract
I modelli Vision Language (VLMs) hanno dimostrato un potenziale significativo in vari task downstream, tra cui Generazione di Immagini/Video, Risposta a Domande Visive, Chatbot Multimodali e Comprensione Video. Tuttavia, questi modelli spesso incontrano difficoltà con trasformazioni di base delle immagini. Questo articolo indaga la comprensione a livello di immagine dei VLMs, in particolare CLIP di OpenAI e SigLIP di Google. Le nostre scoperte rivelano che questi modelli mancano di comprensione rispetto a molteplici trasformazioni a livello di immagine. Per facilitare questo studio, abbiamo creato una versione aumentata del dataset Flickr8k, associando ogni immagine a una descrizione dettagliata della trasformazione applicata. Esploriamo ulteriormente come questa carenza influisca sui task downstream, in particolare nell'editing di immagini, e valutiamo le prestazioni dei modelli Image2Image all'avanguardia su trasformazioni semplici.
English
Vision Language Models (VLMs) have demonstrated significant potential in
various downstream tasks, including Image/Video Generation, Visual Question
Answering, Multimodal Chatbots, and Video Understanding. However, these models
often struggle with basic image transformations. This paper investigates the
image-level understanding of VLMs, specifically CLIP by OpenAI and SigLIP by
Google. Our findings reveal that these models lack comprehension of multiple
image-level augmentations. To facilitate this study, we created an augmented
version of the Flickr8k dataset, pairing each image with a detailed description
of the applied transformation. We further explore how this deficiency impacts
downstream tasks, particularly in image editing, and evaluate the performance
of state-of-the-art Image2Image models on simple transformations.