Ограничения моделей "визуальный язык" в понимании преобразований изображений
On the Limitations of Vision-Language Models in Understanding Image Transforms
March 12, 2025
Авторы: Ahmad Mustafa Anis, Hasnain Ali, Saquib Sarfraz
cs.AI
Аннотация
Модели обработки визуальной информации и языка (Vision Language Models, VLMs) продемонстрировали значительный потенциал в различных прикладных задачах, включая генерацию изображений/видео, визуальное ответы на вопросы, мультимодальные чат-боты и понимание видео. Однако эти модели часто испытывают трудности с базовыми преобразованиями изображений. В данной статье исследуется понимание изображений на уровне моделей VLMs, в частности CLIP от OpenAI и SigLIP от Google. Наши результаты показывают, что эти модели не способны осмысливать множественные преобразования изображений. Для проведения этого исследования мы создали расширенную версию набора данных Flickr8k, сопоставив каждое изображение с подробным описанием применённого преобразования. Мы также исследуем, как этот недостаток влияет на прикладные задачи, особенно на редактирование изображений, и оцениваем производительность современных моделей Image2Image на простых преобразованиях.
English
Vision Language Models (VLMs) have demonstrated significant potential in
various downstream tasks, including Image/Video Generation, Visual Question
Answering, Multimodal Chatbots, and Video Understanding. However, these models
often struggle with basic image transformations. This paper investigates the
image-level understanding of VLMs, specifically CLIP by OpenAI and SigLIP by
Google. Our findings reveal that these models lack comprehension of multiple
image-level augmentations. To facilitate this study, we created an augmented
version of the Flickr8k dataset, pairing each image with a detailed description
of the applied transformation. We further explore how this deficiency impacts
downstream tasks, particularly in image editing, and evaluate the performance
of state-of-the-art Image2Image models on simple transformations.Summary
AI-Generated Summary