Ограничения моделей "визуальный язык" в понимании преобразований изображений

Аннотация

Модели обработки визуальной информации и языка (Vision Language Models, VLMs) продемонстрировали значительный потенциал в различных прикладных задачах, включая генерацию изображений/видео, визуальное ответы на вопросы, мультимодальные чат-боты и понимание видео. Однако эти модели часто испытывают трудности с базовыми преобразованиями изображений. В данной статье исследуется понимание изображений на уровне моделей VLMs, в частности CLIP от OpenAI и SigLIP от Google. Наши результаты показывают, что эти модели не способны осмысливать множественные преобразования изображений. Для проведения этого исследования мы создали расширенную версию набора данных Flickr8k, сопоставив каждое изображение с подробным описанием применённого преобразования. Мы также исследуем, как этот недостаток влияет на прикладные задачи, особенно на редактирование изображений, и оцениваем производительность современных моделей Image2Image на простых преобразованиях.

English

Vision Language Models (VLMs) have demonstrated significant potential in various downstream tasks, including Image/Video Generation, Visual Question Answering, Multimodal Chatbots, and Video Understanding. However, these models often struggle with basic image transformations. This paper investigates the image-level understanding of VLMs, specifically CLIP by OpenAI and SigLIP by Google. Our findings reveal that these models lack comprehension of multiple image-level augmentations. To facilitate this study, we created an augmented version of the Flickr8k dataset, pairing each image with a detailed description of the applied transformation. We further explore how this deficiency impacts downstream tasks, particularly in image editing, and evaluate the performance of state-of-the-art Image2Image models on simple transformations.