ChatPaper.aiChatPaper

画像変換における視覚-言語モデルの理解能力の限界について

On the Limitations of Vision-Language Models in Understanding Image Transforms

March 12, 2025
著者: Ahmad Mustafa Anis, Hasnain Ali, Saquib Sarfraz
cs.AI

要旨

ビジョン言語モデル(VLMs)は、画像/動画生成、視覚的質問応答、マルチモーダルチャットボット、動画理解など、さまざまな下流タスクにおいて大きな可能性を示しています。しかし、これらのモデルは基本的な画像変換に苦戦することが多いです。本論文では、OpenAIのCLIPとGoogleのSigLIPを中心に、VLMsの画像レベルの理解能力を調査します。我々の研究結果は、これらのモデルが複数の画像レベルの拡張を理解していないことを明らかにしています。この研究を進めるために、Flickr8kデータセットの拡張版を作成し、各画像に適用された変換の詳細な説明をペアリングしました。さらに、この欠陥が下流タスク、特に画像編集にどのような影響を与えるかを探り、最先端のImage2Imageモデルの単純な変換における性能を評価します。
English
Vision Language Models (VLMs) have demonstrated significant potential in various downstream tasks, including Image/Video Generation, Visual Question Answering, Multimodal Chatbots, and Video Understanding. However, these models often struggle with basic image transformations. This paper investigates the image-level understanding of VLMs, specifically CLIP by OpenAI and SigLIP by Google. Our findings reveal that these models lack comprehension of multiple image-level augmentations. To facilitate this study, we created an augmented version of the Flickr8k dataset, pairing each image with a detailed description of the applied transformation. We further explore how this deficiency impacts downstream tasks, particularly in image editing, and evaluate the performance of state-of-the-art Image2Image models on simple transformations.

Summary

AI-Generated Summary

PDF102March 14, 2025