YesBut: ビジョン言語モデルの風刺理解能力を評価するための高品質な注釈付きマルチモーダルデータセット
YesBut: A High-Quality Annotated Multimodal Dataset for evaluating Satire Comprehension capability of Vision-Language Models
September 20, 2024
著者: Abhilash Nandy, Yash Agarwal, Ashish Patwa, Millon Madhur Das, Aman Bansal, Ankit Raj, Pawan Goyal, Niloy Ganguly
cs.AI
要旨
風刺とユーモアを理解することは、現在のビジョン・ランゲージ・モデルにとってさえ難しい課題です。本論文では、風刺画像の検出(画像が風刺的かどうかを検出する)、理解(画像が風刺的である理由を生成する)、および補完(画像の半分が与えられた場合、2つの選択肢から他の半分を選択して、完全な画像が風刺的であるようにする)という難解なタスクを提案し、2547枚の画像(風刺的なもの1084枚、非風刺的なもの1463枚)からなる高品質のデータセットYesButをリリースし、これらのタスクを評価します。データセット内の各風刺的な画像は、通常のシナリオと、面白いまたは皮肉な矛盾するシナリオを描いています。現在のビジョン・ランゲージ・モデルがビジュアルQAや画像キャプショニングなどのマルチモーダルなタスクで成功しているにもかかわらず、私たちのベンチマーク実験では、このようなモデルがZero-Shot設定においてYesButデータセットの提案されたタスクで自動評価および人間の評価の両方において低い性能を示すことがわかりました。さらに、さらなる研究のために、119枚の実際の風刺写真からなるデータセットをリリースします。データセットとコードは、https://github.com/abhi1nandy2/yesbut_dataset で入手可能です。
English
Understanding satire and humor is a challenging task for even current
Vision-Language models. In this paper, we propose the challenging tasks of
Satirical Image Detection (detecting whether an image is satirical),
Understanding (generating the reason behind the image being satirical), and
Completion (given one half of the image, selecting the other half from 2 given
options, such that the complete image is satirical) and release a high-quality
dataset YesBut, consisting of 2547 images, 1084 satirical and 1463
non-satirical, containing different artistic styles, to evaluate those tasks.
Each satirical image in the dataset depicts a normal scenario, along with a
conflicting scenario which is funny or ironic. Despite the success of current
Vision-Language Models on multimodal tasks such as Visual QA and Image
Captioning, our benchmarking experiments show that such models perform poorly
on the proposed tasks on the YesBut Dataset in Zero-Shot Settings w.r.t both
automated as well as human evaluation. Additionally, we release a dataset of
119 real, satirical photographs for further research. The dataset and code are
available at https://github.com/abhi1nandy2/yesbut_dataset.Summary
AI-Generated Summary