ChatPaper.aiChatPaper

YesBut: ビジョン言語モデルの風刺理解能力を評価するための高品質な注釈付きマルチモーダルデータセット

YesBut: A High-Quality Annotated Multimodal Dataset for evaluating Satire Comprehension capability of Vision-Language Models

September 20, 2024
著者: Abhilash Nandy, Yash Agarwal, Ashish Patwa, Millon Madhur Das, Aman Bansal, Ankit Raj, Pawan Goyal, Niloy Ganguly
cs.AI

要旨

風刺とユーモアを理解することは、現在のビジョン・ランゲージ・モデルにとってさえ難しい課題です。本論文では、風刺画像の検出(画像が風刺的かどうかを検出する)、理解(画像が風刺的である理由を生成する)、および補完(画像の半分が与えられた場合、2つの選択肢から他の半分を選択して、完全な画像が風刺的であるようにする)という難解なタスクを提案し、2547枚の画像(風刺的なもの1084枚、非風刺的なもの1463枚)からなる高品質のデータセットYesButをリリースし、これらのタスクを評価します。データセット内の各風刺的な画像は、通常のシナリオと、面白いまたは皮肉な矛盾するシナリオを描いています。現在のビジョン・ランゲージ・モデルがビジュアルQAや画像キャプショニングなどのマルチモーダルなタスクで成功しているにもかかわらず、私たちのベンチマーク実験では、このようなモデルがZero-Shot設定においてYesButデータセットの提案されたタスクで自動評価および人間の評価の両方において低い性能を示すことがわかりました。さらに、さらなる研究のために、119枚の実際の風刺写真からなるデータセットをリリースします。データセットとコードは、https://github.com/abhi1nandy2/yesbut_dataset で入手可能です。
English
Understanding satire and humor is a challenging task for even current Vision-Language models. In this paper, we propose the challenging tasks of Satirical Image Detection (detecting whether an image is satirical), Understanding (generating the reason behind the image being satirical), and Completion (given one half of the image, selecting the other half from 2 given options, such that the complete image is satirical) and release a high-quality dataset YesBut, consisting of 2547 images, 1084 satirical and 1463 non-satirical, containing different artistic styles, to evaluate those tasks. Each satirical image in the dataset depicts a normal scenario, along with a conflicting scenario which is funny or ironic. Despite the success of current Vision-Language Models on multimodal tasks such as Visual QA and Image Captioning, our benchmarking experiments show that such models perform poorly on the proposed tasks on the YesBut Dataset in Zero-Shot Settings w.r.t both automated as well as human evaluation. Additionally, we release a dataset of 119 real, satirical photographs for further research. The dataset and code are available at https://github.com/abhi1nandy2/yesbut_dataset.

Summary

AI-Generated Summary

PDF529November 16, 2024