OuiMais : un ensemble de données multimodal annoté de haute qualité pour évaluer la capacité de compréhension de la satire des modèles Vision-Language.
YesBut: A High-Quality Annotated Multimodal Dataset for evaluating Satire Comprehension capability of Vision-Language Models
September 20, 2024
Auteurs: Abhilash Nandy, Yash Agarwal, Ashish Patwa, Millon Madhur Das, Aman Bansal, Ankit Raj, Pawan Goyal, Niloy Ganguly
cs.AI
Résumé
Comprendre la satire et l'humour est une tâche difficile même pour les modèles Vision-Language actuels. Dans cet article, nous proposons les tâches complexes de Détection d'Images Satiriques (détection de savoir si une image est satirique), de Compréhension (générer la raison pour laquelle l'image est satirique), et de Complétion (étant donné la moitié de l'image, sélectionner l'autre moitié parmi 2 options données, de sorte que l'image complète soit satirique) et nous publions un ensemble de données de haute qualité YesBut, composé de 2547 images, 1084 satiriques et 1463 non satiriques, contenant différents styles artistiques, pour évaluer ces tâches. Chaque image satirique dans l'ensemble de données dépeint un scénario normal, ainsi qu'un scénario conflictuel qui est drôle ou ironique. Malgré le succès des modèles Vision-Language actuels sur des tâches multimodales telles que la Question-Réponse Visuelle et la Légende d'Images, nos expériences de référencement montrent que de tels modèles performant mal sur les tâches proposées sur l'ensemble de données YesBut dans des paramètres de zéro-shot en termes d'évaluation automatisée ainsi qu'humaine. De plus, nous publions un ensemble de données de 119 photographies réelles et satiriques pour des recherches ultérieures. L'ensemble de données et le code sont disponibles sur https://github.com/abhi1nandy2/yesbut_dataset.
English
Understanding satire and humor is a challenging task for even current
Vision-Language models. In this paper, we propose the challenging tasks of
Satirical Image Detection (detecting whether an image is satirical),
Understanding (generating the reason behind the image being satirical), and
Completion (given one half of the image, selecting the other half from 2 given
options, such that the complete image is satirical) and release a high-quality
dataset YesBut, consisting of 2547 images, 1084 satirical and 1463
non-satirical, containing different artistic styles, to evaluate those tasks.
Each satirical image in the dataset depicts a normal scenario, along with a
conflicting scenario which is funny or ironic. Despite the success of current
Vision-Language Models on multimodal tasks such as Visual QA and Image
Captioning, our benchmarking experiments show that such models perform poorly
on the proposed tasks on the YesBut Dataset in Zero-Shot Settings w.r.t both
automated as well as human evaluation. Additionally, we release a dataset of
119 real, satirical photographs for further research. The dataset and code are
available at https://github.com/abhi1nandy2/yesbut_dataset.Summary
AI-Generated Summary