ChatPaper.aiChatPaper

OuiMais : un ensemble de données multimodal annoté de haute qualité pour évaluer la capacité de compréhension de la satire des modèles Vision-Language.

YesBut: A High-Quality Annotated Multimodal Dataset for evaluating Satire Comprehension capability of Vision-Language Models

September 20, 2024
Auteurs: Abhilash Nandy, Yash Agarwal, Ashish Patwa, Millon Madhur Das, Aman Bansal, Ankit Raj, Pawan Goyal, Niloy Ganguly
cs.AI

Résumé

Comprendre la satire et l'humour est une tâche difficile même pour les modèles Vision-Language actuels. Dans cet article, nous proposons les tâches complexes de Détection d'Images Satiriques (détection de savoir si une image est satirique), de Compréhension (générer la raison pour laquelle l'image est satirique), et de Complétion (étant donné la moitié de l'image, sélectionner l'autre moitié parmi 2 options données, de sorte que l'image complète soit satirique) et nous publions un ensemble de données de haute qualité YesBut, composé de 2547 images, 1084 satiriques et 1463 non satiriques, contenant différents styles artistiques, pour évaluer ces tâches. Chaque image satirique dans l'ensemble de données dépeint un scénario normal, ainsi qu'un scénario conflictuel qui est drôle ou ironique. Malgré le succès des modèles Vision-Language actuels sur des tâches multimodales telles que la Question-Réponse Visuelle et la Légende d'Images, nos expériences de référencement montrent que de tels modèles performant mal sur les tâches proposées sur l'ensemble de données YesBut dans des paramètres de zéro-shot en termes d'évaluation automatisée ainsi qu'humaine. De plus, nous publions un ensemble de données de 119 photographies réelles et satiriques pour des recherches ultérieures. L'ensemble de données et le code sont disponibles sur https://github.com/abhi1nandy2/yesbut_dataset.
English
Understanding satire and humor is a challenging task for even current Vision-Language models. In this paper, we propose the challenging tasks of Satirical Image Detection (detecting whether an image is satirical), Understanding (generating the reason behind the image being satirical), and Completion (given one half of the image, selecting the other half from 2 given options, such that the complete image is satirical) and release a high-quality dataset YesBut, consisting of 2547 images, 1084 satirical and 1463 non-satirical, containing different artistic styles, to evaluate those tasks. Each satirical image in the dataset depicts a normal scenario, along with a conflicting scenario which is funny or ironic. Despite the success of current Vision-Language Models on multimodal tasks such as Visual QA and Image Captioning, our benchmarking experiments show that such models perform poorly on the proposed tasks on the YesBut Dataset in Zero-Shot Settings w.r.t both automated as well as human evaluation. Additionally, we release a dataset of 119 real, satirical photographs for further research. The dataset and code are available at https://github.com/abhi1nandy2/yesbut_dataset.

Summary

AI-Generated Summary

PDF529November 16, 2024