YesBut: Een hoogwaardige geannoteerde multimodale dataset voor het evalueren van de satirebegripscapaciteit van visie-taalmodellen.
YesBut: A High-Quality Annotated Multimodal Dataset for evaluating Satire Comprehension capability of Vision-Language Models
September 20, 2024
Auteurs: Abhilash Nandy, Yash Agarwal, Ashish Patwa, Millon Madhur Das, Aman Bansal, Ankit Raj, Pawan Goyal, Niloy Ganguly
cs.AI
Samenvatting
Het begrijpen van satire en humor is zelfs voor huidige Vision-Language modellen een uitdagende taak. In dit artikel stellen we de uitdagende taken voor van Satirische Afbeeldingdetectie (het detecteren of een afbeelding satirisch is), Begrip (het genereren van de reden waarom de afbeelding satirisch is) en Aanvulling (gegeven de ene helft van de afbeelding, het selecteren van de andere helft uit 2 gegeven opties, zodat de complete afbeelding satirisch is) en publiceren een dataset van hoge kwaliteit, YesBut, bestaande uit 2547 afbeeldingen, 1084 satirische en 1463 niet-satirische, met verschillende artistieke stijlen, om die taken te evalueren. Elke satirische afbeelding in de dataset toont een normale situatie, samen met een tegenstrijdige situatie die grappig of ironisch is. Ondanks het succes van huidige Vision-Language modellen op multimodale taken zoals Visuele V&A en Afbeeldingsbijschriften, tonen onze benchmarkexperimenten aan dat dergelijke modellen slecht presteren op de voorgestelde taken op de YesBut Dataset in Zero-Shot Instellingen wat betreft zowel geautomatiseerde als menselijke evaluatie. Daarnaast publiceren we een dataset van 119 echte, satirische foto's voor verder onderzoek. De dataset en code zijn beschikbaar op https://github.com/abhi1nandy2/yesbut_dataset.
English
Understanding satire and humor is a challenging task for even current
Vision-Language models. In this paper, we propose the challenging tasks of
Satirical Image Detection (detecting whether an image is satirical),
Understanding (generating the reason behind the image being satirical), and
Completion (given one half of the image, selecting the other half from 2 given
options, such that the complete image is satirical) and release a high-quality
dataset YesBut, consisting of 2547 images, 1084 satirical and 1463
non-satirical, containing different artistic styles, to evaluate those tasks.
Each satirical image in the dataset depicts a normal scenario, along with a
conflicting scenario which is funny or ironic. Despite the success of current
Vision-Language Models on multimodal tasks such as Visual QA and Image
Captioning, our benchmarking experiments show that such models perform poorly
on the proposed tasks on the YesBut Dataset in Zero-Shot Settings w.r.t both
automated as well as human evaluation. Additionally, we release a dataset of
119 real, satirical photographs for further research. The dataset and code are
available at https://github.com/abhi1nandy2/yesbut_dataset.Summary
AI-Generated Summary