YesBut: Een hoogwaardige geannoteerde multimodale dataset voor het evalueren van de satirebegripscapaciteit van visie-taalmodellen.

Samenvatting

Het begrijpen van satire en humor is zelfs voor huidige Vision-Language modellen een uitdagende taak. In dit artikel stellen we de uitdagende taken voor van Satirische Afbeeldingdetectie (het detecteren of een afbeelding satirisch is), Begrip (het genereren van de reden waarom de afbeelding satirisch is) en Aanvulling (gegeven de ene helft van de afbeelding, het selecteren van de andere helft uit 2 gegeven opties, zodat de complete afbeelding satirisch is) en publiceren een dataset van hoge kwaliteit, YesBut, bestaande uit 2547 afbeeldingen, 1084 satirische en 1463 niet-satirische, met verschillende artistieke stijlen, om die taken te evalueren. Elke satirische afbeelding in de dataset toont een normale situatie, samen met een tegenstrijdige situatie die grappig of ironisch is. Ondanks het succes van huidige Vision-Language modellen op multimodale taken zoals Visuele V&A en Afbeeldingsbijschriften, tonen onze benchmarkexperimenten aan dat dergelijke modellen slecht presteren op de voorgestelde taken op de YesBut Dataset in Zero-Shot Instellingen wat betreft zowel geautomatiseerde als menselijke evaluatie. Daarnaast publiceren we een dataset van 119 echte, satirische foto's voor verder onderzoek. De dataset en code zijn beschikbaar op https://github.com/abhi1nandy2/yesbut_dataset.

English

Understanding satire and humor is a challenging task for even current Vision-Language models. In this paper, we propose the challenging tasks of Satirical Image Detection (detecting whether an image is satirical), Understanding (generating the reason behind the image being satirical), and Completion (given one half of the image, selecting the other half from 2 given options, such that the complete image is satirical) and release a high-quality dataset YesBut, consisting of 2547 images, 1084 satirical and 1463 non-satirical, containing different artistic styles, to evaluate those tasks. Each satirical image in the dataset depicts a normal scenario, along with a conflicting scenario which is funny or ironic. Despite the success of current Vision-Language Models on multimodal tasks such as Visual QA and Image Captioning, our benchmarking experiments show that such models perform poorly on the proposed tasks on the YesBut Dataset in Zero-Shot Settings w.r.t both automated as well as human evaluation. Additionally, we release a dataset of 119 real, satirical photographs for further research. The dataset and code are available at https://github.com/abhi1nandy2/yesbut_dataset.

YesBut: Een hoogwaardige geannoteerde multimodale dataset voor het evalueren van de satirebegripscapaciteit van visie-taalmodellen.

YesBut: A High-Quality Annotated Multimodal Dataset for evaluating Satire Comprehension capability of Vision-Language Models

Samenvatting

Support