JaAber: Ein hochwertiger annotierter multimodaler Datensatz zur Bewertung der Fähigkeit von Vision-Sprache-Modellen zur Satireverarbeitung.
YesBut: A High-Quality Annotated Multimodal Dataset for evaluating Satire Comprehension capability of Vision-Language Models
September 20, 2024
Autoren: Abhilash Nandy, Yash Agarwal, Ashish Patwa, Millon Madhur Das, Aman Bansal, Ankit Raj, Pawan Goyal, Niloy Ganguly
cs.AI
Zusammenfassung
Das Verstehen von Satire und Humor ist selbst für aktuelle Vision-Language-Modelle eine anspruchsvolle Aufgabe. In diesem Paper schlagen wir die anspruchsvollen Aufgaben der Satirischen Bilderkennung (Erkennung, ob ein Bild satirisch ist), des Verstehens (Generierung des Grundes, warum das Bild satirisch ist) und der Vervollständigung (bei gegebener Hälfte des Bildes Auswahl der anderen Hälfte aus 2 gegebenen Optionen, so dass das vollständige Bild satirisch ist) vor und veröffentlichen einen qualitativ hochwertigen Datensatz YesBut, bestehend aus 2547 Bildern, 1084 satirischen und 1463 nicht-satirischen, die verschiedene künstlerische Stile enthalten, um diese Aufgaben zu bewerten. Jedes satirische Bild im Datensatz zeigt ein normales Szenario zusammen mit einem konfliktierenden Szenario, das lustig oder ironisch ist. Trotz des Erfolgs aktueller Vision-Language-Modelle bei multimodalen Aufgaben wie visuelle Frage-Antwort und Bildbeschreibung zeigen unsere Benchmark-Experimente, dass solche Modelle bei den vorgeschlagenen Aufgaben im YesBut-Datensatz in Zero-Shot-Einstellungen sowohl in automatisierten als auch in menschlichen Bewertungen schlecht abschneiden. Darüber hinaus veröffentlichen wir einen Datensatz mit 119 realen, satirischen Fotografien für weitere Forschungszwecke. Der Datensatz und der Code sind unter https://github.com/abhi1nandy2/yesbut_dataset verfügbar.
English
Understanding satire and humor is a challenging task for even current
Vision-Language models. In this paper, we propose the challenging tasks of
Satirical Image Detection (detecting whether an image is satirical),
Understanding (generating the reason behind the image being satirical), and
Completion (given one half of the image, selecting the other half from 2 given
options, such that the complete image is satirical) and release a high-quality
dataset YesBut, consisting of 2547 images, 1084 satirical and 1463
non-satirical, containing different artistic styles, to evaluate those tasks.
Each satirical image in the dataset depicts a normal scenario, along with a
conflicting scenario which is funny or ironic. Despite the success of current
Vision-Language Models on multimodal tasks such as Visual QA and Image
Captioning, our benchmarking experiments show that such models perform poorly
on the proposed tasks on the YesBut Dataset in Zero-Shot Settings w.r.t both
automated as well as human evaluation. Additionally, we release a dataset of
119 real, satirical photographs for further research. The dataset and code are
available at https://github.com/abhi1nandy2/yesbut_dataset.Summary
AI-Generated Summary