YesBut: un dataset multimodale annotato di alta qualità per valutare la capacità di comprensione della satira dei modelli visione-linguaggio.
YesBut: A High-Quality Annotated Multimodal Dataset for evaluating Satire Comprehension capability of Vision-Language Models
September 20, 2024
Autori: Abhilash Nandy, Yash Agarwal, Ashish Patwa, Millon Madhur Das, Aman Bansal, Ankit Raj, Pawan Goyal, Niloy Ganguly
cs.AI
Abstract
Comprendere la satira e l'umorismo è un compito impegnativo persino per i modelli attuali di Visione-Linguaggio. In questo articolo, proponiamo le sfide impegnative del Rilevamento di Immagini Satiriche (individuare se un'immagine è satirica), della Comprensione (generare il motivo per cui l'immagine è satirica) e del Completamento (dato un'immagine divisa a metà, selezionare l'altra metà tra 2 opzioni date, in modo che l'immagine completa sia satirica) e rilasciamo un dataset di alta qualità YesBut, composto da 2547 immagini, di cui 1084 satiriche e 1463 non satiriche, contenenti diversi stili artistici, per valutare tali compiti. Ogni immagine satirica nel dataset raffigura uno scenario normale, insieme a uno scenario conflittuale che è divertente o ironico. Nonostante il successo dei modelli attuali di Visione-Linguaggio su compiti multimodali come la QA Visiva e la Descrizione delle Immagini, i nostri esperimenti di benchmarking mostrano che tali modelli hanno prestazioni scadenti sui compiti proposti nel Dataset YesBut in impostazioni Zero-Shot sia in valutazioni automatizzate che umane. Inoltre, rilasciamo un dataset di 119 fotografie reali e satiriche per ulteriori ricerche. Il dataset e il codice sono disponibili su https://github.com/abhi1nandy2/yesbut_dataset.
English
Understanding satire and humor is a challenging task for even current
Vision-Language models. In this paper, we propose the challenging tasks of
Satirical Image Detection (detecting whether an image is satirical),
Understanding (generating the reason behind the image being satirical), and
Completion (given one half of the image, selecting the other half from 2 given
options, such that the complete image is satirical) and release a high-quality
dataset YesBut, consisting of 2547 images, 1084 satirical and 1463
non-satirical, containing different artistic styles, to evaluate those tasks.
Each satirical image in the dataset depicts a normal scenario, along with a
conflicting scenario which is funny or ironic. Despite the success of current
Vision-Language Models on multimodal tasks such as Visual QA and Image
Captioning, our benchmarking experiments show that such models perform poorly
on the proposed tasks on the YesBut Dataset in Zero-Shot Settings w.r.t both
automated as well as human evaluation. Additionally, we release a dataset of
119 real, satirical photographs for further research. The dataset and code are
available at https://github.com/abhi1nandy2/yesbut_dataset.Summary
AI-Generated Summary