ChatPaper.aiChatPaper

YesBut: Un conjunto de datos multimodal anotado de alta calidad para evaluar la capacidad de comprensión de sátira de modelos de visión-idioma.

YesBut: A High-Quality Annotated Multimodal Dataset for evaluating Satire Comprehension capability of Vision-Language Models

September 20, 2024
Autores: Abhilash Nandy, Yash Agarwal, Ashish Patwa, Millon Madhur Das, Aman Bansal, Ankit Raj, Pawan Goyal, Niloy Ganguly
cs.AI

Resumen

Entender la sátira y el humor es una tarea desafiante incluso para los modelos actuales de Visión-Lenguaje. En este documento, proponemos las tareas desafiantes de Detección de Imágenes Satíricas (detectar si una imagen es satírica), Comprensión (generar la razón detrás de que la imagen sea satírica) y Completado (dada la mitad de la imagen, seleccionar la otra mitad entre 2 opciones dadas, de modo que la imagen completa sea satírica) y lanzamos un conjunto de datos de alta calidad llamado YesBut, que consta de 2547 imágenes, 1084 satíricas y 1463 no satíricas, que contienen diferentes estilos artísticos, para evaluar esas tareas. Cada imagen satírica en el conjunto de datos representa un escenario normal, junto con un escenario conflictivo que es gracioso o irónico. A pesar del éxito de los Modelos de Visión-Lenguaje actuales en tareas multimodales como Preguntas y Respuestas Visuales y Subtitulado de Imágenes, nuestros experimentos de evaluación muestran que dichos modelos tienen un rendimiento deficiente en las tareas propuestas en el Conjunto de Datos YesBut en Configuraciones de Cero Disparo con respecto tanto a la evaluación automatizada como humana. Además, lanzamos un conjunto de datos de 119 fotografías reales y satíricas para investigaciones adicionales. El conjunto de datos y el código están disponibles en https://github.com/abhi1nandy2/yesbut_dataset.
English
Understanding satire and humor is a challenging task for even current Vision-Language models. In this paper, we propose the challenging tasks of Satirical Image Detection (detecting whether an image is satirical), Understanding (generating the reason behind the image being satirical), and Completion (given one half of the image, selecting the other half from 2 given options, such that the complete image is satirical) and release a high-quality dataset YesBut, consisting of 2547 images, 1084 satirical and 1463 non-satirical, containing different artistic styles, to evaluate those tasks. Each satirical image in the dataset depicts a normal scenario, along with a conflicting scenario which is funny or ironic. Despite the success of current Vision-Language Models on multimodal tasks such as Visual QA and Image Captioning, our benchmarking experiments show that such models perform poorly on the proposed tasks on the YesBut Dataset in Zero-Shot Settings w.r.t both automated as well as human evaluation. Additionally, we release a dataset of 119 real, satirical photographs for further research. The dataset and code are available at https://github.com/abhi1nandy2/yesbut_dataset.

Summary

AI-Generated Summary

PDF529November 16, 2024