ChatPaper.aiChatPaper

YesBut: Um conjunto de dados multimodal anotado de alta qualidade para avaliar a capacidade de compreensão de sátira de modelos de visão e linguagem.

YesBut: A High-Quality Annotated Multimodal Dataset for evaluating Satire Comprehension capability of Vision-Language Models

September 20, 2024
Autores: Abhilash Nandy, Yash Agarwal, Ashish Patwa, Millon Madhur Das, Aman Bansal, Ankit Raj, Pawan Goyal, Niloy Ganguly
cs.AI

Resumo

Compreender sátira e humor é uma tarefa desafiadora até mesmo para os modelos atuais de Visão e Linguagem. Neste artigo, propomos as tarefas desafiadoras de Detecção de Imagens Satíricas (detectar se uma imagem é satírica), Compreensão (gerar a razão por trás da imagem ser satírica) e Completude (dada metade da imagem, selecionar a outra metade entre 2 opções fornecidas, de modo que a imagem completa seja satírica) e lançamos um conjunto de dados de alta qualidade YesBut, composto por 2547 imagens, 1084 satíricas e 1463 não satíricas, contendo diferentes estilos artísticos, para avaliar essas tarefas. Cada imagem satírica no conjunto de dados retrata um cenário normal, juntamente com um cenário conflitante que é engraçado ou irônico. Apesar do sucesso dos atuais Modelos de Visão e Linguagem em tarefas multimodais como QA Visual e Legendagem de Imagens, nossos experimentos de referência mostram que tais modelos têm baixo desempenho nas tarefas propostas no Conjunto de Dados YesBut em Configurações de Zero-Shot, tanto em avaliações automatizadas quanto humanas. Adicionalmente, lançamos um conjunto de dados com 119 fotografias reais e satíricas para pesquisas futuras. O conjunto de dados e o código estão disponíveis em https://github.com/abhi1nandy2/yesbut_dataset.
English
Understanding satire and humor is a challenging task for even current Vision-Language models. In this paper, we propose the challenging tasks of Satirical Image Detection (detecting whether an image is satirical), Understanding (generating the reason behind the image being satirical), and Completion (given one half of the image, selecting the other half from 2 given options, such that the complete image is satirical) and release a high-quality dataset YesBut, consisting of 2547 images, 1084 satirical and 1463 non-satirical, containing different artistic styles, to evaluate those tasks. Each satirical image in the dataset depicts a normal scenario, along with a conflicting scenario which is funny or ironic. Despite the success of current Vision-Language Models on multimodal tasks such as Visual QA and Image Captioning, our benchmarking experiments show that such models perform poorly on the proposed tasks on the YesBut Dataset in Zero-Shot Settings w.r.t both automated as well as human evaluation. Additionally, we release a dataset of 119 real, satirical photographs for further research. The dataset and code are available at https://github.com/abhi1nandy2/yesbut_dataset.

Summary

AI-Generated Summary

PDF529November 16, 2024