ChatPaper.aiChatPaper

YesBut: Высококачественный аннотированный мультимодальный набор данных для оценки способности моделей видео-языкового восприятия к пониманию сатиры.

YesBut: A High-Quality Annotated Multimodal Dataset for evaluating Satire Comprehension capability of Vision-Language Models

September 20, 2024
Авторы: Abhilash Nandy, Yash Agarwal, Ashish Patwa, Millon Madhur Das, Aman Bansal, Ankit Raj, Pawan Goyal, Niloy Ganguly
cs.AI

Аннотация

Понимание сатиры и юмора представляет собой сложную задачу даже для современных моделей видео-языка. В данной статье мы предлагаем выполнение сложных задач: обнаружение сатирических изображений (определение, является ли изображение сатирическим), понимание (генерация причины сатиричности изображения) и завершение (при наличии одной половины изображения выбор другой половины из 2 предложенных вариантов так, чтобы полученное изображение было сатирическим), а также представляем высококачественный набор данных YesBut, состоящий из 2547 изображений, 1084 сатирических и 1463 несатирических, содержащих различные художественные стили, для оценки этих задач. Каждое сатирическое изображение в наборе данных изображает обычную ситуацию вместе с противоречащей ситуацией, которая является забавной или ироничной. Несмотря на успех современных моделей видео-языка в мультимодальных задачах, таких как визуальный вопросно-ответный анализ и подписывание изображений, наши бенчмаркинговые эксперименты показывают, что такие модели плохо справляются с предложенными задачами на наборе данных YesBut в условиях нулевой настройки как по автоматической, так и по человеческой оценке. Кроме того, мы представляем набор данных из 119 реальных сатирических фотографий для дальнейших исследований. Набор данных и код доступны по ссылке https://github.com/abhi1nandy2/yesbut_dataset.
English
Understanding satire and humor is a challenging task for even current Vision-Language models. In this paper, we propose the challenging tasks of Satirical Image Detection (detecting whether an image is satirical), Understanding (generating the reason behind the image being satirical), and Completion (given one half of the image, selecting the other half from 2 given options, such that the complete image is satirical) and release a high-quality dataset YesBut, consisting of 2547 images, 1084 satirical and 1463 non-satirical, containing different artistic styles, to evaluate those tasks. Each satirical image in the dataset depicts a normal scenario, along with a conflicting scenario which is funny or ironic. Despite the success of current Vision-Language Models on multimodal tasks such as Visual QA and Image Captioning, our benchmarking experiments show that such models perform poorly on the proposed tasks on the YesBut Dataset in Zero-Shot Settings w.r.t both automated as well as human evaluation. Additionally, we release a dataset of 119 real, satirical photographs for further research. The dataset and code are available at https://github.com/abhi1nandy2/yesbut_dataset.

Summary

AI-Generated Summary

PDF529November 16, 2024