ChatPaper.aiChatPaper

Обманчивый юмор: синтетический многоязычный эталонный набор данных для связи сфабрикованных утверждений с юмористическим контентом

Deceptive Humor: A Synthetic Multilingual Benchmark Dataset for Bridging Fabricated Claims with Humorous Content

March 20, 2025
Авторы: Sai Kartheek Reddy Kasu, Shankar Biradar, Sunil Saumya
cs.AI

Аннотация

В данной статье представлен набор данных Deceptive Humor Dataset (DHD), новый ресурс для изучения юмора, основанного на сфабрикованных утверждениях и дезинформации. В эпоху широко распространенной дезинформации понимание того, как юмор переплетается с обманом, становится крайне важным. DHD состоит из юмористических комментариев, сгенерированных на основе ложных нарративов, включающих сфабрикованные утверждения и манипулированную информацию с использованием модели ChatGPT-4o. Каждый пример помечен уровнем сатиры, варьирующимся от 1 (тонкая сатира) до 3 (высокий уровень сатиры), и классифицирован в одну из пяти категорий юмора: Черный юмор, Ирония, Социальная критика, Игра слов и Абсурд. Набор данных охватывает несколько языков, включая английский, телугу, хинди, каннада, тамильский и их кодово-смешанные варианты (Te-En, Hi-En, Ka-En, Ta-En), что делает его ценным мультиязычным эталоном. Вводя DHD, мы создаем структурированную основу для анализа юмора в контексте обмана, прокладывая путь для нового направления исследований, которое изучает, как юмор не только взаимодействует с дезинформацией, но и влияет на ее восприятие и распространение. Мы устанавливаем сильные базовые показатели для предложенного набора данных, предоставляя основу для будущих исследований, направленных на тестирование и совершенствование моделей обнаружения обманчивого юмора.
English
This paper presents the Deceptive Humor Dataset (DHD), a novel resource for studying humor derived from fabricated claims and misinformation. In an era of rampant misinformation, understanding how humor intertwines with deception is essential. DHD consists of humor-infused comments generated from false narratives, incorporating fabricated claims and manipulated information using the ChatGPT-4o model. Each instance is labeled with a Satire Level, ranging from 1 for subtle satire to 3 for high-level satire and classified into five distinct Humor Categories: Dark Humor, Irony, Social Commentary, Wordplay, and Absurdity. The dataset spans multiple languages including English, Telugu, Hindi, Kannada, Tamil, and their code-mixed variants (Te-En, Hi-En, Ka-En, Ta-En), making it a valuable multilingual benchmark. By introducing DHD, we establish a structured foundation for analyzing humor in deceptive contexts, paving the way for a new research direction that explores how humor not only interacts with misinformation but also influences its perception and spread. We establish strong baselines for the proposed dataset, providing a foundation for future research to benchmark and advance deceptive humor detection models.

Summary

AI-Generated Summary

PDF32March 21, 2025