Misleidende Humor: Een Synthetische Meertalige Benchmarkdataset voor het Verbinden van Gefabriceerde Beweringen met Humoristische Inhoud
Deceptive Humor: A Synthetic Multilingual Benchmark Dataset for Bridging Fabricated Claims with Humorous Content
March 20, 2025
Auteurs: Sai Kartheek Reddy Kasu, Shankar Biradar, Sunil Saumya
cs.AI
Samenvatting
Dit artikel presenteert de Deceptive Humor Dataset (DHD), een nieuwe bron voor het bestuderen van humor die voortkomt uit gefabriceerde claims en desinformatie. In een tijdperk van wijdverspreide desinformatie is het essentieel om te begrijpen hoe humor verweven is met misleiding. DHD bestaat uit humoristische opmerkingen die gegenereerd zijn uit valse narratieven, waarbij gebruik is gemaakt van gefabriceerde claims en gemanipuleerde informatie met behulp van het ChatGPT-4o-model. Elk voorbeeld is gelabeld met een Satire Niveau, variërend van 1 voor subtiele satire tot 3 voor hoogwaardige satire, en ingedeeld in vijf verschillende Humor Categorieën: Zwarte Humor, Ironie, Maatschappijkritiek, Woordspelingen en Absurdisme. De dataset omvat meerdere talen, waaronder Engels, Telugu, Hindi, Kannada, Tamil en hun code-mixed varianten (Te-En, Hi-En, Ka-En, Ta-En), waardoor het een waardevolle meertalige benchmark vormt. Door de introductie van DHD leggen we een gestructureerde basis voor het analyseren van humor in misleidende contexten, wat de weg vrijmaakt voor een nieuwe onderzoeksrichting die onderzoekt hoe humor niet alleen interageert met desinformatie, maar ook de perceptie en verspreiding ervan beïnvloedt. We stellen sterke basislijnen vast voor de voorgestelde dataset, wat een fundament biedt voor toekomstig onderzoek om modellen voor het detecteren van misleidende humor te benchmarken en verder te ontwikkelen.
English
This paper presents the Deceptive Humor Dataset (DHD), a novel resource for
studying humor derived from fabricated claims and misinformation. In an era of
rampant misinformation, understanding how humor intertwines with deception is
essential. DHD consists of humor-infused comments generated from false
narratives, incorporating fabricated claims and manipulated information using
the ChatGPT-4o model. Each instance is labeled with a Satire Level, ranging
from 1 for subtle satire to 3 for high-level satire and classified into five
distinct Humor Categories: Dark Humor, Irony, Social Commentary, Wordplay, and
Absurdity. The dataset spans multiple languages including English, Telugu,
Hindi, Kannada, Tamil, and their code-mixed variants (Te-En, Hi-En, Ka-En,
Ta-En), making it a valuable multilingual benchmark. By introducing DHD, we
establish a structured foundation for analyzing humor in deceptive contexts,
paving the way for a new research direction that explores how humor not only
interacts with misinformation but also influences its perception and spread. We
establish strong baselines for the proposed dataset, providing a foundation for
future research to benchmark and advance deceptive humor detection models.Summary
AI-Generated Summary