Humor trompeur : Un ensemble de données de référence multilingue synthétique pour relier les affirmations fabriquées au contenu humoristique
Deceptive Humor: A Synthetic Multilingual Benchmark Dataset for Bridging Fabricated Claims with Humorous Content
March 20, 2025
Auteurs: Sai Kartheek Reddy Kasu, Shankar Biradar, Sunil Saumya
cs.AI
Résumé
Cet article présente le Deceptive Humor Dataset (DHD), une nouvelle ressource pour étudier l'humour issu de déclarations fabriquées et de la désinformation. À une époque où la désinformation est omniprésente, comprendre comment l'humour s'entrelace avec la tromperie est essentiel. Le DHD est composé de commentaires humoristiques générés à partir de récits faux, incorporant des déclarations fabriquées et des informations manipulées à l'aide du modèle ChatGPT-4o. Chaque instance est étiquetée avec un Niveau de Satire, allant de 1 pour une satire subtile à 3 pour une satire de haut niveau, et classée en cinq Catégories d'Humour distinctes : Humour Noir, Ironie, Commentaire Social, Jeu de Mots et Absurdité. Le dataset couvre plusieurs langues, notamment l'anglais, le télougou, l'hindi, le kannada, le tamoul et leurs variantes code-mixées (Te-En, Hi-En, Ka-En, Ta-En), ce qui en fait un benchmark multilingue précieux. En introduisant le DHD, nous établissons une base structurée pour analyser l'humour dans des contextes trompeurs, ouvrant la voie à une nouvelle direction de recherche qui explore comment l'humour interagit non seulement avec la désinformation, mais influence également sa perception et sa diffusion. Nous établissons des bases solides pour le dataset proposé, fournissant un fondement pour les recherches futures afin de benchmarker et faire progresser les modèles de détection de l'humour trompeur.
English
This paper presents the Deceptive Humor Dataset (DHD), a novel resource for
studying humor derived from fabricated claims and misinformation. In an era of
rampant misinformation, understanding how humor intertwines with deception is
essential. DHD consists of humor-infused comments generated from false
narratives, incorporating fabricated claims and manipulated information using
the ChatGPT-4o model. Each instance is labeled with a Satire Level, ranging
from 1 for subtle satire to 3 for high-level satire and classified into five
distinct Humor Categories: Dark Humor, Irony, Social Commentary, Wordplay, and
Absurdity. The dataset spans multiple languages including English, Telugu,
Hindi, Kannada, Tamil, and their code-mixed variants (Te-En, Hi-En, Ka-En,
Ta-En), making it a valuable multilingual benchmark. By introducing DHD, we
establish a structured foundation for analyzing humor in deceptive contexts,
paving the way for a new research direction that explores how humor not only
interacts with misinformation but also influences its perception and spread. We
establish strong baselines for the proposed dataset, providing a foundation for
future research to benchmark and advance deceptive humor detection models.Summary
AI-Generated Summary