ChatPaper.aiChatPaper

Umorismo Ingannevole: Un Dataset di Benchmark Multilingue Sintetico per Collegare Affermazioni Fittizie con Contenuti Umoristici

Deceptive Humor: A Synthetic Multilingual Benchmark Dataset for Bridging Fabricated Claims with Humorous Content

March 20, 2025
Autori: Sai Kartheek Reddy Kasu, Shankar Biradar, Sunil Saumya
cs.AI

Abstract

Questo articolo presenta il Deceptive Humor Dataset (DHD), una nuova risorsa per lo studio dell'umorismo derivato da affermazioni fabbricate e disinformazione. In un'era caratterizzata dalla diffusione incontrollata di informazioni false, comprendere come l'umorismo si intrecci con l'inganno è essenziale. Il DHD è composto da commenti infusi di umorismo generati da narrazioni false, incorporando affermazioni fabbricate e informazioni manipolate utilizzando il modello ChatGPT-4o. Ogni istanza è etichettata con un Livello di Satira, che va da 1 per una satira sottile a 3 per una satira di alto livello, e classificata in cinque distinte Categorie di Umorismo: Umorismo Nero, Ironia, Commento Sociale, Giochi di Parole e Assurdità. Il dataset copre più lingue, tra cui inglese, telugu, hindi, kannada, tamil e le loro varianti code-mixed (Te-En, Hi-En, Ka-En, Ta-En), rendendolo un prezioso benchmark multilingue. Introducendo il DHD, stabiliamo una base strutturata per analizzare l'umorismo in contesti ingannevoli, aprendo la strada a una nuova direzione di ricerca che esplora come l'umorismo non solo interagisca con la disinformazione, ma ne influenzi anche la percezione e la diffusione. Definiamo solide baseline per il dataset proposto, fornendo una base per future ricerche che mirano a valutare e migliorare i modelli di rilevamento dell'umorismo ingannevole.
English
This paper presents the Deceptive Humor Dataset (DHD), a novel resource for studying humor derived from fabricated claims and misinformation. In an era of rampant misinformation, understanding how humor intertwines with deception is essential. DHD consists of humor-infused comments generated from false narratives, incorporating fabricated claims and manipulated information using the ChatGPT-4o model. Each instance is labeled with a Satire Level, ranging from 1 for subtle satire to 3 for high-level satire and classified into five distinct Humor Categories: Dark Humor, Irony, Social Commentary, Wordplay, and Absurdity. The dataset spans multiple languages including English, Telugu, Hindi, Kannada, Tamil, and their code-mixed variants (Te-En, Hi-En, Ka-En, Ta-En), making it a valuable multilingual benchmark. By introducing DHD, we establish a structured foundation for analyzing humor in deceptive contexts, paving the way for a new research direction that explores how humor not only interacts with misinformation but also influences its perception and spread. We establish strong baselines for the proposed dataset, providing a foundation for future research to benchmark and advance deceptive humor detection models.
PDF32March 21, 2025