Humor Enganoso: Um Conjunto de Dados de Referência Multilíngue Sintético para Conectar Afirmações Fabricadas com Conteúdo Humorístico
Deceptive Humor: A Synthetic Multilingual Benchmark Dataset for Bridging Fabricated Claims with Humorous Content
March 20, 2025
Autores: Sai Kartheek Reddy Kasu, Shankar Biradar, Sunil Saumya
cs.AI
Resumo
Este artigo apresenta o Deceptive Humor Dataset (DHD), um recurso inovador para o estudo do humor derivado de alegações fabricadas e desinformação. Em uma era de desinformação desenfreada, compreender como o humor se entrelaça com o engano é essencial. O DHD consiste em comentários infundidos de humor gerados a partir de narrativas falsas, incorporando alegações fabricadas e informações manipuladas utilizando o modelo ChatGPT-4o. Cada instância é rotulada com um Nível de Sátira, variando de 1 para sátira sutil a 3 para sátira de alto nível, e classificada em cinco Categorias de Humor distintas: Humor Negro, Ironia, Comentário Social, Jogo de Palavras e Absurdo. O conjunto de dados abrange vários idiomas, incluindo inglês, telugu, hindi, kannada, tâmil e suas variantes mistas (Te-En, Hi-En, Ka-En, Ta-En), tornando-o um benchmark multilingue valioso. Ao introduzir o DHD, estabelecemos uma base estruturada para analisar o humor em contextos enganosos, abrindo caminho para uma nova direção de pesquisa que explora como o humor não apenas interage com a desinformação, mas também influencia sua percepção e disseminação. Estabelecemos bases sólidas para o conjunto de dados proposto, fornecendo uma fundação para pesquisas futuras que possam avaliar e avançar modelos de detecção de humor enganoso.
English
This paper presents the Deceptive Humor Dataset (DHD), a novel resource for
studying humor derived from fabricated claims and misinformation. In an era of
rampant misinformation, understanding how humor intertwines with deception is
essential. DHD consists of humor-infused comments generated from false
narratives, incorporating fabricated claims and manipulated information using
the ChatGPT-4o model. Each instance is labeled with a Satire Level, ranging
from 1 for subtle satire to 3 for high-level satire and classified into five
distinct Humor Categories: Dark Humor, Irony, Social Commentary, Wordplay, and
Absurdity. The dataset spans multiple languages including English, Telugu,
Hindi, Kannada, Tamil, and their code-mixed variants (Te-En, Hi-En, Ka-En,
Ta-En), making it a valuable multilingual benchmark. By introducing DHD, we
establish a structured foundation for analyzing humor in deceptive contexts,
paving the way for a new research direction that explores how humor not only
interacts with misinformation but also influences its perception and spread. We
establish strong baselines for the proposed dataset, providing a foundation for
future research to benchmark and advance deceptive humor detection models.Summary
AI-Generated Summary