Humor Enganoso: Um Conjunto de Dados de Referência Multilíngue Sintético para Conectar Afirmações Fabricadas com Conteúdo Humorístico

Resumo

Este artigo apresenta o Deceptive Humor Dataset (DHD), um recurso inovador para o estudo do humor derivado de alegações fabricadas e desinformação. Em uma era de desinformação desenfreada, compreender como o humor se entrelaça com o engano é essencial. O DHD consiste em comentários infundidos de humor gerados a partir de narrativas falsas, incorporando alegações fabricadas e informações manipuladas utilizando o modelo ChatGPT-4o. Cada instância é rotulada com um Nível de Sátira, variando de 1 para sátira sutil a 3 para sátira de alto nível, e classificada em cinco Categorias de Humor distintas: Humor Negro, Ironia, Comentário Social, Jogo de Palavras e Absurdo. O conjunto de dados abrange vários idiomas, incluindo inglês, telugu, hindi, kannada, tâmil e suas variantes mistas (Te-En, Hi-En, Ka-En, Ta-En), tornando-o um benchmark multilingue valioso. Ao introduzir o DHD, estabelecemos uma base estruturada para analisar o humor em contextos enganosos, abrindo caminho para uma nova direção de pesquisa que explora como o humor não apenas interage com a desinformação, mas também influencia sua percepção e disseminação. Estabelecemos bases sólidas para o conjunto de dados proposto, fornecendo uma fundação para pesquisas futuras que possam avaliar e avançar modelos de detecção de humor enganoso.

English

This paper presents the Deceptive Humor Dataset (DHD), a novel resource for studying humor derived from fabricated claims and misinformation. In an era of rampant misinformation, understanding how humor intertwines with deception is essential. DHD consists of humor-infused comments generated from false narratives, incorporating fabricated claims and manipulated information using the ChatGPT-4o model. Each instance is labeled with a Satire Level, ranging from 1 for subtle satire to 3 for high-level satire and classified into five distinct Humor Categories: Dark Humor, Irony, Social Commentary, Wordplay, and Absurdity. The dataset spans multiple languages including English, Telugu, Hindi, Kannada, Tamil, and their code-mixed variants (Te-En, Hi-En, Ka-En, Ta-En), making it a valuable multilingual benchmark. By introducing DHD, we establish a structured foundation for analyzing humor in deceptive contexts, paving the way for a new research direction that explores how humor not only interacts with misinformation but also influences its perception and spread. We establish strong baselines for the proposed dataset, providing a foundation for future research to benchmark and advance deceptive humor detection models.

Humor Enganoso: Um Conjunto de Dados de Referência Multilíngue Sintético para Conectar Afirmações Fabricadas com Conteúdo Humorístico

Deceptive Humor: A Synthetic Multilingual Benchmark Dataset for Bridging Fabricated Claims with Humorous Content

Resumo

Support