Humor Engañoso: Un Conjunto de Datos de Referencia Multilingüe Sintético para Vincular Afirmaciones Fabricadas con Contenido Humorístico

Resumen

Este artículo presenta el Conjunto de Datos de Humor Engañoso (Deceptive Humor Dataset, DHD), un recurso novedoso para estudiar el humor derivado de afirmaciones fabricadas y desinformación. En una era de desinformación desenfrenada, comprender cómo el humor se entrelaza con el engaño es esencial. El DHD consiste en comentarios impregnados de humor generados a partir de narrativas falsas, incorporando afirmaciones fabricadas e información manipulada utilizando el modelo ChatGPT-4o. Cada instancia está etiquetada con un Nivel de Sátira, que va desde 1 para sátira sutil hasta 3 para sátira de alto nivel, y se clasifica en cinco categorías de humor distintas: Humor Negro, Ironía, Comentario Social, Juego de Palabras y Absurdo. El conjunto de datos abarca múltiples idiomas, incluidos inglés, telugu, hindi, kannada, tamil y sus variantes de código mixto (Te-En, Hi-En, Ka-En, Ta-En), lo que lo convierte en un valioso punto de referencia multilingüe. Al introducir el DHD, establecemos una base estructurada para analizar el humor en contextos engañosos, allanando el camino para una nueva dirección de investigación que explora cómo el humor no solo interactúa con la desinformación, sino que también influye en su percepción y propagación. Establecemos líneas de base sólidas para el conjunto de datos propuesto, proporcionando una base para que futuras investigaciones establezcan puntos de referencia y avancen en los modelos de detección de humor engañoso.

English

This paper presents the Deceptive Humor Dataset (DHD), a novel resource for studying humor derived from fabricated claims and misinformation. In an era of rampant misinformation, understanding how humor intertwines with deception is essential. DHD consists of humor-infused comments generated from false narratives, incorporating fabricated claims and manipulated information using the ChatGPT-4o model. Each instance is labeled with a Satire Level, ranging from 1 for subtle satire to 3 for high-level satire and classified into five distinct Humor Categories: Dark Humor, Irony, Social Commentary, Wordplay, and Absurdity. The dataset spans multiple languages including English, Telugu, Hindi, Kannada, Tamil, and their code-mixed variants (Te-En, Hi-En, Ka-En, Ta-En), making it a valuable multilingual benchmark. By introducing DHD, we establish a structured foundation for analyzing humor in deceptive contexts, paving the way for a new research direction that explores how humor not only interacts with misinformation but also influences its perception and spread. We establish strong baselines for the proposed dataset, providing a foundation for future research to benchmark and advance deceptive humor detection models.