ChatPaper.aiChatPaper

기만적 유머: 허구적 주장과 유머러스한 콘텐츠를 연결하기 위한 다국어 합성 벤치마크 데이터셋

Deceptive Humor: A Synthetic Multilingual Benchmark Dataset for Bridging Fabricated Claims with Humorous Content

March 20, 2025
저자: Sai Kartheek Reddy Kasu, Shankar Biradar, Sunil Saumya
cs.AI

초록

본 논문은 허위 주장과 허위 정보에서 비롯된 유머를 연구하기 위한 새로운 리소스인 Deceptive Humor Dataset(DHD)를 소개합니다. 허위 정보가 만연한 시대에, 유머가 어떻게 기만과 얽혀 있는지 이해하는 것은 필수적입니다. DHD는 ChatGPT-4o 모델을 사용하여 허위 주장과 조작된 정보를 포함한 허구적 서사에서 생성된 유머가 담긴 댓글로 구성되어 있습니다. 각 사례는 1(미묘한 풍자)부터 3(고수준 풍자)까지의 Satire Level로 라벨링되며, 다섯 가지의 뚜렷한 Humor Category(블랙 유머, 아이러니, 사회적 논평, 말장난, 부조리)로 분류됩니다. 이 데이터셋은 영어, 텔루구어, 힌디어, 칸나다어, 타밀어 및 이들의 코드 혼합 변형(Te-En, Hi-En, Ka-En, Ta-En)을 포함한 다국어로 구성되어 있어, 다국어 벤치마크로서의 가치를 지닙니다. DHD를 도입함으로써, 우리는 기만적 맥락에서의 유머를 분석하기 위한 구조화된 기반을 마련하고, 유머가 허위 정보와 상호작용할 뿐만 아니라 그 인식과 확산에 미치는 영향을 탐구하는 새로운 연구 방향을 제시합니다. 또한, 제안된 데이터셋에 대한 강력한 베이스라인을 수립하여, 향후 연구에서 기만적 유머 탐지 모델을 벤치마킹하고 발전시키기 위한 기반을 제공합니다.
English
This paper presents the Deceptive Humor Dataset (DHD), a novel resource for studying humor derived from fabricated claims and misinformation. In an era of rampant misinformation, understanding how humor intertwines with deception is essential. DHD consists of humor-infused comments generated from false narratives, incorporating fabricated claims and manipulated information using the ChatGPT-4o model. Each instance is labeled with a Satire Level, ranging from 1 for subtle satire to 3 for high-level satire and classified into five distinct Humor Categories: Dark Humor, Irony, Social Commentary, Wordplay, and Absurdity. The dataset spans multiple languages including English, Telugu, Hindi, Kannada, Tamil, and their code-mixed variants (Te-En, Hi-En, Ka-En, Ta-En), making it a valuable multilingual benchmark. By introducing DHD, we establish a structured foundation for analyzing humor in deceptive contexts, paving the way for a new research direction that explores how humor not only interacts with misinformation but also influences its perception and spread. We establish strong baselines for the proposed dataset, providing a foundation for future research to benchmark and advance deceptive humor detection models.

Summary

AI-Generated Summary

PDF32March 21, 2025