ChatPaper.aiChatPaper

D-HUMOR: Donkere Humor Begrijpen via Multimodale Open-ended Redenering

D-HUMOR: Dark Humor Understanding via Multimodal Open-ended Reasoning

September 8, 2025
Auteurs: Sai Kartheek Reddy Kasu, Mohammad Zia Ur Rehman, Shahid Shafi Dar, Rishi Bharat Junghare, Dhanvin Sanjay Namboodiri, Nagendra Kumar
cs.AI

Samenvatting

Donkere humor in online memes brengt unieke uitdagingen met zich mee vanwege de afhankelijkheid van impliciete, gevoelige en cultureel contextuele signalen. Om het gebrek aan bronnen en methoden voor het detecteren van donkere humor in multimodale content aan te pakken, introduceren we een nieuwe dataset van 4.379 Reddit-memes die zijn geannoteerd voor donkere humor, doelcategorie (geslacht, geestelijke gezondheid, geweld, ras, handicap en overige), en een drie-level intensiteitsbeoordeling (mild, matig, ernstig). Op basis van deze bron stellen we een reasoning-augmented framework voor dat eerst gestructureerde verklaringen genereert voor elke meme met behulp van een Large Vision-Language Model (VLM). Via een Role-Reversal Self-Loop neemt het VLM het perspectief van de auteur aan om zijn verklaringen iteratief te verfijnen, waardoor volledigheid en afstemming worden gewaarborgd. Vervolgens extraheren we tekstuele kenmerken uit zowel het OCR-transcript als de zelfverfijnde reasoning via een tekstencoder, terwijl visuele kenmerken worden verkregen met behulp van een vision transformer. Een Tri-stream Cross-Reasoning Network (TCRNet) fuseert deze drie stromen—tekst, beeld en reasoning—via pairwise attention-mechanismen, wat resulteert in een uniforme representatie voor classificatie. Experimentele resultaten tonen aan dat onze aanpak sterke baseline-methoden overtreft in drie taken: detectie van donkere humor, doelidentificatie en intensiteitsvoorspelling. De dataset, annotaties en code worden vrijgegeven om verder onderzoek naar multimodale humorinterpretatie en contentmoderatie te faciliteren. Code en Dataset zijn beschikbaar op: https://github.com/Sai-Kartheek-Reddy/D-Humor-Dark-Humor-Understanding-via-Multimodal-Open-ended-Reasoning
English
Dark humor in online memes poses unique challenges due to its reliance on implicit, sensitive, and culturally contextual cues. To address the lack of resources and methods for detecting dark humor in multimodal content, we introduce a novel dataset of 4,379 Reddit memes annotated for dark humor, target category (gender, mental health, violence, race, disability, and other), and a three-level intensity rating (mild, moderate, severe). Building on this resource, we propose a reasoning-augmented framework that first generates structured explanations for each meme using a Large Vision-Language Model (VLM). Through a Role-Reversal Self-Loop, VLM adopts the author's perspective to iteratively refine its explanations, ensuring completeness and alignment. We then extract textual features from both the OCR transcript and the self-refined reasoning via a text encoder, while visual features are obtained using a vision transformer. A Tri-stream Cross-Reasoning Network (TCRNet) fuses these three streams, text, image, and reasoning, via pairwise attention mechanisms, producing a unified representation for classification. Experimental results demonstrate that our approach outperforms strong baselines across three tasks: dark humor detection, target identification, and intensity prediction. The dataset, annotations, and code are released to facilitate further research in multimodal humor understanding and content moderation. Code and Dataset are available at: https://github.com/Sai-Kartheek-Reddy/D-Humor-Dark-Humor-Understanding-via-Multimodal-Open-ended-Reasoning
PDF52September 9, 2025