D-HUMOR: Compreensão do Humor Negro por meio de Raciocínio Aberto Multimodal
D-HUMOR: Dark Humor Understanding via Multimodal Open-ended Reasoning
September 8, 2025
Autores: Sai Kartheek Reddy Kasu, Mohammad Zia Ur Rehman, Shahid Shafi Dar, Rishi Bharat Junghare, Dhanvin Sanjay Namboodiri, Nagendra Kumar
cs.AI
Resumo
O humor negro em memes online apresenta desafios únicos devido à sua dependência de pistas implícitas, sensíveis e contextualmente culturais. Para abordar a falta de recursos e métodos para detectar humor negro em conteúdo multimodal, introduzimos um novo conjunto de dados de 4.379 memes do Reddit anotados para humor negro, categoria alvo (gênero, saúde mental, violência, raça, deficiência e outros) e uma classificação de intensidade em três níveis (leve, moderado, severo). Com base nesse recurso, propomos uma estrutura aumentada por raciocínio que primeiro gera explicações estruturadas para cada meme usando um Grande Modelo de Visão e Linguagem (VLM). Através de um Loop de Auto-Reflexão de Reversão de Papéis, o VLM adota a perspectiva do autor para refinar iterativamente suas explicações, garantindo completude e alinhamento. Em seguida, extraímos características textuais tanto da transcrição OCR quanto do raciocínio auto-refinado por meio de um codificador de texto, enquanto as características visuais são obtidas usando um transformador de visão. Uma Rede de Raciocínio Cruzado de Três Fluxos (TCRNet) funde esses três fluxos — texto, imagem e raciocínio — por meio de mecanismos de atenção pareada, produzindo uma representação unificada para classificação. Os resultados experimentais demonstram que nossa abordagem supera as linhas de base fortes em três tarefas: detecção de humor negro, identificação de alvo e previsão de intensidade. O conjunto de dados, as anotações e o código são disponibilizados para facilitar pesquisas adicionais em compreensão multimodal de humor e moderação de conteúdo. Código e Conjunto de Dados estão disponíveis em:
https://github.com/Sai-Kartheek-Reddy/D-Humor-Dark-Humor-Understanding-via-Multimodal-Open-ended-Reasoning
English
Dark humor in online memes poses unique challenges due to its reliance on
implicit, sensitive, and culturally contextual cues. To address the lack of
resources and methods for detecting dark humor in multimodal content, we
introduce a novel dataset of 4,379 Reddit memes annotated for dark humor,
target category (gender, mental health, violence, race, disability, and other),
and a three-level intensity rating (mild, moderate, severe). Building on this
resource, we propose a reasoning-augmented framework that first generates
structured explanations for each meme using a Large Vision-Language Model
(VLM). Through a Role-Reversal Self-Loop, VLM adopts the author's perspective
to iteratively refine its explanations, ensuring completeness and alignment. We
then extract textual features from both the OCR transcript and the self-refined
reasoning via a text encoder, while visual features are obtained using a vision
transformer. A Tri-stream Cross-Reasoning Network (TCRNet) fuses these three
streams, text, image, and reasoning, via pairwise attention mechanisms,
producing a unified representation for classification. Experimental results
demonstrate that our approach outperforms strong baselines across three tasks:
dark humor detection, target identification, and intensity prediction. The
dataset, annotations, and code are released to facilitate further research in
multimodal humor understanding and content moderation. Code and Dataset are
available at:
https://github.com/Sai-Kartheek-Reddy/D-Humor-Dark-Humor-Understanding-via-Multimodal-Open-ended-Reasoning