D-HUMOR: Comprensión del Humor Negro mediante Razonamiento Abierto Multimodal
D-HUMOR: Dark Humor Understanding via Multimodal Open-ended Reasoning
September 8, 2025
Autores: Sai Kartheek Reddy Kasu, Mohammad Zia Ur Rehman, Shahid Shafi Dar, Rishi Bharat Junghare, Dhanvin Sanjay Namboodiri, Nagendra Kumar
cs.AI
Resumen
El humor negro en los memes en línea presenta desafíos únicos debido a su dependencia de señales implícitas, sensibles y contextuales culturalmente. Para abordar la falta de recursos y métodos para detectar el humor negro en contenido multimodal, presentamos un nuevo conjunto de datos de 4,379 memes de Reddit anotados para humor negro, categoría objetivo (género, salud mental, violencia, raza, discapacidad y otros) y una calificación de intensidad de tres niveles (leve, moderado, severo). Basándonos en este recurso, proponemos un marco aumentado con razonamiento que primero genera explicaciones estructuradas para cada meme utilizando un Modelo de Visión y Lenguaje de Gran Escala (VLM, por sus siglas en inglés). A través de un Bucle de Autorreflexión de Cambio de Rol, el VLM adopta la perspectiva del autor para refinar iterativamente sus explicaciones, asegurando su completitud y alineación. Luego, extraemos características textuales tanto de la transcripción OCR como del razonamiento autorrefinado mediante un codificador de texto, mientras que las características visuales se obtienen utilizando un transformador de visión. Una Red de Razonamiento Cruzado de Tres Flujos (TCRNet, por sus siglas en inglés) fusiona estos tres flujos (texto, imagen y razonamiento) mediante mecanismos de atención por pares, produciendo una representación unificada para la clasificación. Los resultados experimentales demuestran que nuestro enfoque supera a las líneas base sólidas en tres tareas: detección de humor negro, identificación de objetivos y predicción de intensidad. El conjunto de datos, las anotaciones y el código se publican para facilitar investigaciones adicionales en la comprensión multimodal del humor y la moderación de contenido. El código y el conjunto de datos están disponibles en: https://github.com/Sai-Kartheek-Reddy/D-Humor-Dark-Humor-Understanding-via-Multimodal-Open-ended-Reasoning.
English
Dark humor in online memes poses unique challenges due to its reliance on
implicit, sensitive, and culturally contextual cues. To address the lack of
resources and methods for detecting dark humor in multimodal content, we
introduce a novel dataset of 4,379 Reddit memes annotated for dark humor,
target category (gender, mental health, violence, race, disability, and other),
and a three-level intensity rating (mild, moderate, severe). Building on this
resource, we propose a reasoning-augmented framework that first generates
structured explanations for each meme using a Large Vision-Language Model
(VLM). Through a Role-Reversal Self-Loop, VLM adopts the author's perspective
to iteratively refine its explanations, ensuring completeness and alignment. We
then extract textual features from both the OCR transcript and the self-refined
reasoning via a text encoder, while visual features are obtained using a vision
transformer. A Tri-stream Cross-Reasoning Network (TCRNet) fuses these three
streams, text, image, and reasoning, via pairwise attention mechanisms,
producing a unified representation for classification. Experimental results
demonstrate that our approach outperforms strong baselines across three tasks:
dark humor detection, target identification, and intensity prediction. The
dataset, annotations, and code are released to facilitate further research in
multimodal humor understanding and content moderation. Code and Dataset are
available at:
https://github.com/Sai-Kartheek-Reddy/D-Humor-Dark-Humor-Understanding-via-Multimodal-Open-ended-Reasoning