ChatPaper.aiChatPaper

D-HUMOR: 다중모드 자유형 추론을 통한 블랙 유머 이해

D-HUMOR: Dark Humor Understanding via Multimodal Open-ended Reasoning

September 8, 2025
저자: Sai Kartheek Reddy Kasu, Mohammad Zia Ur Rehman, Shahid Shafi Dar, Rishi Bharat Junghare, Dhanvin Sanjay Namboodiri, Nagendra Kumar
cs.AI

초록

온라인 밈에서의 블랙 유머는 암묵적이고 민감하며 문화적 맥락에 의존하는 특성으로 인해 독특한 도전 과제를 제시합니다. 다중 양식 콘텐츠에서 블랙 유머를 탐지하기 위한 자원과 방법론의 부족을 해결하기 위해, 우리는 4,379개의 레딧 밈으로 구성된 새로운 데이터셋을 소개합니다. 이 데이터셋은 블랙 유머, 대상 카테고리(성별, 정신 건강, 폭력, 인종, 장애, 기타), 그리고 세 단계의 강도 등급(경미, 중간, 심각)으로 주석이 달려 있습니다. 이 자원을 바탕으로, 우리는 대규모 시각-언어 모델(VLM)을 사용하여 각 밈에 대한 구조화된 설명을 먼저 생성하는 추론 강화 프레임워크를 제안합니다. 역할 반전 자기 루프(Role-Reversal Self-Loop)를 통해 VLM은 저자의 관점을 채택하여 설명을 반복적으로 개선하며, 완전성과 일관성을 보장합니다. 그런 다음, OCR 전사본과 자기 개선된 추론에서 텍스트 특징을 텍스트 인코더를 통해 추출하고, 시각 특징은 비전 트랜스포머를 사용하여 얻습니다. 트리-스트림 교차 추론 네트워크(TCRNet)는 이 세 가지 스트림(텍스트, 이미지, 추론)을 쌍별 주의 메커니즘을 통해 융합하여 분류를 위한 통합된 표현을 생성합니다. 실험 결과는 우리의 접근 방식이 블랙 유머 탐지, 대상 식별, 강도 예측이라는 세 가지 작업에서 강력한 베이스라인을 능가함을 보여줍니다. 데이터셋, 주석, 코드는 다중 양식 유머 이해와 콘텐츠 조정 연구를 촉진하기 위해 공개되었습니다. 코드와 데이터셋은 다음에서 확인할 수 있습니다: https://github.com/Sai-Kartheek-Reddy/D-Humor-Dark-Humor-Understanding-via-Multimodal-Open-ended-Reasoning
English
Dark humor in online memes poses unique challenges due to its reliance on implicit, sensitive, and culturally contextual cues. To address the lack of resources and methods for detecting dark humor in multimodal content, we introduce a novel dataset of 4,379 Reddit memes annotated for dark humor, target category (gender, mental health, violence, race, disability, and other), and a three-level intensity rating (mild, moderate, severe). Building on this resource, we propose a reasoning-augmented framework that first generates structured explanations for each meme using a Large Vision-Language Model (VLM). Through a Role-Reversal Self-Loop, VLM adopts the author's perspective to iteratively refine its explanations, ensuring completeness and alignment. We then extract textual features from both the OCR transcript and the self-refined reasoning via a text encoder, while visual features are obtained using a vision transformer. A Tri-stream Cross-Reasoning Network (TCRNet) fuses these three streams, text, image, and reasoning, via pairwise attention mechanisms, producing a unified representation for classification. Experimental results demonstrate that our approach outperforms strong baselines across three tasks: dark humor detection, target identification, and intensity prediction. The dataset, annotations, and code are released to facilitate further research in multimodal humor understanding and content moderation. Code and Dataset are available at: https://github.com/Sai-Kartheek-Reddy/D-Humor-Dark-Humor-Understanding-via-Multimodal-Open-ended-Reasoning
PDF52September 9, 2025