유해한 밈 탐지를 위한 분리된 이해와 가이드된 CoT 추론
Detecting Harmful Memes with Decoupled Understanding and Guided CoT Reasoning
June 10, 2025
저자: Fengjun Pan, Anh Tuan Luu, Xiaobao Wu
cs.AI
초록
유해한 밈을 탐지하는 것은 온라인 환경의 무결성을 유지하는 데 필수적입니다. 그러나 현재의 접근 방식들은 자원 효율성, 유연성 또는 설명 가능성 측면에서 어려움을 겪으며, 콘텐츠 관리 시스템에서의 실질적인 배포를 제한하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 유해한 밈 탐지를 위한 새로운 프레임워크인 U-CoT+를 소개합니다. 다중 모달 모델의 프롬프팅이나 미세 조정에만 의존하는 대신, 우리는 먼저 시각적 밈을 세부 사항을 보존하는 텍스트 설명으로 변환하는 고품질의 밈-텍스트 파이프라인을 개발합니다. 이 설계는 밈 해석과 밈 분류를 분리함으로써 복잡한 원시 시각적 콘텐츠에 대한 즉각적인 추론을 피하고, 일반적인 대규모 언어 모델(LLM)을 사용하여 자원 효율적인 유해 밈 탐지를 가능하게 합니다. 이러한 텍스트 설명을 기반으로, 우리는 추가적으로 대상화된, 해석 가능한 인간이 작성한 지침을 통합하여 제로샷 CoT 프롬프팅 하에서 모델의 추론을 안내합니다. 이 프레임워크는 플랫폼, 지역, 시간에 걸쳐 다양한 유해성 탐지 기준에 쉽게 적응할 수 있도록 하여 높은 유연성과 설명 가능성을 제공합니다. 7개의 벤치마크 데이터셋에 대한 광범위한 실험을 통해 우리 프레임워크의 효과성을 검증하였으며, 소규모 LLM을 사용한 설명 가능하고 저자원 유해 밈 탐지의 잠재력을 강조합니다. 코드와 데이터는 https://anonymous.4open.science/r/HMC-AF2B/README.md에서 확인할 수 있습니다.
English
Detecting harmful memes is essential for maintaining the integrity of online
environments. However, current approaches often struggle with resource
efficiency, flexibility, or explainability, limiting their practical deployment
in content moderation systems. To address these challenges, we introduce
U-CoT+, a novel framework for harmful meme detection. Instead of relying solely
on prompting or fine-tuning multimodal models, we first develop a high-fidelity
meme-to-text pipeline that converts visual memes into detail-preserving textual
descriptions. This design decouples meme interpretation from meme
classification, thus avoiding immediate reasoning over complex raw visual
content and enabling resource-efficient harmful meme detection with general
large language models (LLMs). Building on these textual descriptions, we
further incorporate targeted, interpretable human-crafted guidelines to guide
models' reasoning under zero-shot CoT prompting. As such, this framework allows
for easy adaptation to different harmfulness detection criteria across
platforms, regions, and over time, offering high flexibility and
explainability. Extensive experiments on seven benchmark datasets validate the
effectiveness of our framework, highlighting its potential for explainable and
low-resource harmful meme detection using small-scale LLMs. Codes and data are
available at: https://anonymous.4open.science/r/HMC-AF2B/README.md.