Schadelijke Memes Detecteren met Ontkoppeld Begrip en Begeleide CoT-redenering
Detecting Harmful Memes with Decoupled Understanding and Guided CoT Reasoning
June 10, 2025
Auteurs: Fengjun Pan, Anh Tuan Luu, Xiaobao Wu
cs.AI
Samenvatting
Het detecteren van schadelijke memes is essentieel voor het behoud van de integriteit van online omgevingen. Huidige benaderingen kampen echter vaak met problemen op het gebied van resource-efficiëntie, flexibiliteit of uitlegbaarheid, wat hun praktische inzetbaarheid in contentmoderatiesystemen beperkt. Om deze uitdagingen aan te pakken, introduceren we U-CoT+, een nieuw framework voor de detectie van schadelijke memes. In plaats van uitsluitend te vertrouwen op prompting of het finetunen van multimodale modellen, ontwikkelen we eerst een hoogwaardige meme-naar-tekst-pipeline die visuele memes omzet in tekstuele beschrijvingen die details behouden. Dit ontwerp ontkoppelt de interpretatie van memes van de classificatie ervan, waardoor direct redeneren over complexe visuele inhoud wordt vermeden en resource-efficiënte detectie van schadelijke memes mogelijk wordt gemaakt met behulp van algemene grote taalmodellen (LLMs). Op basis van deze tekstuele beschrijvingen integreren we verder gerichte, interpreteerbare, door mensen gemaakte richtlijnen om het redeneren van modellen te begeleiden onder zero-shot CoT prompting. Hierdoor biedt dit framework een eenvoudige aanpassing aan verschillende criteria voor het detecteren van schadelijkheid over platforms, regio's en in de tijd, wat hoge flexibiliteit en uitlegbaarheid biedt. Uitgebreide experimenten op zeven benchmarkdatasets valideren de effectiviteit van ons framework en benadrukken het potentieel voor uitlegbare en resourcezuinige detectie van schadelijke memes met behulp van kleinschalige LLMs. Codes en data zijn beschikbaar op: https://anonymous.4open.science/r/HMC-AF2B/README.md.
English
Detecting harmful memes is essential for maintaining the integrity of online
environments. However, current approaches often struggle with resource
efficiency, flexibility, or explainability, limiting their practical deployment
in content moderation systems. To address these challenges, we introduce
U-CoT+, a novel framework for harmful meme detection. Instead of relying solely
on prompting or fine-tuning multimodal models, we first develop a high-fidelity
meme-to-text pipeline that converts visual memes into detail-preserving textual
descriptions. This design decouples meme interpretation from meme
classification, thus avoiding immediate reasoning over complex raw visual
content and enabling resource-efficient harmful meme detection with general
large language models (LLMs). Building on these textual descriptions, we
further incorporate targeted, interpretable human-crafted guidelines to guide
models' reasoning under zero-shot CoT prompting. As such, this framework allows
for easy adaptation to different harmfulness detection criteria across
platforms, regions, and over time, offering high flexibility and
explainability. Extensive experiments on seven benchmark datasets validate the
effectiveness of our framework, highlighting its potential for explainable and
low-resource harmful meme detection using small-scale LLMs. Codes and data are
available at: https://anonymous.4open.science/r/HMC-AF2B/README.md.