Schadelijke Memes Detecteren met Ontkoppeld Begrip en Begeleide CoT-redenering

Samenvatting

Het detecteren van schadelijke memes is essentieel voor het behoud van de integriteit van online omgevingen. Huidige benaderingen kampen echter vaak met problemen op het gebied van resource-efficiëntie, flexibiliteit of uitlegbaarheid, wat hun praktische inzetbaarheid in contentmoderatiesystemen beperkt. Om deze uitdagingen aan te pakken, introduceren we U-CoT+, een nieuw framework voor de detectie van schadelijke memes. In plaats van uitsluitend te vertrouwen op prompting of het finetunen van multimodale modellen, ontwikkelen we eerst een hoogwaardige meme-naar-tekst-pipeline die visuele memes omzet in tekstuele beschrijvingen die details behouden. Dit ontwerp ontkoppelt de interpretatie van memes van de classificatie ervan, waardoor direct redeneren over complexe visuele inhoud wordt vermeden en resource-efficiënte detectie van schadelijke memes mogelijk wordt gemaakt met behulp van algemene grote taalmodellen (LLMs). Op basis van deze tekstuele beschrijvingen integreren we verder gerichte, interpreteerbare, door mensen gemaakte richtlijnen om het redeneren van modellen te begeleiden onder zero-shot CoT prompting. Hierdoor biedt dit framework een eenvoudige aanpassing aan verschillende criteria voor het detecteren van schadelijkheid over platforms, regio's en in de tijd, wat hoge flexibiliteit en uitlegbaarheid biedt. Uitgebreide experimenten op zeven benchmarkdatasets valideren de effectiviteit van ons framework en benadrukken het potentieel voor uitlegbare en resourcezuinige detectie van schadelijke memes met behulp van kleinschalige LLMs. Codes en data zijn beschikbaar op: https://anonymous.4open.science/r/HMC-AF2B/README.md.

English

Detecting harmful memes is essential for maintaining the integrity of online environments. However, current approaches often struggle with resource efficiency, flexibility, or explainability, limiting their practical deployment in content moderation systems. To address these challenges, we introduce U-CoT+, a novel framework for harmful meme detection. Instead of relying solely on prompting or fine-tuning multimodal models, we first develop a high-fidelity meme-to-text pipeline that converts visual memes into detail-preserving textual descriptions. This design decouples meme interpretation from meme classification, thus avoiding immediate reasoning over complex raw visual content and enabling resource-efficient harmful meme detection with general large language models (LLMs). Building on these textual descriptions, we further incorporate targeted, interpretable human-crafted guidelines to guide models' reasoning under zero-shot CoT prompting. As such, this framework allows for easy adaptation to different harmfulness detection criteria across platforms, regions, and over time, offering high flexibility and explainability. Extensive experiments on seven benchmark datasets validate the effectiveness of our framework, highlighting its potential for explainable and low-resource harmful meme detection using small-scale LLMs. Codes and data are available at: https://anonymous.4open.science/r/HMC-AF2B/README.md.

Schadelijke Memes Detecteren met Ontkoppeld Begrip en Begeleide CoT-redenering

Detecting Harmful Memes with Decoupled Understanding and Guided CoT Reasoning

Samenvatting

Support