ChatPaper.aiChatPaper

Erkennung schädlicher Memes durch entkoppeltes Verständnis und geleitetes CoT-Reasoning

Detecting Harmful Memes with Decoupled Understanding and Guided CoT Reasoning

June 10, 2025
Autoren: Fengjun Pan, Anh Tuan Luu, Xiaobao Wu
cs.AI

Zusammenfassung

Die Erkennung schädlicher Memes ist entscheidend für die Wahrung der Integrität von Online-Umgebungen. Allerdings kämpfen aktuelle Ansätze oft mit Ressourceneffizienz, Flexibilität oder Erklärbarkeit, was ihre praktische Anwendung in Inhaltsmoderationssystemen einschränkt. Um diese Herausforderungen zu bewältigen, stellen wir U-CoT+ vor, ein neuartiges Framework zur Erkennung schädlicher Memes. Anstatt sich ausschließlich auf das Prompting oder das Feinabstimmen multimodaler Modelle zu verlassen, entwickeln wir zunächst eine hochpräzise Meme-zu-Text-Pipeline, die visuelle Memes in detailgetreue textuelle Beschreibungen umwandelt. Dieser Entwurf entkoppelt die Meme-Interpretation von der Meme-Klassifikation und vermeidet somit unmittelbares Schlussfolgern über komplexe rohe visuelle Inhalte, wodurch eine ressourceneffiziente Erkennung schädlicher Memes mit allgemeinen großen Sprachmodellen (LLMs) ermöglicht wird. Aufbauend auf diesen textuellen Beschreibungen integrieren wir gezielte, interpretierbare, von Menschen erstellte Richtlinien, um das Schlussfolgern der Modelle unter Zero-Shot CoT-Prompting zu steuern. Dadurch ermöglicht dieses Framework eine einfache Anpassung an verschiedene Schädlichkeitserkennungskriterien über Plattformen, Regionen und im Zeitverlauf hinweg und bietet hohe Flexibilität und Erklärbarkeit. Umfangreiche Experimente auf sieben Benchmark-Datensätzen validieren die Effektivität unseres Frameworks und unterstreichen sein Potenzial für erklärbare und ressourcenschonende Erkennung schädlicher Memes unter Verwendung kleinerer LLMs. Codes und Daten sind verfügbar unter: https://anonymous.4open.science/r/HMC-AF2B/README.md.
English
Detecting harmful memes is essential for maintaining the integrity of online environments. However, current approaches often struggle with resource efficiency, flexibility, or explainability, limiting their practical deployment in content moderation systems. To address these challenges, we introduce U-CoT+, a novel framework for harmful meme detection. Instead of relying solely on prompting or fine-tuning multimodal models, we first develop a high-fidelity meme-to-text pipeline that converts visual memes into detail-preserving textual descriptions. This design decouples meme interpretation from meme classification, thus avoiding immediate reasoning over complex raw visual content and enabling resource-efficient harmful meme detection with general large language models (LLMs). Building on these textual descriptions, we further incorporate targeted, interpretable human-crafted guidelines to guide models' reasoning under zero-shot CoT prompting. As such, this framework allows for easy adaptation to different harmfulness detection criteria across platforms, regions, and over time, offering high flexibility and explainability. Extensive experiments on seven benchmark datasets validate the effectiveness of our framework, highlighting its potential for explainable and low-resource harmful meme detection using small-scale LLMs. Codes and data are available at: https://anonymous.4open.science/r/HMC-AF2B/README.md.
PDF42June 16, 2025