ChatPaper.aiChatPaper

Détection de mèmes nuisibles par compréhension découplée et raisonnement CoT guidé

Detecting Harmful Memes with Decoupled Understanding and Guided CoT Reasoning

June 10, 2025
Auteurs: Fengjun Pan, Anh Tuan Luu, Xiaobao Wu
cs.AI

Résumé

La détection des mèmes nuisibles est essentielle pour préserver l'intégrité des environnements en ligne. Cependant, les approches actuelles peinent souvent à concilier efficacité des ressources, flexibilité et explicabilité, limitant ainsi leur déploiement pratique dans les systèmes de modération de contenu. Pour relever ces défis, nous introduisons U-CoT+, un nouveau cadre pour la détection des mèmes nuisibles. Plutôt que de s'appuyer uniquement sur l'incitation ou le réglage fin de modèles multimodaux, nous développons d'abord un pipeline de haute fidélité qui convertit les mèmes visuels en descriptions textuelles préservant les détails. Cette conception dissocie l'interprétation des mèmes de leur classification, évitant ainsi un raisonnement immédiat sur un contenu visuel brut complexe et permettant une détection efficace des mèmes nuisibles avec des modèles de langage généralistes (LLMs) à grande échelle. En s'appuyant sur ces descriptions textuelles, nous intégrons en outre des directives ciblées et interprétables, conçues par des humains, pour guider le raisonnement des modèles sous l'incitation zero-shot CoT. Ainsi, ce cadre permet une adaptation facile à différents critères de détection de la nocivité selon les plateformes, les régions et au fil du temps, offrant une grande flexibilité et explicabilité. Des expériences approfondies sur sept ensembles de données de référence valident l'efficacité de notre cadre, mettant en évidence son potentiel pour une détection explicable et à faible ressource des mèmes nuisibles en utilisant des LLMs à petite échelle. Les codes et les données sont disponibles à l'adresse : https://anonymous.4open.science/r/HMC-AF2B/README.md.
English
Detecting harmful memes is essential for maintaining the integrity of online environments. However, current approaches often struggle with resource efficiency, flexibility, or explainability, limiting their practical deployment in content moderation systems. To address these challenges, we introduce U-CoT+, a novel framework for harmful meme detection. Instead of relying solely on prompting or fine-tuning multimodal models, we first develop a high-fidelity meme-to-text pipeline that converts visual memes into detail-preserving textual descriptions. This design decouples meme interpretation from meme classification, thus avoiding immediate reasoning over complex raw visual content and enabling resource-efficient harmful meme detection with general large language models (LLMs). Building on these textual descriptions, we further incorporate targeted, interpretable human-crafted guidelines to guide models' reasoning under zero-shot CoT prompting. As such, this framework allows for easy adaptation to different harmfulness detection criteria across platforms, regions, and over time, offering high flexibility and explainability. Extensive experiments on seven benchmark datasets validate the effectiveness of our framework, highlighting its potential for explainable and low-resource harmful meme detection using small-scale LLMs. Codes and data are available at: https://anonymous.4open.science/r/HMC-AF2B/README.md.
PDF42June 16, 2025