ChatPaper.aiChatPaper

Rilevamento di Meme Dannosi con Comprensione Disaccoppiata e Ragionamento Guidato a Catena di Pensiero (CoT)

Detecting Harmful Memes with Decoupled Understanding and Guided CoT Reasoning

June 10, 2025
Autori: Fengjun Pan, Anh Tuan Luu, Xiaobao Wu
cs.AI

Abstract

Rilevare meme dannosi è essenziale per mantenere l'integrità degli ambienti online. Tuttavia, gli approcci attuali spesso incontrano difficoltà in termini di efficienza delle risorse, flessibilità o spiegabilità, limitando il loro impiego pratico nei sistemi di moderazione dei contenuti. Per affrontare queste sfide, introduciamo U-CoT+, un nuovo framework per il rilevamento di meme dannosi. Invece di affidarsi esclusivamente al prompting o al fine-tuning di modelli multimodali, sviluppiamo prima una pipeline ad alta fedeltà che converte i meme visivi in descrizioni testuali che preservano i dettagli. Questo design separa l'interpretazione del meme dalla sua classificazione, evitando così un ragionamento immediato su contenuti visivi grezzi complessi e consentendo un rilevamento efficiente delle risorse di meme dannosi utilizzando modelli linguistici di grandi dimensioni (LLM) generali. Basandoci su queste descrizioni testuali, incorporiamo ulteriormente linee guida interpretabili e mirate, create dall'uomo, per guidare il ragionamento dei modelli sotto il prompting zero-shot CoT. In questo modo, il framework consente un facile adattamento a diversi criteri di rilevamento della dannosità tra piattaforme, regioni e nel tempo, offrendo un'elevata flessibilità e spiegabilità. Esperimenti estesi su sette dataset di benchmark convalidano l'efficacia del nostro framework, evidenziandone il potenziale per un rilevamento spiegabile e a basso consumo di risorse di meme dannosi utilizzando LLM su piccola scala. Codici e dati sono disponibili al seguente link: https://anonymous.4open.science/r/HMC-AF2B/README.md.
English
Detecting harmful memes is essential for maintaining the integrity of online environments. However, current approaches often struggle with resource efficiency, flexibility, or explainability, limiting their practical deployment in content moderation systems. To address these challenges, we introduce U-CoT+, a novel framework for harmful meme detection. Instead of relying solely on prompting or fine-tuning multimodal models, we first develop a high-fidelity meme-to-text pipeline that converts visual memes into detail-preserving textual descriptions. This design decouples meme interpretation from meme classification, thus avoiding immediate reasoning over complex raw visual content and enabling resource-efficient harmful meme detection with general large language models (LLMs). Building on these textual descriptions, we further incorporate targeted, interpretable human-crafted guidelines to guide models' reasoning under zero-shot CoT prompting. As such, this framework allows for easy adaptation to different harmfulness detection criteria across platforms, regions, and over time, offering high flexibility and explainability. Extensive experiments on seven benchmark datasets validate the effectiveness of our framework, highlighting its potential for explainable and low-resource harmful meme detection using small-scale LLMs. Codes and data are available at: https://anonymous.4open.science/r/HMC-AF2B/README.md.
PDF52June 16, 2025