Detecção de Memes Nocivos com Compreensão Desacoplada e Raciocínio CoT Guiado
Detecting Harmful Memes with Decoupled Understanding and Guided CoT Reasoning
June 10, 2025
Autores: Fengjun Pan, Anh Tuan Luu, Xiaobao Wu
cs.AI
Resumo
A detecção de memes nocivos é essencial para manter a integridade dos ambientes online. No entanto, as abordagens atuais frequentemente enfrentam desafios em termos de eficiência de recursos, flexibilidade ou explicabilidade, limitando sua implantação prática em sistemas de moderação de conteúdo. Para enfrentar esses desafios, apresentamos o U-CoT+, um novo framework para detecção de memes nocivos. Em vez de depender exclusivamente de prompts ou ajuste fino de modelos multimodais, primeiro desenvolvemos um pipeline de meme-para-texto de alta fidelidade que converte memes visuais em descrições textuais que preservam detalhes. Esse design desacopla a interpretação do meme da classificação do meme, evitando assim o raciocínio imediato sobre conteúdo visual bruto complexo e permitindo a detecção eficiente de memes nocivos com modelos de linguagem grandes (LLMs) gerais. Com base nessas descrições textuais, incorporamos ainda diretrizes interpretáveis e direcionadas, elaboradas por humanos, para orientar o raciocínio dos modelos sob prompts de zero-shot CoT. Dessa forma, esse framework permite uma fácil adaptação a diferentes critérios de detecção de nocividade entre plataformas, regiões e ao longo do tempo, oferecendo alta flexibilidade e explicabilidade. Experimentos extensivos em sete conjuntos de dados de referência validam a eficácia do nosso framework, destacando seu potencial para detecção explicável e de baixo recurso de memes nocivos usando LLMs de pequena escala. Códigos e dados estão disponíveis em: https://anonymous.4open.science/r/HMC-AF2B/README.md.
English
Detecting harmful memes is essential for maintaining the integrity of online
environments. However, current approaches often struggle with resource
efficiency, flexibility, or explainability, limiting their practical deployment
in content moderation systems. To address these challenges, we introduce
U-CoT+, a novel framework for harmful meme detection. Instead of relying solely
on prompting or fine-tuning multimodal models, we first develop a high-fidelity
meme-to-text pipeline that converts visual memes into detail-preserving textual
descriptions. This design decouples meme interpretation from meme
classification, thus avoiding immediate reasoning over complex raw visual
content and enabling resource-efficient harmful meme detection with general
large language models (LLMs). Building on these textual descriptions, we
further incorporate targeted, interpretable human-crafted guidelines to guide
models' reasoning under zero-shot CoT prompting. As such, this framework allows
for easy adaptation to different harmfulness detection criteria across
platforms, regions, and over time, offering high flexibility and
explainability. Extensive experiments on seven benchmark datasets validate the
effectiveness of our framework, highlighting its potential for explainable and
low-resource harmful meme detection using small-scale LLMs. Codes and data are
available at: https://anonymous.4open.science/r/HMC-AF2B/README.md.