ChatPaper.aiChatPaper

Detección de Memes Dañinos con Comprensión Desacoplada y Razonamiento Guiado por CoT

Detecting Harmful Memes with Decoupled Understanding and Guided CoT Reasoning

June 10, 2025
Autores: Fengjun Pan, Anh Tuan Luu, Xiaobao Wu
cs.AI

Resumen

La detección de memes nocivos es esencial para mantener la integridad de los entornos en línea. Sin embargo, los enfoques actuales suelen enfrentar dificultades en cuanto a la eficiencia de recursos, la flexibilidad o la explicabilidad, lo que limita su implementación práctica en los sistemas de moderación de contenido. Para abordar estos desafíos, presentamos U-CoT+, un marco novedoso para la detección de memes nocivos. En lugar de depender únicamente de la activación o el ajuste fino de modelos multimodales, primero desarrollamos una canalización de meme a texto de alta fidelidad que convierte memes visuales en descripciones textuales que preservan los detalles. Este diseño desacopla la interpretación del meme de su clasificación, evitando así el razonamiento inmediato sobre contenido visual crudo complejo y permitiendo la detección eficiente de memes nocivos utilizando modelos de lenguaje generales de gran escala (LLMs, por sus siglas en inglés). Basándonos en estas descripciones textuales, incorporamos además directrices interpretables y específicas elaboradas por humanos para guiar el razonamiento de los modelos bajo la activación de CoT (Chain-of-Thought) en modo cero-shot. De esta manera, este marco permite una fácil adaptación a diferentes criterios de detección de nocividad en distintas plataformas, regiones y a lo largo del tiempo, ofreciendo una alta flexibilidad y explicabilidad. Experimentos exhaustivos en siete conjuntos de datos de referencia validan la efectividad de nuestro marco, destacando su potencial para la detección explicable y de bajo recurso de memes nocivos utilizando LLMs a pequeña escala. Los códigos y datos están disponibles en: https://anonymous.4open.science/r/HMC-AF2B/README.md.
English
Detecting harmful memes is essential for maintaining the integrity of online environments. However, current approaches often struggle with resource efficiency, flexibility, or explainability, limiting their practical deployment in content moderation systems. To address these challenges, we introduce U-CoT+, a novel framework for harmful meme detection. Instead of relying solely on prompting or fine-tuning multimodal models, we first develop a high-fidelity meme-to-text pipeline that converts visual memes into detail-preserving textual descriptions. This design decouples meme interpretation from meme classification, thus avoiding immediate reasoning over complex raw visual content and enabling resource-efficient harmful meme detection with general large language models (LLMs). Building on these textual descriptions, we further incorporate targeted, interpretable human-crafted guidelines to guide models' reasoning under zero-shot CoT prompting. As such, this framework allows for easy adaptation to different harmfulness detection criteria across platforms, regions, and over time, offering high flexibility and explainability. Extensive experiments on seven benchmark datasets validate the effectiveness of our framework, highlighting its potential for explainable and low-resource harmful meme detection using small-scale LLMs. Codes and data are available at: https://anonymous.4open.science/r/HMC-AF2B/README.md.
PDF42June 16, 2025