Обнаружение вредоносных мемов с использованием разделенного понимания и управляемого рассуждения CoT
Detecting Harmful Memes with Decoupled Understanding and Guided CoT Reasoning
June 10, 2025
Авторы: Fengjun Pan, Anh Tuan Luu, Xiaobao Wu
cs.AI
Аннотация
Обнаружение вредоносных мемов является важной задачей для поддержания целостности онлайн-среды. Однако современные подходы часто сталкиваются с проблемами эффективности использования ресурсов, гибкости или интерпретируемости, что ограничивает их практическое применение в системах модерации контента. Для решения этих проблем мы представляем U-CoT+, новый фреймворк для обнаружения вредоносных мемов. Вместо того чтобы полагаться исключительно на запросы или тонкую настройку мультимодальных моделей, мы сначала разрабатываем высокоточный конвейер преобразования визуальных мемов в текстовые описания, сохраняющие детали. Такой подход разделяет интерпретацию мемов и их классификацию, что позволяет избежать непосредственного анализа сложного визуального контента и обеспечивает ресурсоэффективное обнаружение вредоносных мемов с использованием общих крупных языковых моделей (LLM). На основе этих текстовых описаний мы дополнительно включаем целенаправленные, интерпретируемые руководства, созданные человеком, чтобы направлять рассуждения моделей в рамках подхода zero-shot CoT. Таким образом, данный фреймворк позволяет легко адаптироваться к различным критериям определения вредоносности на разных платформах, в разных регионах и с течением времени, обеспечивая высокую гибкость и интерпретируемость. Эксперименты на семи эталонных наборах данных подтверждают эффективность нашего фреймворка, подчеркивая его потенциал для интерпретируемого и ресурсоэффективного обнаружения вредоносных мемов с использованием маломасштабных LLM. Коды и данные доступны по адресу: https://anonymous.4open.science/r/HMC-AF2B/README.md.
English
Detecting harmful memes is essential for maintaining the integrity of online
environments. However, current approaches often struggle with resource
efficiency, flexibility, or explainability, limiting their practical deployment
in content moderation systems. To address these challenges, we introduce
U-CoT+, a novel framework for harmful meme detection. Instead of relying solely
on prompting or fine-tuning multimodal models, we first develop a high-fidelity
meme-to-text pipeline that converts visual memes into detail-preserving textual
descriptions. This design decouples meme interpretation from meme
classification, thus avoiding immediate reasoning over complex raw visual
content and enabling resource-efficient harmful meme detection with general
large language models (LLMs). Building on these textual descriptions, we
further incorporate targeted, interpretable human-crafted guidelines to guide
models' reasoning under zero-shot CoT prompting. As such, this framework allows
for easy adaptation to different harmfulness detection criteria across
platforms, regions, and over time, offering high flexibility and
explainability. Extensive experiments on seven benchmark datasets validate the
effectiveness of our framework, highlighting its potential for explainable and
low-resource harmful meme detection using small-scale LLMs. Codes and data are
available at: https://anonymous.4open.science/r/HMC-AF2B/README.md.