AdamMeme: Адаптивное исследование способности к рассуждению мультимодальных больших языковых моделей в контексте вредоносности
AdamMeme: Adaptively Probe the Reasoning Capacity of Multimodal Large Language Models on Harmfulness
July 2, 2025
Авторы: Zixin Chen, Hongzhan Lin, Kaixin Li, Ziyang Luo, Zhen Ye, Guang Chen, Zhiyong Huang, Jing Ma
cs.AI
Аннотация
Распространение мультимодальных мемов в эпоху социальных сетей требует, чтобы мультимодальные большие языковые модели (mLLMs) эффективно понимали вредоносность мемов. Существующие бенчмарки для оценки mLLMs в понимании вредоносных мемов основываются на точности и модельно-независимых оценках с использованием статических наборов данных. Эти бенчмарки ограничены в своей способности предоставлять актуальные и всесторонние оценки, поскольку онлайн-мемы динамично эволюционируют. Для решения этой проблемы мы предлагаем AdamMeme, гибкую, агент-ориентированную структуру оценки, которая адаптивно исследует способности mLLMs к анализу вредоносности мемов. Благодаря многоагентному взаимодействию AdamMeme обеспечивает комплексные оценки, итеративно обновляя данные о мемах сложными образцами, тем самым выявляя конкретные ограничения в интерпретации вредоносности mLLMs. Масштабные эксперименты показывают, что наша структура систематически раскрывает варьирующуюся производительность различных целевых mLLMs, предлагая глубокий, детализированный анализ слабых мест, специфичных для каждой модели. Наш код доступен по адресу https://github.com/Lbotirx/AdamMeme.
English
The proliferation of multimodal memes in the social media era demands that
multimodal Large Language Models (mLLMs) effectively understand meme
harmfulness. Existing benchmarks for assessing mLLMs on harmful meme
understanding rely on accuracy-based, model-agnostic evaluations using static
datasets. These benchmarks are limited in their ability to provide up-to-date
and thorough assessments, as online memes evolve dynamically. To address this,
we propose AdamMeme, a flexible, agent-based evaluation framework that
adaptively probes the reasoning capabilities of mLLMs in deciphering meme
harmfulness. Through multi-agent collaboration, AdamMeme provides comprehensive
evaluations by iteratively updating the meme data with challenging samples,
thereby exposing specific limitations in how mLLMs interpret harmfulness.
Extensive experiments show that our framework systematically reveals the
varying performance of different target mLLMs, offering in-depth, fine-grained
analyses of model-specific weaknesses. Our code is available at
https://github.com/Lbotirx/AdamMeme.