AdamMeme: Sondagem Adaptativa da Capacidade de Raciocínio de Modelos de Linguagem Multimodais de Grande Escala sobre Nocividade
AdamMeme: Adaptively Probe the Reasoning Capacity of Multimodal Large Language Models on Harmfulness
July 2, 2025
Autores: Zixin Chen, Hongzhan Lin, Kaixin Li, Ziyang Luo, Zhen Ye, Guang Chen, Zhiyong Huang, Jing Ma
cs.AI
Resumo
A proliferação de memes multimodais na era das mídias sociais exige que os Modelos de Linguagem Multimodais de Grande Escala (mLLMs) compreendam efetivamente a nocividade dos memes. Os benchmarks existentes para avaliar mLLMs na compreensão de memes nocivos dependem de avaliações baseadas em precisão e agnósticas ao modelo, utilizando conjuntos de dados estáticos. Esses benchmarks são limitados em sua capacidade de fornecer avaliações atualizadas e abrangentes, uma vez que os memes online evoluem dinamicamente. Para resolver isso, propomos o AdamMeme, um framework de avaliação flexível e baseado em agentes que investiga de forma adaptativa as capacidades de raciocínio dos mLLMs na decifração da nocividade dos memes. Por meio da colaboração multiagente, o AdamMeme fornece avaliações abrangentes ao atualizar iterativamente os dados de memes com amostras desafiadoras, expondo assim limitações específicas na forma como os mLLMs interpretam a nocividade. Experimentos extensivos mostram que nosso framework revela sistematicamente o desempenho variável de diferentes mLLMs alvo, oferecendo análises detalhadas e refinadas das fraquezas específicas de cada modelo. Nosso código está disponível em https://github.com/Lbotirx/AdamMeme.
English
The proliferation of multimodal memes in the social media era demands that
multimodal Large Language Models (mLLMs) effectively understand meme
harmfulness. Existing benchmarks for assessing mLLMs on harmful meme
understanding rely on accuracy-based, model-agnostic evaluations using static
datasets. These benchmarks are limited in their ability to provide up-to-date
and thorough assessments, as online memes evolve dynamically. To address this,
we propose AdamMeme, a flexible, agent-based evaluation framework that
adaptively probes the reasoning capabilities of mLLMs in deciphering meme
harmfulness. Through multi-agent collaboration, AdamMeme provides comprehensive
evaluations by iteratively updating the meme data with challenging samples,
thereby exposing specific limitations in how mLLMs interpret harmfulness.
Extensive experiments show that our framework systematically reveals the
varying performance of different target mLLMs, offering in-depth, fine-grained
analyses of model-specific weaknesses. Our code is available at
https://github.com/Lbotirx/AdamMeme.