AdamMeme: Adaptief de redeneercapaciteit van multimodale grote taalmodellen onderzoeken op schadelijkheid
AdamMeme: Adaptively Probe the Reasoning Capacity of Multimodal Large Language Models on Harmfulness
July 2, 2025
Auteurs: Zixin Chen, Hongzhan Lin, Kaixin Li, Ziyang Luo, Zhen Ye, Guang Chen, Zhiyong Huang, Jing Ma
cs.AI
Samenvatting
De opkomst van multimodale memes in het tijdperk van sociale media vereist dat multimodale Large Language Models (mLLMs) de schadelijkheid van memes effectief kunnen begrijpen. Bestaande benchmarks voor het beoordelen van mLLMs op het begrijpen van schadelijke memes zijn gebaseerd op nauwkeurigheidsgerichte, model-agnostische evaluaties met behulp van statische datasets. Deze benchmarks zijn beperkt in hun vermogen om actuele en grondige beoordelingen te bieden, aangezien online memes zich dynamisch ontwikkelen. Om dit aan te pakken, stellen we AdamMeme voor, een flexibel, agent-gebaseerd evaluatieraamwerk dat adaptief de redeneervaardigheden van mLLMs onderzoekt bij het ontcijferen van meme-schadelijkheid. Door middel van multi-agent samenwerking biedt AdamMeme uitgebreide evaluaties door de meme-gegevens iteratief bij te werken met uitdagende voorbeelden, waardoor specifieke beperkingen in hoe mLLMs schadelijkheid interpreteren aan het licht komen. Uitgebreide experimenten tonen aan dat ons raamwerk systematisch de wisselende prestaties van verschillende doel-mLLMs onthult, wat diepgaande, fijnmazige analyses van model-specifieke zwakheden oplevert. Onze code is beschikbaar op https://github.com/Lbotirx/AdamMeme.
English
The proliferation of multimodal memes in the social media era demands that
multimodal Large Language Models (mLLMs) effectively understand meme
harmfulness. Existing benchmarks for assessing mLLMs on harmful meme
understanding rely on accuracy-based, model-agnostic evaluations using static
datasets. These benchmarks are limited in their ability to provide up-to-date
and thorough assessments, as online memes evolve dynamically. To address this,
we propose AdamMeme, a flexible, agent-based evaluation framework that
adaptively probes the reasoning capabilities of mLLMs in deciphering meme
harmfulness. Through multi-agent collaboration, AdamMeme provides comprehensive
evaluations by iteratively updating the meme data with challenging samples,
thereby exposing specific limitations in how mLLMs interpret harmfulness.
Extensive experiments show that our framework systematically reveals the
varying performance of different target mLLMs, offering in-depth, fine-grained
analyses of model-specific weaknesses. Our code is available at
https://github.com/Lbotirx/AdamMeme.