AdamMeme: Sondear de manera adaptativa la capacidad de razonamiento de los modelos de lenguaje multimodal de gran escala sobre la nocividad
AdamMeme: Adaptively Probe the Reasoning Capacity of Multimodal Large Language Models on Harmfulness
July 2, 2025
Autores: Zixin Chen, Hongzhan Lin, Kaixin Li, Ziyang Luo, Zhen Ye, Guang Chen, Zhiyong Huang, Jing Ma
cs.AI
Resumen
La proliferación de memes multimodales en la era de las redes sociales exige que los Modelos de Lenguaje Multimodales de Gran Escala (mLLMs, por sus siglas en inglés) comprendan efectivamente la nocividad de los memes. Los puntos de referencia existentes para evaluar a los mLLMs en la comprensión de memes nocivos se basan en evaluaciones estáticas, independientes del modelo y centradas en la precisión, utilizando conjuntos de datos estáticos. Estos puntos de referencia son limitados en su capacidad para proporcionar evaluaciones actualizadas y exhaustivas, ya que los memes en línea evolucionan de manera dinámica. Para abordar esto, proponemos AdamMeme, un marco de evaluación flexible basado en agentes que sondea de manera adaptativa las capacidades de razonamiento de los mLLMs para descifrar la nocividad de los memes. A través de la colaboración multiagente, AdamMeme proporciona evaluaciones integrales al actualizar iterativamente los datos de memes con muestras desafiantes, exponiendo así limitaciones específicas en cómo los mLLMs interpretan la nocividad. Experimentos extensos demuestran que nuestro marco revela sistemáticamente el rendimiento variable de diferentes mLLMs objetivo, ofreciendo análisis detallados y granulares de las debilidades específicas de cada modelo. Nuestro código está disponible en https://github.com/Lbotirx/AdamMeme.
English
The proliferation of multimodal memes in the social media era demands that
multimodal Large Language Models (mLLMs) effectively understand meme
harmfulness. Existing benchmarks for assessing mLLMs on harmful meme
understanding rely on accuracy-based, model-agnostic evaluations using static
datasets. These benchmarks are limited in their ability to provide up-to-date
and thorough assessments, as online memes evolve dynamically. To address this,
we propose AdamMeme, a flexible, agent-based evaluation framework that
adaptively probes the reasoning capabilities of mLLMs in deciphering meme
harmfulness. Through multi-agent collaboration, AdamMeme provides comprehensive
evaluations by iteratively updating the meme data with challenging samples,
thereby exposing specific limitations in how mLLMs interpret harmfulness.
Extensive experiments show that our framework systematically reveals the
varying performance of different target mLLMs, offering in-depth, fine-grained
analyses of model-specific weaknesses. Our code is available at
https://github.com/Lbotirx/AdamMeme.