¿Son seguros los modelos de visión y lenguaje en entornos reales? Un estudio de referencia basado en memes
Are Vision-Language Models Safe in the Wild? A Meme-Based Benchmark Study
May 21, 2025
Autores: DongGeon Lee, Joonwon Jang, Jihae Jeong, Hwanjo Yu
cs.AI
Resumen
El despliegue rápido de modelos de visión y lenguaje (VLMs) amplifica los riesgos de seguridad, aunque la mayoría de las evaluaciones se basan en imágenes artificiales. Este estudio plantea: ¿Qué tan seguros son los VLMs actuales cuando se enfrentan a imágenes de memes que los usuarios comunes comparten? Para investigar esta pregunta, presentamos MemeSafetyBench, un benchmark de 50,430 instancias que empareja imágenes reales de memes con instrucciones tanto dañinas como benignas. Utilizando una taxonomía de seguridad exhaustiva y generación de instrucciones basada en LLMs, evaluamos múltiples VLMs en interacciones de uno y varios turnos. Investigamos cómo los memes del mundo real influyen en las salidas dañinas, los efectos mitigadores del contexto conversacional y la relación entre la escala del modelo y las métricas de seguridad. Nuestros hallazgos demuestran que los VLMs muestran una mayor vulnerabilidad a instrucciones dañinas basadas en memes que a imágenes sintéticas o tipográficas. Los memes aumentan significativamente las respuestas dañinas y disminuyen las negativas en comparación con entradas de solo texto. Aunque las interacciones de varios turnos proporcionan una mitigación parcial, la vulnerabilidad elevada persiste. Estos resultados resaltan la necesidad de evaluaciones ecológicamente válidas y mecanismos de seguridad más robustos.
English
Rapid deployment of vision-language models (VLMs) magnifies safety risks, yet
most evaluations rely on artificial images. This study asks: How safe are
current VLMs when confronted with meme images that ordinary users share? To
investigate this question, we introduce MemeSafetyBench, a 50,430-instance
benchmark pairing real meme images with both harmful and benign instructions.
Using a comprehensive safety taxonomy and LLM-based instruction generation, we
assess multiple VLMs across single and multi-turn interactions. We investigate
how real-world memes influence harmful outputs, the mitigating effects of
conversational context, and the relationship between model scale and safety
metrics. Our findings demonstrate that VLMs show greater vulnerability to
meme-based harmful prompts than to synthetic or typographic images. Memes
significantly increase harmful responses and decrease refusals compared to
text-only inputs. Though multi-turn interactions provide partial mitigation,
elevated vulnerability persists. These results highlight the need for
ecologically valid evaluations and stronger safety mechanisms.Summary
AI-Generated Summary