Os Modelos Visão-Linguagem São Seguros no Mundo Real? Um Estudo de Benchmark Baseado em Memes
Are Vision-Language Models Safe in the Wild? A Meme-Based Benchmark Study
May 21, 2025
Autores: DongGeon Lee, Joonwon Jang, Jihae Jeong, Hwanjo Yu
cs.AI
Resumo
A rápida implantação de modelos de visão e linguagem (VLMs) amplifica os riscos de segurança, mas a maioria das avaliações depende de imagens artificiais. Este estudo questiona: Quão seguros são os VLMs atuais quando confrontados com imagens de memes que usuários comuns compartilham? Para investigar essa questão, introduzimos o MemeSafetyBench, um benchmark de 50.430 instâncias que emparelha imagens reais de memes com instruções tanto prejudiciais quanto benignas. Utilizando uma taxonomia abrangente de segurança e geração de instruções baseada em LLMs, avaliamos múltiplos VLMs em interações de turno único e múltiplos. Investigamos como os memes do mundo real influenciam saídas prejudiciais, os efeitos mitigadores do contexto conversacional e a relação entre a escala do modelo e as métricas de segurança. Nossos resultados demonstram que os VLMs mostram maior vulnerabilidade a prompts prejudiciais baseados em memes do que a imagens sintéticas ou tipográficas. Os memes aumentam significativamente as respostas prejudiciais e diminuem as recusas em comparação com entradas apenas de texto. Embora as interações de múltiplos turnos forneçam uma mitigação parcial, a vulnerabilidade elevada persiste. Esses resultados destacam a necessidade de avaliações ecologicamente válidas e mecanismos de segurança mais robustos.
English
Rapid deployment of vision-language models (VLMs) magnifies safety risks, yet
most evaluations rely on artificial images. This study asks: How safe are
current VLMs when confronted with meme images that ordinary users share? To
investigate this question, we introduce MemeSafetyBench, a 50,430-instance
benchmark pairing real meme images with both harmful and benign instructions.
Using a comprehensive safety taxonomy and LLM-based instruction generation, we
assess multiple VLMs across single and multi-turn interactions. We investigate
how real-world memes influence harmful outputs, the mitigating effects of
conversational context, and the relationship between model scale and safety
metrics. Our findings demonstrate that VLMs show greater vulnerability to
meme-based harmful prompts than to synthetic or typographic images. Memes
significantly increase harmful responses and decrease refusals compared to
text-only inputs. Though multi-turn interactions provide partial mitigation,
elevated vulnerability persists. These results highlight the need for
ecologically valid evaluations and stronger safety mechanisms.