Zijn Vision-Language Modellen Veilig in het Wild? Een Meme-Gebaseerde Benchmarkstudie
Are Vision-Language Models Safe in the Wild? A Meme-Based Benchmark Study
May 21, 2025
Auteurs: DongGeon Lee, Joonwon Jang, Jihae Jeong, Hwanjo Yu
cs.AI
Samenvatting
De snelle implementatie van vision-language modellen (VLMs) vergroot de veiligheidsrisico's, maar de meeste evaluaties zijn gebaseerd op kunstmatige afbeeldingen. Deze studie stelt de vraag: Hoe veilig zijn huidige VLMs wanneer ze worden geconfronteerd met meme-afbeeldingen die gewone gebruikers delen? Om deze vraag te onderzoeken, introduceren we MemeSafetyBench, een benchmark met 50.430 voorbeelden die echte meme-afbeeldingen koppelen aan zowel schadelijke als onschadelijke instructies. Met behulp van een uitgebreide veiligheidstaxonomie en LLM-gebaseerde instructiegeneratie evalueren we meerdere VLMs in zowel enkele als meervoudige interacties. We onderzoeken hoe memes uit de echte wereld schadelijke uitvoer beïnvloeden, de verzachtende effecten van conversatiecontext, en de relatie tussen modelschaal en veiligheidsmetingen. Onze bevindingen tonen aan dat VLMs kwetsbaarder zijn voor schadelijke prompts gebaseerd op memes dan voor synthetische of typografische afbeeldingen. Memes verhogen significant het aantal schadelijke reacties en verminderen weigeringen in vergelijking met tekstuele invoer. Hoewel meervoudige interacties gedeeltelijke mitigatie bieden, blijft de verhoogde kwetsbaarheid bestaan. Deze resultaten benadrukken de noodzaak van ecologisch valide evaluaties en sterkere veiligheidsmechanismen.
English
Rapid deployment of vision-language models (VLMs) magnifies safety risks, yet
most evaluations rely on artificial images. This study asks: How safe are
current VLMs when confronted with meme images that ordinary users share? To
investigate this question, we introduce MemeSafetyBench, a 50,430-instance
benchmark pairing real meme images with both harmful and benign instructions.
Using a comprehensive safety taxonomy and LLM-based instruction generation, we
assess multiple VLMs across single and multi-turn interactions. We investigate
how real-world memes influence harmful outputs, the mitigating effects of
conversational context, and the relationship between model scale and safety
metrics. Our findings demonstrate that VLMs show greater vulnerability to
meme-based harmful prompts than to synthetic or typographic images. Memes
significantly increase harmful responses and decrease refusals compared to
text-only inputs. Though multi-turn interactions provide partial mitigation,
elevated vulnerability persists. These results highlight the need for
ecologically valid evaluations and stronger safety mechanisms.