Sind Vision-Sprache-Modelle in der freien Wildbahn sicher? Eine Benchmark-Studie auf Basis von Memes
Are Vision-Language Models Safe in the Wild? A Meme-Based Benchmark Study
May 21, 2025
Autoren: DongGeon Lee, Joonwon Jang, Jihae Jeong, Hwanjo Yu
cs.AI
Zusammenfassung
Die schnelle Verbreitung von Vision-Language-Modellen (VLMs) verstärkt Sicherheitsrisiken, doch die meisten Bewertungen stützen sich auf künstlich erzeugte Bilder. Diese Studie stellt die Frage: Wie sicher sind aktuelle VLMs, wenn sie mit Meme-Bildern konfrontiert werden, die gewöhnliche Nutzer teilen? Um diese Frage zu untersuchen, führen wir MemeSafetyBench ein, einen Benchmark mit 50.430 Instanzen, der echte Meme-Bilder mit sowohl schädlichen als auch harmlosen Anweisungen kombiniert. Mithilfe einer umfassenden Sicherheitstaxonomie und LLM-basierter Anweisungsgenerierung bewerten wir mehrere VLMs in Einzel- und Mehrfachinteraktionen. Wir untersuchen, wie reale Memes schädliche Ausgaben beeinflussen, die abschwächenden Effekte von Konversationskontexten und die Beziehung zwischen Modellgröße und Sicherheitsmetriken. Unsere Ergebnisse zeigen, dass VLMs anfälliger für schädliche Prompts auf Basis von Memes sind als für synthetische oder typografische Bilder. Memes erhöhen signifikant die Anzahl schädlicher Antworten und verringern Ablehnungen im Vergleich zu rein textbasierten Eingaben. Obwohl Mehrfachinteraktionen teilweise Abhilfe schaffen, bleibt eine erhöhte Anfälligkeit bestehen. Diese Ergebnisse unterstreichen die Notwendigkeit von ökologisch validen Bewertungen und stärkeren Sicherheitsmechanismen.
English
Rapid deployment of vision-language models (VLMs) magnifies safety risks, yet
most evaluations rely on artificial images. This study asks: How safe are
current VLMs when confronted with meme images that ordinary users share? To
investigate this question, we introduce MemeSafetyBench, a 50,430-instance
benchmark pairing real meme images with both harmful and benign instructions.
Using a comprehensive safety taxonomy and LLM-based instruction generation, we
assess multiple VLMs across single and multi-turn interactions. We investigate
how real-world memes influence harmful outputs, the mitigating effects of
conversational context, and the relationship between model scale and safety
metrics. Our findings demonstrate that VLMs show greater vulnerability to
meme-based harmful prompts than to synthetic or typographic images. Memes
significantly increase harmful responses and decrease refusals compared to
text-only inputs. Though multi-turn interactions provide partial mitigation,
elevated vulnerability persists. These results highlight the need for
ecologically valid evaluations and stronger safety mechanisms.Summary
AI-Generated Summary