I modelli visione-linguaggio sono sicuri in contesti reali? Uno studio basato su benchmark di meme
Are Vision-Language Models Safe in the Wild? A Meme-Based Benchmark Study
May 21, 2025
Autori: DongGeon Lee, Joonwon Jang, Jihae Jeong, Hwanjo Yu
cs.AI
Abstract
Il rapido dispiegamento di modelli visione-linguaggio (VLMs) amplifica i rischi per la sicurezza, tuttavia la maggior parte delle valutazioni si basa su immagini artificiali. Questo studio si chiede: quanto sono sicuri gli attuali VLMs quando si confrontano con immagini di meme che gli utenti comuni condividono? Per indagare questa questione, introduciamo MemeSafetyBench, un benchmark di 50.430 istanze che accoppia immagini reali di meme con istruzioni sia dannose che benigne. Utilizzando una tassonomia completa della sicurezza e una generazione di istruzioni basata su LLM, valutiamo diversi VLMs in interazioni sia singole che multi-turn. Esaminiamo come i meme del mondo reale influenzino le uscite dannose, gli effetti mitiganti del contesto conversazionale e la relazione tra scala del modello e metriche di sicurezza. I nostri risultati dimostrano che i VLMs mostrano una maggiore vulnerabilità a prompt dannosi basati su meme rispetto a immagini sintetiche o tipografiche. I meme aumentano significativamente le risposte dannose e diminuiscono i rifiuti rispetto agli input testuali. Sebbene le interazioni multi-turn forniscano una mitigazione parziale, la vulnerabilità elevata persiste. Questi risultati evidenziano la necessità di valutazioni ecologicamente valide e di meccanismi di sicurezza più robusti.
English
Rapid deployment of vision-language models (VLMs) magnifies safety risks, yet
most evaluations rely on artificial images. This study asks: How safe are
current VLMs when confronted with meme images that ordinary users share? To
investigate this question, we introduce MemeSafetyBench, a 50,430-instance
benchmark pairing real meme images with both harmful and benign instructions.
Using a comprehensive safety taxonomy and LLM-based instruction generation, we
assess multiple VLMs across single and multi-turn interactions. We investigate
how real-world memes influence harmful outputs, the mitigating effects of
conversational context, and the relationship between model scale and safety
metrics. Our findings demonstrate that VLMs show greater vulnerability to
meme-based harmful prompts than to synthetic or typographic images. Memes
significantly increase harmful responses and decrease refusals compared to
text-only inputs. Though multi-turn interactions provide partial mitigation,
elevated vulnerability persists. These results highlight the need for
ecologically valid evaluations and stronger safety mechanisms.