ChatPaper.aiChatPaper

Les modèles vision-langage sont-ils sûrs en pratique ? Une étude comparative basée sur des mèmes

Are Vision-Language Models Safe in the Wild? A Meme-Based Benchmark Study

May 21, 2025
Auteurs: DongGeon Lee, Joonwon Jang, Jihae Jeong, Hwanjo Yu
cs.AI

Résumé

Le déploiement rapide des modèles vision-langage (VLMs) amplifie les risques de sécurité, pourtant la plupart des évaluations reposent sur des images artificielles. Cette étude pose la question suivante : à quel point les VLMs actuels sont-ils sûrs face aux images de mèmes que les utilisateurs ordinaires partagent ? Pour explorer cette question, nous introduisons MemeSafetyBench, un benchmark de 50 430 instances associant des images de mèmes réels à des instructions à la fois nuisibles et bénignes. En utilisant une taxonomie de sécurité complète et une génération d'instructions basée sur des LLM, nous évaluons plusieurs VLMs dans des interactions à un tour et à plusieurs tours. Nous examinons comment les mèmes du monde réel influencent les sorties nuisibles, les effets atténuants du contexte conversationnel, et la relation entre l'échelle du modèle et les métriques de sécurité. Nos résultats montrent que les VLMs présentent une plus grande vulnérabilité aux invites nuisibles basées sur des mèmes qu'aux images synthétiques ou typographiques. Les mèmes augmentent significativement les réponses nuisibles et réduisent les refus par rapport aux entrées textuelles uniquement. Bien que les interactions à plusieurs tours offrent une atténuation partielle, une vulnérabilité accrue persiste. Ces résultats soulignent la nécessité d'évaluations écologiquement valides et de mécanismes de sécurité renforcés.
English
Rapid deployment of vision-language models (VLMs) magnifies safety risks, yet most evaluations rely on artificial images. This study asks: How safe are current VLMs when confronted with meme images that ordinary users share? To investigate this question, we introduce MemeSafetyBench, a 50,430-instance benchmark pairing real meme images with both harmful and benign instructions. Using a comprehensive safety taxonomy and LLM-based instruction generation, we assess multiple VLMs across single and multi-turn interactions. We investigate how real-world memes influence harmful outputs, the mitigating effects of conversational context, and the relationship between model scale and safety metrics. Our findings demonstrate that VLMs show greater vulnerability to meme-based harmful prompts than to synthetic or typographic images. Memes significantly increase harmful responses and decrease refusals compared to text-only inputs. Though multi-turn interactions provide partial mitigation, elevated vulnerability persists. These results highlight the need for ecologically valid evaluations and stronger safety mechanisms.

Summary

AI-Generated Summary

PDF82May 26, 2025