Безопасны ли модели "Визия-Язык" в реальных условиях? Бенчмарк-исследование на основе мемов
Are Vision-Language Models Safe in the Wild? A Meme-Based Benchmark Study
May 21, 2025
Авторы: DongGeon Lee, Joonwon Jang, Jihae Jeong, Hwanjo Yu
cs.AI
Аннотация
Быстрое внедрение моделей, работающих с визуальными и текстовыми данными (VLMs), увеличивает риски безопасности, однако большинство оценок основывается на искусственных изображениях. Данное исследование ставит вопрос: насколько безопасны современные VLMs при взаимодействии с мем-изображениями, которые обычные пользователи активно распространяют? Для изучения этого вопроса мы представляем MemeSafetyBench — бенчмарк, содержащий 50 430 примеров, где реальные мем-изображения сочетаются как с вредоносными, так и с безобидными инструкциями. Используя комплексную таксономию безопасности и генерацию инструкций на основе языковых моделей (LLM), мы оцениваем несколько VLMs в рамках одно- и многошаговых взаимодействий. Мы исследуем, как реальные мемы влияют на генерацию вредоносных ответов, смягчающий эффект контекста диалога, а также связь между масштабом модели и метриками безопасности. Наши результаты показывают, что VLMs более уязвимы к вредоносным запросам, основанным на мемах, чем к синтетическим или типографским изображениям. Мемы значительно увеличивают количество вредоносных ответов и снижают частоту отказов по сравнению с текстовыми входами. Хотя многошаговые взаимодействия частично смягчают проблему, повышенная уязвимость сохраняется. Эти результаты подчеркивают необходимость экологически валидных оценок и более надежных механизмов безопасности.
English
Rapid deployment of vision-language models (VLMs) magnifies safety risks, yet
most evaluations rely on artificial images. This study asks: How safe are
current VLMs when confronted with meme images that ordinary users share? To
investigate this question, we introduce MemeSafetyBench, a 50,430-instance
benchmark pairing real meme images with both harmful and benign instructions.
Using a comprehensive safety taxonomy and LLM-based instruction generation, we
assess multiple VLMs across single and multi-turn interactions. We investigate
how real-world memes influence harmful outputs, the mitigating effects of
conversational context, and the relationship between model scale and safety
metrics. Our findings demonstrate that VLMs show greater vulnerability to
meme-based harmful prompts than to synthetic or typographic images. Memes
significantly increase harmful responses and decrease refusals compared to
text-only inputs. Though multi-turn interactions provide partial mitigation,
elevated vulnerability persists. These results highlight the need for
ecologically valid evaluations and stronger safety mechanisms.Summary
AI-Generated Summary