MSTS: Мультимодальный набор тестов безопасности для моделей видео-языкового восприятия
MSTS: A Multimodal Safety Test Suite for Vision-Language Models
January 17, 2025
Авторы: Paul Röttger, Giuseppe Attanasio, Felix Friedrich, Janis Goldzycher, Alicia Parrish, Rishabh Bhardwaj, Chiara Di Bonaventura, Roman Eng, Gaia El Khoury Geagea, Sujata Goswami, Jieun Han, Dirk Hovy, Seogyeong Jeong, Paloma Jeretič, Flor Miriam Plaza-del-Arco, Donya Rooein, Patrick Schramowski, Anastassia Shaitarova, Xudong Shen, Richard Willats, Andrea Zugarini, Bertie Vidgen
cs.AI
Аннотация
Модели видео-языка (VLM), которые обрабатывают изображения и текстовые входы, все чаще интегрируются в чат-ассистенты и другие приложения искусственного интеллекта для потребителей. Однако без должных мер предосторожности VLM могут давать вредные советы (например, как нанести вред себе) или поощрять небезопасное поведение (например, употребление наркотиков). Несмотря на эти очевидные опасности, до сих пор мало работ, которые оценивают безопасность VLM и новые риски, создаваемые мультимодальными входами. Для заполнения этого пробела мы представляем MSTS, набор тестов на безопасность для VLM, работающих в мультимодальном режиме. MSTS включает в себя 400 тестовых запросов по 40 категориям тонких опасностей. Каждый тестовый запрос состоит из текста и изображения, которые только в сочетании раскрывают свой полный небезопасный смысл. С помощью MSTS мы обнаруживаем явные проблемы безопасности в нескольких открытых VLM. Мы также обнаруживаем, что некоторые VLM оказываются безопасными случайно, то есть они безопасны, потому что не могут понять даже простейшие тестовые запросы. Мы переводим MSTS на десять языков, представляя запросы не на английском, чтобы увеличить количество небезопасных ответов модели. Мы также показываем, что модели оказываются безопаснее при тестировании только с текстом, а не с мультимодальными запросами. Наконец, мы исследуем автоматизацию оценки безопасности VLM, обнаруживая, что даже лучшие классификаторы безопасности оставляют желать лучшего.
English
Vision-language models (VLMs), which process image and text inputs, are
increasingly integrated into chat assistants and other consumer AI
applications. Without proper safeguards, however, VLMs may give harmful advice
(e.g. how to self-harm) or encourage unsafe behaviours (e.g. to consume drugs).
Despite these clear hazards, little work so far has evaluated VLM safety and
the novel risks created by multimodal inputs. To address this gap, we introduce
MSTS, a Multimodal Safety Test Suite for VLMs. MSTS comprises 400 test prompts
across 40 fine-grained hazard categories. Each test prompt consists of a text
and an image that only in combination reveal their full unsafe meaning. With
MSTS, we find clear safety issues in several open VLMs. We also find some VLMs
to be safe by accident, meaning that they are safe because they fail to
understand even simple test prompts. We translate MSTS into ten languages,
showing non-English prompts to increase the rate of unsafe model responses. We
also show models to be safer when tested with text only rather than multimodal
prompts. Finally, we explore the automation of VLM safety assessments, finding
even the best safety classifiers to be lacking.Summary
AI-Generated Summary