MSTS: Мультимодальный набор тестов безопасности для моделей видео-языкового восприятия

Аннотация

Модели видео-языка (VLM), которые обрабатывают изображения и текстовые входы, все чаще интегрируются в чат-ассистенты и другие приложения искусственного интеллекта для потребителей. Однако без должных мер предосторожности VLM могут давать вредные советы (например, как нанести вред себе) или поощрять небезопасное поведение (например, употребление наркотиков). Несмотря на эти очевидные опасности, до сих пор мало работ, которые оценивают безопасность VLM и новые риски, создаваемые мультимодальными входами. Для заполнения этого пробела мы представляем MSTS, набор тестов на безопасность для VLM, работающих в мультимодальном режиме. MSTS включает в себя 400 тестовых запросов по 40 категориям тонких опасностей. Каждый тестовый запрос состоит из текста и изображения, которые только в сочетании раскрывают свой полный небезопасный смысл. С помощью MSTS мы обнаруживаем явные проблемы безопасности в нескольких открытых VLM. Мы также обнаруживаем, что некоторые VLM оказываются безопасными случайно, то есть они безопасны, потому что не могут понять даже простейшие тестовые запросы. Мы переводим MSTS на десять языков, представляя запросы не на английском, чтобы увеличить количество небезопасных ответов модели. Мы также показываем, что модели оказываются безопаснее при тестировании только с текстом, а не с мультимодальными запросами. Наконец, мы исследуем автоматизацию оценки безопасности VLM, обнаруживая, что даже лучшие классификаторы безопасности оставляют желать лучшего.

English

Vision-language models (VLMs), which process image and text inputs, are increasingly integrated into chat assistants and other consumer AI applications. Without proper safeguards, however, VLMs may give harmful advice (e.g. how to self-harm) or encourage unsafe behaviours (e.g. to consume drugs). Despite these clear hazards, little work so far has evaluated VLM safety and the novel risks created by multimodal inputs. To address this gap, we introduce MSTS, a Multimodal Safety Test Suite for VLMs. MSTS comprises 400 test prompts across 40 fine-grained hazard categories. Each test prompt consists of a text and an image that only in combination reveal their full unsafe meaning. With MSTS, we find clear safety issues in several open VLMs. We also find some VLMs to be safe by accident, meaning that they are safe because they fail to understand even simple test prompts. We translate MSTS into ten languages, showing non-English prompts to increase the rate of unsafe model responses. We also show models to be safer when tested with text only rather than multimodal prompts. Finally, we explore the automation of VLM safety assessments, finding even the best safety classifiers to be lacking.

MSTS: Мультимодальный набор тестов безопасности для моделей видео-языкового восприятия

MSTS: A Multimodal Safety Test Suite for Vision-Language Models

Аннотация

Support