MSTS: Una Suite de Pruebas de Seguridad Multimodal para Modelos de Visión-Lenguaje
MSTS: A Multimodal Safety Test Suite for Vision-Language Models
January 17, 2025
Autores: Paul Röttger, Giuseppe Attanasio, Felix Friedrich, Janis Goldzycher, Alicia Parrish, Rishabh Bhardwaj, Chiara Di Bonaventura, Roman Eng, Gaia El Khoury Geagea, Sujata Goswami, Jieun Han, Dirk Hovy, Seogyeong Jeong, Paloma Jeretič, Flor Miriam Plaza-del-Arco, Donya Rooein, Patrick Schramowski, Anastassia Shaitarova, Xudong Shen, Richard Willats, Andrea Zugarini, Bertie Vidgen
cs.AI
Resumen
Los modelos visión-lenguaje (VLMs), que procesan entradas de imagen y texto, se integran cada vez más en asistentes de chat y otras aplicaciones de IA para consumidores. Sin embargo, sin las debidas precauciones, los VLMs pueden dar consejos perjudiciales (por ejemplo, sobre cómo autolesionarse) o fomentar comportamientos inseguros (por ejemplo, el consumo de drogas). A pesar de estos riesgos evidentes, hasta ahora se ha realizado poco trabajo para evaluar la seguridad de los VLMs y los nuevos riesgos creados por las entradas multimodales. Para abordar esta brecha, presentamos MSTS, una Suite de Pruebas de Seguridad Multimodal para VLMs. MSTS consta de 400 indicaciones de prueba en 40 categorías de riesgo detalladas. Cada indicación de prueba consiste en un texto y una imagen que solo en combinación revelan su completo significado inseguro. Con MSTS, encontramos problemas de seguridad evidentes en varios VLMs abiertos. También descubrimos que algunos VLMs son seguros por accidente, lo que significa que son seguros porque no logran entender incluso indicaciones de prueba simples. Traducimos MSTS a diez idiomas, mostrando indicaciones no inglesas para aumentar la tasa de respuestas inseguras del modelo. También demostramos que los modelos son más seguros cuando se prueban solo con texto en lugar de indicaciones multimodales. Por último, exploramos la automatización de las evaluaciones de seguridad de los VLMs, encontrando que incluso los mejores clasificadores de seguridad son insuficientes.
English
Vision-language models (VLMs), which process image and text inputs, are
increasingly integrated into chat assistants and other consumer AI
applications. Without proper safeguards, however, VLMs may give harmful advice
(e.g. how to self-harm) or encourage unsafe behaviours (e.g. to consume drugs).
Despite these clear hazards, little work so far has evaluated VLM safety and
the novel risks created by multimodal inputs. To address this gap, we introduce
MSTS, a Multimodal Safety Test Suite for VLMs. MSTS comprises 400 test prompts
across 40 fine-grained hazard categories. Each test prompt consists of a text
and an image that only in combination reveal their full unsafe meaning. With
MSTS, we find clear safety issues in several open VLMs. We also find some VLMs
to be safe by accident, meaning that they are safe because they fail to
understand even simple test prompts. We translate MSTS into ten languages,
showing non-English prompts to increase the rate of unsafe model responses. We
also show models to be safer when tested with text only rather than multimodal
prompts. Finally, we explore the automation of VLM safety assessments, finding
even the best safety classifiers to be lacking.Summary
AI-Generated Summary