ChatPaper.aiChatPaper

MSTS: Uma Suíte de Testes de Segurança Multimodal para Modelos de Visão e Linguagem

MSTS: A Multimodal Safety Test Suite for Vision-Language Models

January 17, 2025
Autores: Paul Röttger, Giuseppe Attanasio, Felix Friedrich, Janis Goldzycher, Alicia Parrish, Rishabh Bhardwaj, Chiara Di Bonaventura, Roman Eng, Gaia El Khoury Geagea, Sujata Goswami, Jieun Han, Dirk Hovy, Seogyeong Jeong, Paloma Jeretič, Flor Miriam Plaza-del-Arco, Donya Rooein, Patrick Schramowski, Anastassia Shaitarova, Xudong Shen, Richard Willats, Andrea Zugarini, Bertie Vidgen
cs.AI

Resumo

Os modelos de visão e linguagem (VLMs), que processam entradas de imagem e texto, estão cada vez mais integrados em assistentes de chat e outras aplicações de IA para consumidores. Sem salvaguardas adequadas, no entanto, os VLMs podem fornecer conselhos prejudiciais (por exemplo, sobre como se autolesionar) ou incentivar comportamentos inseguros (por exemplo, consumir drogas). Apesar desses perigos evidentes, até o momento, pouco trabalho avaliou a segurança dos VLMs e os riscos inovadores criados por entradas multimodais. Para abordar essa lacuna, apresentamos o MSTS, uma Suíte de Testes de Segurança Multimodal para VLMs. O MSTS é composto por 400 estímulos de teste em 40 categorias de perigo refinadas. Cada estímulo de teste consiste em um texto e uma imagem que, apenas em combinação, revelam seu significado inseguro completo. Com o MSTS, encontramos problemas claros de segurança em vários VLMs abertos. Também descobrimos que alguns VLMs são seguros por acidente, ou seja, são seguros porque falham em entender até mesmo estímulos de teste simples. Traduzimos o MSTS para dez idiomas, apresentando estímulos não em inglês para aumentar a taxa de respostas inseguras do modelo. Também demonstramos que os modelos são mais seguros quando testados apenas com texto, em vez de estímulos multimodais. Por fim, exploramos a automação das avaliações de segurança dos VLMs, constatando que até os melhores classificadores de segurança deixam a desejar.
English
Vision-language models (VLMs), which process image and text inputs, are increasingly integrated into chat assistants and other consumer AI applications. Without proper safeguards, however, VLMs may give harmful advice (e.g. how to self-harm) or encourage unsafe behaviours (e.g. to consume drugs). Despite these clear hazards, little work so far has evaluated VLM safety and the novel risks created by multimodal inputs. To address this gap, we introduce MSTS, a Multimodal Safety Test Suite for VLMs. MSTS comprises 400 test prompts across 40 fine-grained hazard categories. Each test prompt consists of a text and an image that only in combination reveal their full unsafe meaning. With MSTS, we find clear safety issues in several open VLMs. We also find some VLMs to be safe by accident, meaning that they are safe because they fail to understand even simple test prompts. We translate MSTS into ten languages, showing non-English prompts to increase the rate of unsafe model responses. We also show models to be safer when tested with text only rather than multimodal prompts. Finally, we explore the automation of VLM safety assessments, finding even the best safety classifiers to be lacking.

Summary

AI-Generated Summary

PDF82January 22, 2025