MSTS: Una Suite di Test di Sicurezza Multimodale per Modelli Visione-Linguaggio
MSTS: A Multimodal Safety Test Suite for Vision-Language Models
January 17, 2025
Autori: Paul Röttger, Giuseppe Attanasio, Felix Friedrich, Janis Goldzycher, Alicia Parrish, Rishabh Bhardwaj, Chiara Di Bonaventura, Roman Eng, Gaia El Khoury Geagea, Sujata Goswami, Jieun Han, Dirk Hovy, Seogyeong Jeong, Paloma Jeretič, Flor Miriam Plaza-del-Arco, Donya Rooein, Patrick Schramowski, Anastassia Shaitarova, Xudong Shen, Richard Willats, Andrea Zugarini, Bertie Vidgen
cs.AI
Abstract
I modelli visione-linguaggio (VLM), che elaborano input di immagini e testo, sono sempre più integrati negli assistenti virtuali e in altre applicazioni di intelligenza artificiale per i consumatori. Senza adeguate protezioni, tuttavia, i VLM potrebbero fornire consigli dannosi (ad esempio, su come autolesionarsi) o incoraggiare comportamenti pericolosi (ad esempio, consumare droghe). Nonostante questi evidenti rischi, finora sono stati condotti pochi studi sull'analisi della sicurezza dei VLM e sui nuovi rischi creati dagli input multimodali. Per colmare questa lacuna, presentiamo MSTS, una Suite di Test di Sicurezza Multimodale per i VLM. MSTS comprende 400 stimoli di test distribuiti su 40 categorie di rischi dettagliate. Ciascun stimolo di test è composto da un testo e un'immagine che rivelano il loro significato non sicuro solo combinati. Con MSTS, individuiamo chiari problemi di sicurezza in diversi VLM aperti. Troviamo anche alcuni VLM sicuri per caso, nel senso che sono sicuri perché non riescono a comprendere nemmeno semplici stimoli di test. Traduciamo MSTS in dieci lingue, presentando stimoli non in lingua inglese per aumentare la frequenza delle risposte non sicure del modello. Mostriamo inoltre che i modelli sono più sicuri quando testati solo con testo piuttosto che con stimoli multimodali. Infine, esploriamo l'automazione delle valutazioni di sicurezza dei VLM, scoprendo che persino i migliori classificatori di sicurezza sono carenti.
English
Vision-language models (VLMs), which process image and text inputs, are
increasingly integrated into chat assistants and other consumer AI
applications. Without proper safeguards, however, VLMs may give harmful advice
(e.g. how to self-harm) or encourage unsafe behaviours (e.g. to consume drugs).
Despite these clear hazards, little work so far has evaluated VLM safety and
the novel risks created by multimodal inputs. To address this gap, we introduce
MSTS, a Multimodal Safety Test Suite for VLMs. MSTS comprises 400 test prompts
across 40 fine-grained hazard categories. Each test prompt consists of a text
and an image that only in combination reveal their full unsafe meaning. With
MSTS, we find clear safety issues in several open VLMs. We also find some VLMs
to be safe by accident, meaning that they are safe because they fail to
understand even simple test prompts. We translate MSTS into ten languages,
showing non-English prompts to increase the rate of unsafe model responses. We
also show models to be safer when tested with text only rather than multimodal
prompts. Finally, we explore the automation of VLM safety assessments, finding
even the best safety classifiers to be lacking.Summary
AI-Generated Summary