Sécurité situationnelle multimodale
Multimodal Situational Safety
October 8, 2024
Auteurs: Kaiwen Zhou, Chengzhi Liu, Xuandong Zhao, Anderson Compalas, Dawn Song, Xin Eric Wang
cs.AI
Résumé
Les Modèles de Langage Multimodaux à Grande Échelle (MLLM) évoluent rapidement, démontrant des capacités impressionnantes en tant qu'assistants multimodaux interagissant à la fois avec les humains et leur environnement. Cependant, cette sophistication accrue soulève des préoccupations importantes en matière de sécurité. Dans cet article, nous présentons la première évaluation et analyse d'un nouveau défi de sécurité appelé Sécurité Situationnelle Multimodale, qui explore comment les considérations de sécurité varient en fonction de la situation spécifique dans laquelle l'utilisateur ou l'agent est impliqué. Nous soutenons que pour qu'un MLLM réponde de manière sécurisée, que ce soit par le langage ou par l'action, il doit souvent évaluer les implications de sécurité d'une requête linguistique dans son contexte visuel correspondant. Pour évaluer cette capacité, nous développons le banc d'essai de Sécurité Situationnelle Multimodale (MSSBench) afin d'évaluer les performances de sécurité situationnelle des MLLM actuels. Le jeu de données comprend 1 820 paires de requêtes linguistiques et d'images, dont la moitié présente un contexte d'image sûr et l'autre moitié est dangereuse. Nous développons également un cadre d'évaluation qui analyse les aspects clés de sécurité, y compris le raisonnement explicite sur la sécurité, la compréhension visuelle et, surtout, le raisonnement sur la sécurité situationnelle. Nos résultats révèlent que les MLLM actuels rencontrent des difficultés avec ce problème de sécurité nuancé dans le cadre de suivi des instructions et ont du mal à relever ces défis de sécurité situationnelle tous en même temps, mettant en évidence un domaine clé pour les futures recherches. De plus, nous développons des pipelines multi-agents pour résoudre de manière coordonnée les défis de sécurité, ce qui montre une amélioration constante de la sécurité par rapport à la réponse initiale du MLLM. Code et données : mssbench.github.io.
English
Multimodal Large Language Models (MLLMs) are rapidly evolving, demonstrating
impressive capabilities as multimodal assistants that interact with both humans
and their environments. However, this increased sophistication introduces
significant safety concerns. In this paper, we present the first evaluation and
analysis of a novel safety challenge termed Multimodal Situational Safety,
which explores how safety considerations vary based on the specific situation
in which the user or agent is engaged. We argue that for an MLLM to respond
safely, whether through language or action, it often needs to assess the safety
implications of a language query within its corresponding visual context. To
evaluate this capability, we develop the Multimodal Situational Safety
benchmark (MSSBench) to assess the situational safety performance of current
MLLMs. The dataset comprises 1,820 language query-image pairs, half of which
the image context is safe, and the other half is unsafe. We also develop an
evaluation framework that analyzes key safety aspects, including explicit
safety reasoning, visual understanding, and, crucially, situational safety
reasoning. Our findings reveal that current MLLMs struggle with this nuanced
safety problem in the instruction-following setting and struggle to tackle
these situational safety challenges all at once, highlighting a key area for
future research. Furthermore, we develop multi-agent pipelines to coordinately
solve safety challenges, which shows consistent improvement in safety over the
original MLLM response. Code and data: mssbench.github.io.Summary
AI-Generated Summary