ChatPaper.aiChatPaper

Segurança Situacional Multimodal

Multimodal Situational Safety

October 8, 2024
Autores: Kaiwen Zhou, Chengzhi Liu, Xuandong Zhao, Anderson Compalas, Dawn Song, Xin Eric Wang
cs.AI

Resumo

Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) estão evoluindo rapidamente, demonstrando capacidades impressionantes como assistentes multimodais que interagem tanto com humanos quanto com seus ambientes. No entanto, essa sofisticação aumentada introduz preocupações significativas de segurança. Neste artigo, apresentamos a primeira avaliação e análise de um novo desafio de segurança denominado Segurança Situacional Multimodal, que explora como as considerações de segurança variam com base na situação específica em que o usuário ou agente está envolvido. Argumentamos que, para um MLLM responder de forma segura, seja por meio de linguagem ou ação, muitas vezes precisa avaliar as implicações de segurança de uma consulta de linguagem dentro de seu contexto visual correspondente. Para avaliar essa capacidade, desenvolvemos o benchmark de Segurança Situacional Multimodal (MSSBench) para avaliar o desempenho de segurança situacional dos MLLMs atuais. O conjunto de dados é composto por 1.820 pares de consulta de linguagem-imagem, metade dos quais o contexto da imagem é seguro e a outra metade é insegura. Também desenvolvemos um framework de avaliação que analisa aspectos-chave de segurança, incluindo raciocínio explícito de segurança, compreensão visual e, crucialmente, raciocínio de segurança situacional. Nossas descobertas revelam que os MLLMs atuais enfrentam dificuldades com esse problema de segurança sutil no ambiente de seguir instruções e têm dificuldade em lidar com esses desafios de segurança situacional de uma só vez, destacando uma área-chave para pesquisas futuras. Além disso, desenvolvemos pipelines de múltiplos agentes para resolver coordenadamente desafios de segurança, o que mostra melhoria consistente na segurança em relação à resposta original do MLLM. Código e dados: mssbench.github.io.
English
Multimodal Large Language Models (MLLMs) are rapidly evolving, demonstrating impressive capabilities as multimodal assistants that interact with both humans and their environments. However, this increased sophistication introduces significant safety concerns. In this paper, we present the first evaluation and analysis of a novel safety challenge termed Multimodal Situational Safety, which explores how safety considerations vary based on the specific situation in which the user or agent is engaged. We argue that for an MLLM to respond safely, whether through language or action, it often needs to assess the safety implications of a language query within its corresponding visual context. To evaluate this capability, we develop the Multimodal Situational Safety benchmark (MSSBench) to assess the situational safety performance of current MLLMs. The dataset comprises 1,820 language query-image pairs, half of which the image context is safe, and the other half is unsafe. We also develop an evaluation framework that analyzes key safety aspects, including explicit safety reasoning, visual understanding, and, crucially, situational safety reasoning. Our findings reveal that current MLLMs struggle with this nuanced safety problem in the instruction-following setting and struggle to tackle these situational safety challenges all at once, highlighting a key area for future research. Furthermore, we develop multi-agent pipelines to coordinately solve safety challenges, which shows consistent improvement in safety over the original MLLM response. Code and data: mssbench.github.io.

Summary

AI-Generated Summary

PDF112November 16, 2024