ChatPaper.aiChatPaper

Seguridad Situacional Multimodal

Multimodal Situational Safety

October 8, 2024
Autores: Kaiwen Zhou, Chengzhi Liu, Xuandong Zhao, Anderson Compalas, Dawn Song, Xin Eric Wang
cs.AI

Resumen

Los Modelos de Lenguaje Multimodal Grande (MLLMs) están evolucionando rápidamente, demostrando capacidades impresionantes como asistentes multimodales que interactúan tanto con humanos como con sus entornos. Sin embargo, esta mayor sofisticación introduce preocupaciones significativas de seguridad. En este documento, presentamos la primera evaluación y análisis de un nuevo desafío de seguridad denominado Seguridad Situacional Multimodal, que explora cómo las consideraciones de seguridad varían según la situación específica en la que el usuario o agente está involucrado. Sostenemos que para que un MLLM responda de manera segura, ya sea a través del lenguaje o la acción, a menudo necesita evaluar las implicaciones de seguridad de una consulta de lenguaje dentro de su contexto visual correspondiente. Para evaluar esta capacidad, desarrollamos el banco de pruebas de Seguridad Situacional Multimodal (MSSBench) para evaluar el rendimiento de seguridad situacional de los MLLMs actuales. El conjunto de datos consta de 1,820 pares de consulta de lenguaje-imagen, la mitad de los cuales tiene un contexto de imagen seguro y la otra mitad es insegura. También desarrollamos un marco de evaluación que analiza aspectos clave de seguridad, incluido el razonamiento de seguridad explícito, la comprensión visual y, crucialmente, el razonamiento de seguridad situacional. Nuestros hallazgos revelan que los MLLMs actuales tienen dificultades con este problema de seguridad sutil en el entorno de seguimiento de instrucciones y luchan por abordar estos desafíos de seguridad situacional de una vez, resaltando un área clave para futuras investigaciones. Además, desarrollamos tuberías de múltiples agentes para resolver coordinadamente desafíos de seguridad, lo que muestra una mejora consistente en la seguridad respecto a la respuesta original del MLLM. Código y datos: mssbench.github.io.
English
Multimodal Large Language Models (MLLMs) are rapidly evolving, demonstrating impressive capabilities as multimodal assistants that interact with both humans and their environments. However, this increased sophistication introduces significant safety concerns. In this paper, we present the first evaluation and analysis of a novel safety challenge termed Multimodal Situational Safety, which explores how safety considerations vary based on the specific situation in which the user or agent is engaged. We argue that for an MLLM to respond safely, whether through language or action, it often needs to assess the safety implications of a language query within its corresponding visual context. To evaluate this capability, we develop the Multimodal Situational Safety benchmark (MSSBench) to assess the situational safety performance of current MLLMs. The dataset comprises 1,820 language query-image pairs, half of which the image context is safe, and the other half is unsafe. We also develop an evaluation framework that analyzes key safety aspects, including explicit safety reasoning, visual understanding, and, crucially, situational safety reasoning. Our findings reveal that current MLLMs struggle with this nuanced safety problem in the instruction-following setting and struggle to tackle these situational safety challenges all at once, highlighting a key area for future research. Furthermore, we develop multi-agent pipelines to coordinately solve safety challenges, which shows consistent improvement in safety over the original MLLM response. Code and data: mssbench.github.io.

Summary

AI-Generated Summary

PDF112November 16, 2024