ChatPaper.aiChatPaper

Sicurezza Situazionale Multimodale

Multimodal Situational Safety

October 8, 2024
Autori: Kaiwen Zhou, Chengzhi Liu, Xuandong Zhao, Anderson Compalas, Dawn Song, Xin Eric Wang
cs.AI

Abstract

I Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) stanno evolvendo rapidamente, dimostrando capacità impressionanti come assistenti multimodali che interagiscono sia con gli esseri umani che con i loro ambienti. Tuttavia, questa crescente sofisticazione introduce significativi problemi di sicurezza. In questo articolo, presentiamo la prima valutazione e analisi di una nuova sfida di sicurezza denominata Sicurezza Situazionale Multimodale, che esplora come le considerazioni sulla sicurezza variano in base alla situazione specifica in cui l'utente o l'agente è coinvolto. Sosteniamo che affinché un MLLM risponda in modo sicuro, sia attraverso il linguaggio che con azioni, spesso deve valutare le implicazioni sulla sicurezza di una query linguistica all'interno del contesto visivo corrispondente. Per valutare questa capacità, sviluppiamo il benchmark Sicurezza Situazionale Multimodale (MSSBench) per valutare le prestazioni di sicurezza situazionale dei MLLM attuali. Il dataset comprende 1.820 coppie di query linguistiche e immagini, di cui metà con un contesto visivo sicuro e l'altra metà non sicuro. Sviluppiamo inoltre un framework di valutazione che analizza gli aspetti chiave della sicurezza, inclusa la ragionamento esplicito sulla sicurezza, la comprensione visiva e, soprattutto, il ragionamento sulla sicurezza situazionale. I nostri risultati rivelano che i MLLM attuali faticano con questo problema di sicurezza sfumato nell'ambiente di seguire le istruzioni e hanno difficoltà a affrontare contemporaneamente queste sfide di sicurezza situazionale, evidenziando un'area chiave per la ricerca futura. Inoltre, sviluppiamo pipeline multi-agente per risolvere coordinatamente le sfide di sicurezza, che mostrano un miglioramento costante nella sicurezza rispetto alla risposta originale del MLLM. Codice e dati: mssbench.github.io.
English
Multimodal Large Language Models (MLLMs) are rapidly evolving, demonstrating impressive capabilities as multimodal assistants that interact with both humans and their environments. However, this increased sophistication introduces significant safety concerns. In this paper, we present the first evaluation and analysis of a novel safety challenge termed Multimodal Situational Safety, which explores how safety considerations vary based on the specific situation in which the user or agent is engaged. We argue that for an MLLM to respond safely, whether through language or action, it often needs to assess the safety implications of a language query within its corresponding visual context. To evaluate this capability, we develop the Multimodal Situational Safety benchmark (MSSBench) to assess the situational safety performance of current MLLMs. The dataset comprises 1,820 language query-image pairs, half of which the image context is safe, and the other half is unsafe. We also develop an evaluation framework that analyzes key safety aspects, including explicit safety reasoning, visual understanding, and, crucially, situational safety reasoning. Our findings reveal that current MLLMs struggle with this nuanced safety problem in the instruction-following setting and struggle to tackle these situational safety challenges all at once, highlighting a key area for future research. Furthermore, we develop multi-agent pipelines to coordinately solve safety challenges, which shows consistent improvement in safety over the original MLLM response. Code and data: mssbench.github.io.
PDF112November 16, 2024