다중 모달 상황 안전
Multimodal Situational Safety
October 8, 2024
저자: Kaiwen Zhou, Chengzhi Liu, Xuandong Zhao, Anderson Compalas, Dawn Song, Xin Eric Wang
cs.AI
초록
다중 모달 대형 언어 모델(MLLMs)은 빠르게 발전하며 인간 및 환경과 상호 작용하는 다중 모달 어시스턴트로서 인상적인 능력을 나타냅니다. 그러나 이러한 증가된 복잡성은 중요한 안전 문제를 도입합니다. 본 논문에서는 다중 모달 상황 안전(Multimodal Situational Safety)이라는 새로운 안전 도전 과제를 평가하고 분석하는 첫 번째 연구를 제시합니다. 이 도전 과제는 사용자 또는 에이전트가 참여하는 특정 상황에 따라 안전 고려 사항이 어떻게 다양하게 변하는지 탐구합니다. 우리는 MLLM이 언어나 행동을 통해 안전하게 응답하기 위해서는 종종 해당 시각적 맥락 내에서 언어 쿼리의 안전성 영향을 평가해야 한다고 주장합니다. 이 능력을 평가하기 위해 현재 MLLM의 상황 안전성 성능을 평가하는 다중 모달 상황 안전성 벤치마크(MSSBench)를 개발합니다. 이 데이터셋은 1,820개의 언어 쿼리-이미지 쌍으로 구성되어 있으며, 이미지 컨텍스트의 절반은 안전하고 다른 절반은 위험합니다. 또한 명시적 안전 추론, 시각적 이해 및 상황 안전 추론을 포함한 주요 안전 측면을 분석하는 평가 프레임워크를 개발합니다. 우리의 연구 결과는 현재 MLLM이 이러한 미묘한 안전 문제와 상황적 안전 도전에 어려움을 겪으며 지시 따르기 환경에서 이러한 상황적 안전 도전을 동시에 해결하는 데 어려움을 겪는다는 것을 밝혀내며, 향후 연구의 주요 분야를 강조합니다. 더불어, 우리는 안전 도전을 협력적으로 해결하기 위해 다중 에이전트 파이프라인을 개발하였으며, 이는 원래 MLLM 응답보다 일관된 안전성 향상을 보여줍니다. 코드 및 데이터: mssbench.github.io.
English
Multimodal Large Language Models (MLLMs) are rapidly evolving, demonstrating
impressive capabilities as multimodal assistants that interact with both humans
and their environments. However, this increased sophistication introduces
significant safety concerns. In this paper, we present the first evaluation and
analysis of a novel safety challenge termed Multimodal Situational Safety,
which explores how safety considerations vary based on the specific situation
in which the user or agent is engaged. We argue that for an MLLM to respond
safely, whether through language or action, it often needs to assess the safety
implications of a language query within its corresponding visual context. To
evaluate this capability, we develop the Multimodal Situational Safety
benchmark (MSSBench) to assess the situational safety performance of current
MLLMs. The dataset comprises 1,820 language query-image pairs, half of which
the image context is safe, and the other half is unsafe. We also develop an
evaluation framework that analyzes key safety aspects, including explicit
safety reasoning, visual understanding, and, crucially, situational safety
reasoning. Our findings reveal that current MLLMs struggle with this nuanced
safety problem in the instruction-following setting and struggle to tackle
these situational safety challenges all at once, highlighting a key area for
future research. Furthermore, we develop multi-agent pipelines to coordinately
solve safety challenges, which shows consistent improvement in safety over the
original MLLM response. Code and data: mssbench.github.io.Summary
AI-Generated Summary