OmniSafeBench-MM: 멀티모달 재택공격-방어 평가를 위한 통합 벤치마크 및 툴박스
OmniSafeBench-MM: A Unified Benchmark and Toolbox for Multimodal Jailbreak Attack-Defense Evaluation
December 6, 2025
저자: Xiaojun Jia, Jie Liao, Qi Guo, Teng Ma, Simeng Qin, Ranjie Duan, Tianlin Li, Yihao Huang, Zhitao Zeng, Dongxian Wu, Yiming Li, Wenqi Ren, Xiaochun Cao, Yang Liu
cs.AI
초록
멀티모달 대규모 언어 모델(MLLMs)의 최근 발전은 통합된 인지-추론 능력을 가능하게 했지만, 이러한 시스템들은 여전히 안전 조정을 우회하고 유해한 행동을 유도하는 탈옥 공격에 매우 취약합니다. JailBreakV-28K, MM-SafetyBench, HADES와 같은 기존 벤치마크는 멀티모달 취약성에 대한 유용한 통찰력을 제공하지만, 일반적으로 제한된 공격 시나리오에 초점을 맞추고, 표준화된 방어 평가가 부족하며, 통일되고 재현 가능한 도구 상자를 제공하지 않습니다. 이러한 격차를 해결하기 위해 우리는 멀티모달 탈옥 공격-방어 평가를 위한 포괄적인 도구 상자인 OmniSafeBench-MM을 소개합니다. OmniSafeBench-MM은 13가지 대표적인 공격 방법, 15가지 방어 전략, 그리고 현실적인 사용자 의도를 반영하기 위해 자문형, 명령형, 평서형 질의 유형으로 구조화된 9개 주요 위험 영역과 50개의 세분화된 범주를 아우르는 다양한 데이터셋을 통합합니다. 데이터 범위를 넘어, 이 도구 상자는 (1) 낮은 영향의 개인적 피해부터 재앙적인 사회적 위협까지 세분화된 다단계 척도로 구분되는 유해성, (2) 응답과 질의 간의 의도 일치도, (3) 응답의 상세 수준을 측정하는 3차원 평가 프로토콜을 확립하여 미묘한 안전성-유용성 분석을 가능하게 합니다. 우리는 10개의 오픈소스와 8개의 클로즈드소스 MLLM에 대한 광범위한 실험을 수행하여 멀티모달 탈옥에 대한 이들의 취약성을 밝혔습니다. 데이터, 방법론, 평가를 오픈소스이면서 재현 가능한 플랫폼으로 통합함으로써, OmniSafeBench-MM은 향후 연구를 위한 표준화된 기반을 제공합니다. 코드는 https://github.com/jiaxiaojunQAQ/OmniSafeBench-MM에서 공개되었습니다.
English
Recent advances in multi-modal large language models (MLLMs) have enabled unified perception-reasoning capabilities, yet these systems remain highly vulnerable to jailbreak attacks that bypass safety alignment and induce harmful behaviors. Existing benchmarks such as JailBreakV-28K, MM-SafetyBench, and HADES provide valuable insights into multi-modal vulnerabilities, but they typically focus on limited attack scenarios, lack standardized defense evaluation, and offer no unified, reproducible toolbox. To address these gaps, we introduce OmniSafeBench-MM, which is a comprehensive toolbox for multi-modal jailbreak attack-defense evaluation. OmniSafeBench-MM integrates 13 representative attack methods, 15 defense strategies, and a diverse dataset spanning 9 major risk domains and 50 fine-grained categories, structured across consultative, imperative, and declarative inquiry types to reflect realistic user intentions. Beyond data coverage, it establishes a three-dimensional evaluation protocol measuring (1) harmfulness, distinguished by a granular, multi-level scale ranging from low-impact individual harm to catastrophic societal threats, (2) intent alignment between responses and queries, and (3) response detail level, enabling nuanced safety-utility analysis. We conduct extensive experiments on 10 open-source and 8 closed-source MLLMs to reveal their vulnerability to multi-modal jailbreak. By unifying data, methodology, and evaluation into an open-source, reproducible platform, OmniSafeBench-MM provides a standardized foundation for future research. The code is released at https://github.com/jiaxiaojunQAQ/OmniSafeBench-MM.