ChatPaper.aiChatPaper

OmniSafeBench-MM:マルチモーダルジェイルブレイク攻撃防御評価のための統合ベンチマークとツールボックス

OmniSafeBench-MM: A Unified Benchmark and Toolbox for Multimodal Jailbreak Attack-Defense Evaluation

December 6, 2025
著者: Xiaojun Jia, Jie Liao, Qi Guo, Teng Ma, Simeng Qin, Ranjie Duan, Tianlin Li, Yihao Huang, Zhitao Zeng, Dongxian Wu, Yiming Li, Wenqi Ren, Xiaochun Cao, Yang Liu
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLM)の最近の進歩により、知覚と推論を統合した能力が実現されているものの、これらのシステムは依然として安全性調整を回避し有害な振る舞いを誘発するジェイルブレイク攻撃に対して極めて脆弱である。既存のベンチマークであるJailBreakV-28K、MM-SafetyBench、HADESはマルチモーダル脆弱性に関する貴重な知見を提供するが、典型的には限定的な攻撃シナリオに焦点を当て、標準化された防御評価を欠き、統一された再現可能なツールボックスを提供していない。これらの課題を解決するため、我々はマルチモーダルジェイルブレイク攻防評価のための包括的ツールボックス「OmniSafeBench-MM」を提案する。OmniSafeBench-MMは、13の代表的な攻撃手法、15の防御戦略、および現実的なユーザー意図を反映するため協議型・命令型・宣言型の問い合わせ類型で構造化された9大リスク領域・50細粒度カテゴリにわたる多様なデータセットを統合する。データ網羅性に加え、(1)低影響な個人危害から壊滅的社会脅威まで段階的に区別した詳細な危害度尺度、(2)応答と問い合わせの意図整合性、(3)応答詳細度の3次元評価プロトコルを確立し、繊細な安全性と有用性の分析を可能とする。10のオープンソースおよび8のクローズドソースMLLMに対し広範な実験を実施し、マルチモーダルジェイルブレイクに対する脆弱性を明らかにした。データ・手法・評価をオープンソースの再現可能プラットフォームに統合することで、OmniSafeBench-MMは将来研究のための標準化基盤を提供する。コードはhttps://github.com/jiaxiaojunQAQ/OmniSafeBench-MM で公開されている。
English
Recent advances in multi-modal large language models (MLLMs) have enabled unified perception-reasoning capabilities, yet these systems remain highly vulnerable to jailbreak attacks that bypass safety alignment and induce harmful behaviors. Existing benchmarks such as JailBreakV-28K, MM-SafetyBench, and HADES provide valuable insights into multi-modal vulnerabilities, but they typically focus on limited attack scenarios, lack standardized defense evaluation, and offer no unified, reproducible toolbox. To address these gaps, we introduce OmniSafeBench-MM, which is a comprehensive toolbox for multi-modal jailbreak attack-defense evaluation. OmniSafeBench-MM integrates 13 representative attack methods, 15 defense strategies, and a diverse dataset spanning 9 major risk domains and 50 fine-grained categories, structured across consultative, imperative, and declarative inquiry types to reflect realistic user intentions. Beyond data coverage, it establishes a three-dimensional evaluation protocol measuring (1) harmfulness, distinguished by a granular, multi-level scale ranging from low-impact individual harm to catastrophic societal threats, (2) intent alignment between responses and queries, and (3) response detail level, enabling nuanced safety-utility analysis. We conduct extensive experiments on 10 open-source and 8 closed-source MLLMs to reveal their vulnerability to multi-modal jailbreak. By unifying data, methodology, and evaluation into an open-source, reproducible platform, OmniSafeBench-MM provides a standardized foundation for future research. The code is released at https://github.com/jiaxiaojunQAQ/OmniSafeBench-MM.
PDF72December 10, 2025