OmniSafeBench-MM: Een Uniforme Benchmark en Toolbox voor de Evaluatie van Multimodale Jailbreak Aanval-Verdediging
OmniSafeBench-MM: A Unified Benchmark and Toolbox for Multimodal Jailbreak Attack-Defense Evaluation
December 6, 2025
Auteurs: Xiaojun Jia, Jie Liao, Qi Guo, Teng Ma, Simeng Qin, Ranjie Duan, Tianlin Li, Yihao Huang, Zhitao Zeng, Dongxian Wu, Yiming Li, Wenqi Ren, Xiaochun Cao, Yang Liu
cs.AI
Samenvatting
Recente vooruitgang in multimodale grote taalmodellen (MLLM's) heeft geünificeerde perceptie-redeneercapaciteiten mogelijk gemaakt, maar deze systemen blijven zeer kwetsbaar voor jailbreak-aanvallen die de veiligheidsafstemming omzeilen en schadelijk gedrag veroorzaken. Bestaande benchmarks zoals JailBreakV-28K, MM-SafetyBench en HADES bieden waardevolle inzichten in multimodale kwetsbaarheden, maar richten zich doorgaans op beperkte aanvalscenario's, ontberen gestandaardiseerde verdedigingsevaluatie en bieden geen geünificeerde, reproduceerbare toolbox. Om deze lacunes aan te pakken, introduceren wij OmniSafeBench-MM, een uitgebreide toolbox voor de evaluatie van multimodale jailbreak-aanval-verdediging. OmniSafeBench-MM integreert 13 representatieve aanvalsmethoden, 15 verdedigingsstrategieën en een diverse dataset die 9 grote risicodomeinen en 50 fijnmazige categorieën omspant, gestructureerd volgens adviserende, imperatieve en verklarende vraagtypen om realistische gebruikersintenties te weerspiegelen. Naast datadekking stelt het een driedimensionaal evaluatieprotocol in dat meet (1) schadelijkheid, onderscheiden door een gedetailleerde, meerlagige schaal variërend van laagimpact individuele schade tot catastrofale maatschappelijke bedreigingen, (2) intentie-afstemming tussen antwoorden en vragen, en (3) detailniveau van antwoorden, waardoor een genuanceerde veiligheid-nut-analyse mogelijk is. Wij voeren uitgebreide experimenten uit op 10 open-source en 8 closed-source MLLM's om hun kwetsbaarheid voor multimodale jailbreaks bloot te leggen. Door data, methodologie en evaluatie te verenigen in een open-source, reproduceerbaar platform, biedt OmniSafeBench-MM een gestandaardiseerde basis voor toekomstig onderzoek. De code is vrijgegeven op https://github.com/jiaxiaojunQAQ/OmniSafeBench-MM.
English
Recent advances in multi-modal large language models (MLLMs) have enabled unified perception-reasoning capabilities, yet these systems remain highly vulnerable to jailbreak attacks that bypass safety alignment and induce harmful behaviors. Existing benchmarks such as JailBreakV-28K, MM-SafetyBench, and HADES provide valuable insights into multi-modal vulnerabilities, but they typically focus on limited attack scenarios, lack standardized defense evaluation, and offer no unified, reproducible toolbox. To address these gaps, we introduce OmniSafeBench-MM, which is a comprehensive toolbox for multi-modal jailbreak attack-defense evaluation. OmniSafeBench-MM integrates 13 representative attack methods, 15 defense strategies, and a diverse dataset spanning 9 major risk domains and 50 fine-grained categories, structured across consultative, imperative, and declarative inquiry types to reflect realistic user intentions. Beyond data coverage, it establishes a three-dimensional evaluation protocol measuring (1) harmfulness, distinguished by a granular, multi-level scale ranging from low-impact individual harm to catastrophic societal threats, (2) intent alignment between responses and queries, and (3) response detail level, enabling nuanced safety-utility analysis. We conduct extensive experiments on 10 open-source and 8 closed-source MLLMs to reveal their vulnerability to multi-modal jailbreak. By unifying data, methodology, and evaluation into an open-source, reproducible platform, OmniSafeBench-MM provides a standardized foundation for future research. The code is released at https://github.com/jiaxiaojunQAQ/OmniSafeBench-MM.