ChatPaper.aiChatPaper

OmniSafeBench-MM: Eine einheitliche Benchmark und Toolbox zur Evaluierung multimodaler Jailbreak-Angriffe und Abwehrmaßnahmen

OmniSafeBench-MM: A Unified Benchmark and Toolbox for Multimodal Jailbreak Attack-Defense Evaluation

December 6, 2025
papers.authors: Xiaojun Jia, Jie Liao, Qi Guo, Teng Ma, Simeng Qin, Ranjie Duan, Tianlin Li, Yihao Huang, Zhitao Zeng, Dongxian Wu, Yiming Li, Wenqi Ren, Xiaochun Cao, Yang Liu
cs.AI

papers.abstract

Jüngste Fortschritte bei multimodalen Large Language Models (MLLMs) haben vereinheitlichte Wahrnehmungs- und Reasoning-Fähigkeiten ermöglicht, doch diese Systeme bleiben äußerst anfällig für Jailbreak-Angriffe, die die Sicherheitsausrichtung umgehen und schädliches Verhalten hervorrufen. Bestehende Benchmarks wie JailBreakV-28K, MM-SafetyBench und HADES liefern wertvolle Einblicke in multimodale Schwachstellen, konzentrieren sich jedoch typischerweise auf begrenzte Angriffsszenarien, weisen eine fehlende standardisierte Verteidigungsevaluierung auf und bieten kein vereinheitlichtes, reproduzierbares Toolbox. Um diese Lücken zu schließen, stellen wir OmniSafeBench-MM vor, eine umfassende Toolbox zur Evaluierung multimodaler Jailbreak-Angriffe und -Abwehrmaßnahmen. OmniSafeBench-MM integriert 13 repräsentative Angriffsmethoden, 15 Verteidigungsstrategien und einen diversen Datensatz, der 9 Hauptrisikobereiche und 50 feingranulare Kategorien umfasst, strukturiert nach konsultativen, imperativen und deklarativen Abfragetypen, um realistische Nutzerabsichten widerzuspiegeln. Über die Datenabdeckung hinaus etabliert es ein dreidimensionales Evaluierungsprotokoll, das (1) die Schädlichkeit anhand einer granularen, mehrstufigen Skala von geringfügigen individuellen Schäden bis hin zu katastrophalen gesellschaftlichen Bedrohungen misst, (2) die Absichtsübereinstimmung zwischen Antworten und Anfragen bewertet und (3) das Detaillierungsniveau der Antworten analysiert, um eine nuancierte Sicherheits-Nutzwert-Analyse zu ermöglichen. Wir führen umfangreiche Experimente mit 10 Open-Source- und 8 Closed-Source-MLLMs durch, um deren Anfälligkeit für multimodale Jailbreaks aufzuzeigen. Indem OmniSafeBench-MM Daten, Methodik und Evaluierung in einer Open-Source- und reproduzierbaren Plattform vereinheitlicht, schafft es eine standardisierte Grundlage für die zukünftige Forschung. Der Code ist unter https://github.com/jiaxiaojunQAQ/OmniSafeBench-MM verfügbar.
English
Recent advances in multi-modal large language models (MLLMs) have enabled unified perception-reasoning capabilities, yet these systems remain highly vulnerable to jailbreak attacks that bypass safety alignment and induce harmful behaviors. Existing benchmarks such as JailBreakV-28K, MM-SafetyBench, and HADES provide valuable insights into multi-modal vulnerabilities, but they typically focus on limited attack scenarios, lack standardized defense evaluation, and offer no unified, reproducible toolbox. To address these gaps, we introduce OmniSafeBench-MM, which is a comprehensive toolbox for multi-modal jailbreak attack-defense evaluation. OmniSafeBench-MM integrates 13 representative attack methods, 15 defense strategies, and a diverse dataset spanning 9 major risk domains and 50 fine-grained categories, structured across consultative, imperative, and declarative inquiry types to reflect realistic user intentions. Beyond data coverage, it establishes a three-dimensional evaluation protocol measuring (1) harmfulness, distinguished by a granular, multi-level scale ranging from low-impact individual harm to catastrophic societal threats, (2) intent alignment between responses and queries, and (3) response detail level, enabling nuanced safety-utility analysis. We conduct extensive experiments on 10 open-source and 8 closed-source MLLMs to reveal their vulnerability to multi-modal jailbreak. By unifying data, methodology, and evaluation into an open-source, reproducible platform, OmniSafeBench-MM provides a standardized foundation for future research. The code is released at https://github.com/jiaxiaojunQAQ/OmniSafeBench-MM.
PDF72December 10, 2025