OmniSafeBench-MM: Унифицированный бенчмарк и инструментарий для оценки мультимодальных джейлбрек-атак и защиты
OmniSafeBench-MM: A Unified Benchmark and Toolbox for Multimodal Jailbreak Attack-Defense Evaluation
December 6, 2025
Авторы: Xiaojun Jia, Jie Liao, Qi Guo, Teng Ma, Simeng Qin, Ranjie Duan, Tianlin Li, Yihao Huang, Zhitao Zeng, Dongxian Wu, Yiming Li, Wenqi Ren, Xiaochun Cao, Yang Liu
cs.AI
Аннотация
Последние достижения в области мультимодальных больших языковых моделей (MLLM) обеспечили единые возможности восприятия и логического вывода, однако эти системы остаются крайне уязвимыми к джейлбрек-атакам, которые обходят защитные механизмы и провоцируют вредоносное поведение. Существующие бенчмарки, такие как JailBreakV-28K, MM-SafetyBench и HADES, дают ценную информацию о мультимодальных уязвимостях, но обычно сосредоточены на ограниченных сценариях атак, не имеют стандартизированной оценки защитных механизмов и не предлагают единого воспроизводимого инструментария. Для устранения этих пробелов мы представляем OmniSafeBench-MM — комплексный инструментарий для оценки мультимодальных джейлбрек-атак и защит. OmniSafeBench-MM интегрирует 13 репрезентативных методов атак, 15 стратегий защиты и разнообразный набор данных, охватывающий 9 основных категорий рисков и 50 детализированных подкатегорий, структурированных по консультативным, императивным и декларативным типам запросов для отражения реальных намерений пользователей. Помимо охвата данных, платформа устанавливает трехмерный протокол оценки, измеряющий (1) вредоносность, дифференцированную по детализированной многуровневой шкале — от низкоуimpactного индивидуального вреда до катастрофических угроз обществу, (2) соответствие ответов намерениям, заложенным в запросах, и (3) уровень детализации ответов, что позволяет проводить тонкий анализ баланса между безопасностью и полезностью. Мы провели масштабные эксперименты на 10 открытых и 8 проприетарных MLLM, чтобы выявить их уязвимость к мультимодальным джейлбрек-атакам. Объединяя данные, методологию и оценку в открытой воспроизводимой платформе, OmniSafeBench-MM создает стандартизированную основу для будущих исследований. Код доступен по адресу https://github.com/jiaxiaojunQAQ/OmniSafeBench-MM.
English
Recent advances in multi-modal large language models (MLLMs) have enabled unified perception-reasoning capabilities, yet these systems remain highly vulnerable to jailbreak attacks that bypass safety alignment and induce harmful behaviors. Existing benchmarks such as JailBreakV-28K, MM-SafetyBench, and HADES provide valuable insights into multi-modal vulnerabilities, but they typically focus on limited attack scenarios, lack standardized defense evaluation, and offer no unified, reproducible toolbox. To address these gaps, we introduce OmniSafeBench-MM, which is a comprehensive toolbox for multi-modal jailbreak attack-defense evaluation. OmniSafeBench-MM integrates 13 representative attack methods, 15 defense strategies, and a diverse dataset spanning 9 major risk domains and 50 fine-grained categories, structured across consultative, imperative, and declarative inquiry types to reflect realistic user intentions. Beyond data coverage, it establishes a three-dimensional evaluation protocol measuring (1) harmfulness, distinguished by a granular, multi-level scale ranging from low-impact individual harm to catastrophic societal threats, (2) intent alignment between responses and queries, and (3) response detail level, enabling nuanced safety-utility analysis. We conduct extensive experiments on 10 open-source and 8 closed-source MLLMs to reveal their vulnerability to multi-modal jailbreak. By unifying data, methodology, and evaluation into an open-source, reproducible platform, OmniSafeBench-MM provides a standardized foundation for future research. The code is released at https://github.com/jiaxiaojunQAQ/OmniSafeBench-MM.