OmniSafeBench-MM: Un Benchmark y Caja de Herramientas Unificados para la Evaluación de Ataques y Defensas Multimodales de Jailbreak
OmniSafeBench-MM: A Unified Benchmark and Toolbox for Multimodal Jailbreak Attack-Defense Evaluation
December 6, 2025
Autores: Xiaojun Jia, Jie Liao, Qi Guo, Teng Ma, Simeng Qin, Ranjie Duan, Tianlin Li, Yihao Huang, Zhitao Zeng, Dongxian Wu, Yiming Li, Wenqi Ren, Xiaochun Cao, Yang Liu
cs.AI
Resumen
Los recientes avances en los modelos de lenguaje grande multimodal (MLLM) han permitido capacidades unificadas de percepción-razonamiento; sin embargo, estos sistemas siguen siendo altamente vulnerables a ataques de jailbreak que evaden la alineación de seguridad e inducen comportamientos dañinos. Los benchmarks existentes, como JailBreakV-28K, MM-SafetyBench y HADES, ofrecen información valiosa sobre las vulnerabilidades multimodales, pero generalmente se centran en escenarios de ataque limitados, carecen de una evaluación estandarizada de defensas y no proporcionan una caja de herramientas unificada y reproducible. Para abordar estas limitaciones, presentamos OmniSafeBench-MM, una caja de herramientas integral para la evaluación de ataques y defensas de jailbreak multimodal. OmniSafeBench-MM integra 13 métodos de ataque representativos, 15 estrategias de defensa y un conjunto de datos diverso que abarca 9 dominios principales de riesgo y 50 categorías detalladas, estructuradas en tipos de consulta consultivos, imperativos y declarativos para reflejar intenciones de usuario realistas. Más allá de la cobertura de datos, establece un protocolo de evaluación tridimensional que mide (1) el nivel de daño, distinguido por una escala granular y multinivel que va desde daños individuales de bajo impacto hasta amenazas sociales catastróficas, (2) la alineación de intención entre respuestas y consultas, y (3) el nivel de detalle de la respuesta, permitiendo un análisis matizado de seguridad-utilidad. Realizamos experimentos exhaustivos en 10 MLLM de código abierto y 8 de código cerrado para revelar su vulnerabilidad al jailbreak multimodal. Al unificar datos, metodología y evaluación en una plataforma reproducible y de código abierto, OmniSafeBench-MM proporciona una base estandarizada para la investigación futura. El código está disponible en https://github.com/jiaxiaojunQAQ/OmniSafeBench-MM.
English
Recent advances in multi-modal large language models (MLLMs) have enabled unified perception-reasoning capabilities, yet these systems remain highly vulnerable to jailbreak attacks that bypass safety alignment and induce harmful behaviors. Existing benchmarks such as JailBreakV-28K, MM-SafetyBench, and HADES provide valuable insights into multi-modal vulnerabilities, but they typically focus on limited attack scenarios, lack standardized defense evaluation, and offer no unified, reproducible toolbox. To address these gaps, we introduce OmniSafeBench-MM, which is a comprehensive toolbox for multi-modal jailbreak attack-defense evaluation. OmniSafeBench-MM integrates 13 representative attack methods, 15 defense strategies, and a diverse dataset spanning 9 major risk domains and 50 fine-grained categories, structured across consultative, imperative, and declarative inquiry types to reflect realistic user intentions. Beyond data coverage, it establishes a three-dimensional evaluation protocol measuring (1) harmfulness, distinguished by a granular, multi-level scale ranging from low-impact individual harm to catastrophic societal threats, (2) intent alignment between responses and queries, and (3) response detail level, enabling nuanced safety-utility analysis. We conduct extensive experiments on 10 open-source and 8 closed-source MLLMs to reveal their vulnerability to multi-modal jailbreak. By unifying data, methodology, and evaluation into an open-source, reproducible platform, OmniSafeBench-MM provides a standardized foundation for future research. The code is released at https://github.com/jiaxiaojunQAQ/OmniSafeBench-MM.