OmniSafeBench-MM: Um Benchmark e Kit de Ferramentas Unificado para Avaliação de Ataques e Defesas de Jailbreak Multimodal
OmniSafeBench-MM: A Unified Benchmark and Toolbox for Multimodal Jailbreak Attack-Defense Evaluation
December 6, 2025
Autores: Xiaojun Jia, Jie Liao, Qi Guo, Teng Ma, Simeng Qin, Ranjie Duan, Tianlin Li, Yihao Huang, Zhitao Zeng, Dongxian Wu, Yiming Li, Wenqi Ren, Xiaochun Cao, Yang Liu
cs.AI
Resumo
Os recentes avanços nos modelos de linguagem grandes multimodais (MLLMs) permitiram capacidades unificadas de percepção-raciocínio, no entanto, esses sistemas permanecem altamente vulneráveis a ataques de "jailbreak" que contornam o alinhamento de segurança e induzem comportamentos prejudiciais. Benchmarks existentes, como JailBreakV-28K, MM-SafetyBench e HADES, fornecem insights valiosos sobre vulnerabilidades multimodais, mas normalmente focam em cenários de ataque limitados, carecem de avaliação padronizada de defesa e não oferecem uma caixa de ferramentas unificada e reproduzível. Para sanar essas lacunas, introduzimos o OmniSafeBench-MM, uma caixa de ferramentas abrangente para avaliação de ataque-defesa de "jailbreak" multimodal. O OmniSafeBench-MM integra 13 métodos de ataque representativos, 15 estratégias de defesa e um conjunto de dados diversificado abrangendo 9 domínios de risco principais e 50 categorias detalhadas, estruturadas em tipos de consulta consultivos, imperativos e declarativos para refletir intenções realistas do usuário. Além da cobertura de dados, ele estabelece um protocolo de avaliação tridimensional medindo (1) o grau de prejudicialidade, distinguido por uma escala granular e multinível que varia desde danos individuais de baixo impacto até ameaças societais catastróficas, (2) o alinhamento de intenção entre respostas e consultas, e (3) o nível de detalhe da resposta, permitindo uma análise matizada de segurança-utilidade. Realizamos experimentos extensos em 10 MLLMs de código aberto e 8 de código fechado para revelar sua vulnerabilidade ao "jailbreak" multimodal. Ao unificar dados, metodologia e avaliação em uma plataforma reproduzível e de código aberto, o OmniSafeBench-MM fornece uma base padronizada para pesquisas futuras. O código está disponível em https://github.com/jiaxiaojunQAQ/OmniSafeBench-MM.
English
Recent advances in multi-modal large language models (MLLMs) have enabled unified perception-reasoning capabilities, yet these systems remain highly vulnerable to jailbreak attacks that bypass safety alignment and induce harmful behaviors. Existing benchmarks such as JailBreakV-28K, MM-SafetyBench, and HADES provide valuable insights into multi-modal vulnerabilities, but they typically focus on limited attack scenarios, lack standardized defense evaluation, and offer no unified, reproducible toolbox. To address these gaps, we introduce OmniSafeBench-MM, which is a comprehensive toolbox for multi-modal jailbreak attack-defense evaluation. OmniSafeBench-MM integrates 13 representative attack methods, 15 defense strategies, and a diverse dataset spanning 9 major risk domains and 50 fine-grained categories, structured across consultative, imperative, and declarative inquiry types to reflect realistic user intentions. Beyond data coverage, it establishes a three-dimensional evaluation protocol measuring (1) harmfulness, distinguished by a granular, multi-level scale ranging from low-impact individual harm to catastrophic societal threats, (2) intent alignment between responses and queries, and (3) response detail level, enabling nuanced safety-utility analysis. We conduct extensive experiments on 10 open-source and 8 closed-source MLLMs to reveal their vulnerability to multi-modal jailbreak. By unifying data, methodology, and evaluation into an open-source, reproducible platform, OmniSafeBench-MM provides a standardized foundation for future research. The code is released at https://github.com/jiaxiaojunQAQ/OmniSafeBench-MM.