OmniSafeBench-MM: Um Benchmark e Kit de Ferramentas Unificado para Avaliação de Ataques e Defesas de Jailbreak Multimodal

Resumo

Os recentes avanços nos modelos de linguagem grandes multimodais (MLLMs) permitiram capacidades unificadas de percepção-raciocínio, no entanto, esses sistemas permanecem altamente vulneráveis a ataques de "jailbreak" que contornam o alinhamento de segurança e induzem comportamentos prejudiciais. Benchmarks existentes, como JailBreakV-28K, MM-SafetyBench e HADES, fornecem insights valiosos sobre vulnerabilidades multimodais, mas normalmente focam em cenários de ataque limitados, carecem de avaliação padronizada de defesa e não oferecem uma caixa de ferramentas unificada e reproduzível. Para sanar essas lacunas, introduzimos o OmniSafeBench-MM, uma caixa de ferramentas abrangente para avaliação de ataque-defesa de "jailbreak" multimodal. O OmniSafeBench-MM integra 13 métodos de ataque representativos, 15 estratégias de defesa e um conjunto de dados diversificado abrangendo 9 domínios de risco principais e 50 categorias detalhadas, estruturadas em tipos de consulta consultivos, imperativos e declarativos para refletir intenções realistas do usuário. Além da cobertura de dados, ele estabelece um protocolo de avaliação tridimensional medindo (1) o grau de prejudicialidade, distinguido por uma escala granular e multinível que varia desde danos individuais de baixo impacto até ameaças societais catastróficas, (2) o alinhamento de intenção entre respostas e consultas, e (3) o nível de detalhe da resposta, permitindo uma análise matizada de segurança-utilidade. Realizamos experimentos extensos em 10 MLLMs de código aberto e 8 de código fechado para revelar sua vulnerabilidade ao "jailbreak" multimodal. Ao unificar dados, metodologia e avaliação em uma plataforma reproduzível e de código aberto, o OmniSafeBench-MM fornece uma base padronizada para pesquisas futuras. O código está disponível em https://github.com/jiaxiaojunQAQ/OmniSafeBench-MM.

English

Recent advances in multi-modal large language models (MLLMs) have enabled unified perception-reasoning capabilities, yet these systems remain highly vulnerable to jailbreak attacks that bypass safety alignment and induce harmful behaviors. Existing benchmarks such as JailBreakV-28K, MM-SafetyBench, and HADES provide valuable insights into multi-modal vulnerabilities, but they typically focus on limited attack scenarios, lack standardized defense evaluation, and offer no unified, reproducible toolbox. To address these gaps, we introduce OmniSafeBench-MM, which is a comprehensive toolbox for multi-modal jailbreak attack-defense evaluation. OmniSafeBench-MM integrates 13 representative attack methods, 15 defense strategies, and a diverse dataset spanning 9 major risk domains and 50 fine-grained categories, structured across consultative, imperative, and declarative inquiry types to reflect realistic user intentions. Beyond data coverage, it establishes a three-dimensional evaluation protocol measuring (1) harmfulness, distinguished by a granular, multi-level scale ranging from low-impact individual harm to catastrophic societal threats, (2) intent alignment between responses and queries, and (3) response detail level, enabling nuanced safety-utility analysis. We conduct extensive experiments on 10 open-source and 8 closed-source MLLMs to reveal their vulnerability to multi-modal jailbreak. By unifying data, methodology, and evaluation into an open-source, reproducible platform, OmniSafeBench-MM provides a standardized foundation for future research. The code is released at https://github.com/jiaxiaojunQAQ/OmniSafeBench-MM.

OmniSafeBench-MM: Um Benchmark e Kit de Ferramentas Unificado para Avaliação de Ataques e Defesas de Jailbreak Multimodal

OmniSafeBench-MM: A Unified Benchmark and Toolbox for Multimodal Jailbreak Attack-Defense Evaluation

Resumo

Support