OmniSafeBench-MM : Un banc d'essai et une boîte à outils unifiés pour l'évaluation multimodale des attaques par contournement et des défenses
OmniSafeBench-MM: A Unified Benchmark and Toolbox for Multimodal Jailbreak Attack-Defense Evaluation
December 6, 2025
papers.authors: Xiaojun Jia, Jie Liao, Qi Guo, Teng Ma, Simeng Qin, Ranjie Duan, Tianlin Li, Yihao Huang, Zhitao Zeng, Dongxian Wu, Yiming Li, Wenqi Ren, Xiaochun Cao, Yang Liu
cs.AI
papers.abstract
Les récents progrès des modèles de langage multimodaux (MLLMs) ont permis le développement de capacités unifiées de perception et de raisonnement. Cependant, ces systèmes restent très vulnérables aux attaques de contournement (« jailbreak ») qui neutralisent les mécanismes de sécurité et induisent des comportements nuisibles. Les référentiels existants, tels que JailBreakV-28K, MM-SafetyBench et HADES, offrent des informations précieuses sur les vulnérabilités multimodales, mais ils se concentrent généralement sur des scénarios d'attaque limités, manquent d'une évaluation standardisée des défenses et ne fournissent pas de boîte à outils unifiée et reproductible. Pour combler ces lacunes, nous présentons OmniSafeBench-MM, une boîte à outils complète pour l'évaluation des attaques et défenses de contournement multimodal. OmniSafeBench-MM intègre 13 méthodes d'attaque représentatives, 15 stratégies de défense et un jeu de données diversifié couvrant 9 domaines de risque principaux et 50 catégories fines, structuré selon des types de requêtes consultatives, impératives et déclaratives pour refléter les intentions réalistes des utilisateurs. Au-delà de la couverture des données, il établit un protocole d'évaluation tridimensionnel mesurant (1) la nocivité, distinguée par une échelle granulaire et multi-niveaux allant des préjudices individuels à faible impact aux menaces sociétales catastrophiques, (2) l'alignement de l'intention entre les réponses et les requêtes, et (3) le niveau de détail des réponses, permettant une analyse nuancée de l'équilibre sécurité-utilité. Nous menons des expériences approfondies sur 10 MLLMs open-source et 8 MLLMs propriétaires pour révéler leur vulnérabilité au contournement multimodal. En unifiant les données, la méthodologie et l'évaluation dans une plateforme open-source et reproductible, OmniSafeBench-MM fournit une base standardisée pour la recherche future. Le code est disponible à l'adresse https://github.com/jiaxiaojunQAQ/OmniSafeBench-MM.
English
Recent advances in multi-modal large language models (MLLMs) have enabled unified perception-reasoning capabilities, yet these systems remain highly vulnerable to jailbreak attacks that bypass safety alignment and induce harmful behaviors. Existing benchmarks such as JailBreakV-28K, MM-SafetyBench, and HADES provide valuable insights into multi-modal vulnerabilities, but they typically focus on limited attack scenarios, lack standardized defense evaluation, and offer no unified, reproducible toolbox. To address these gaps, we introduce OmniSafeBench-MM, which is a comprehensive toolbox for multi-modal jailbreak attack-defense evaluation. OmniSafeBench-MM integrates 13 representative attack methods, 15 defense strategies, and a diverse dataset spanning 9 major risk domains and 50 fine-grained categories, structured across consultative, imperative, and declarative inquiry types to reflect realistic user intentions. Beyond data coverage, it establishes a three-dimensional evaluation protocol measuring (1) harmfulness, distinguished by a granular, multi-level scale ranging from low-impact individual harm to catastrophic societal threats, (2) intent alignment between responses and queries, and (3) response detail level, enabling nuanced safety-utility analysis. We conduct extensive experiments on 10 open-source and 8 closed-source MLLMs to reveal their vulnerability to multi-modal jailbreak. By unifying data, methodology, and evaluation into an open-source, reproducible platform, OmniSafeBench-MM provides a standardized foundation for future research. The code is released at https://github.com/jiaxiaojunQAQ/OmniSafeBench-MM.