ChatPaper.aiChatPaper

OmniSafeBench-MM: Un Benchmark e Toolbox Unificato per la Valutazione di Attacchi e Difese Multimodali di Jailbreak

OmniSafeBench-MM: A Unified Benchmark and Toolbox for Multimodal Jailbreak Attack-Defense Evaluation

December 6, 2025
Autori: Xiaojun Jia, Jie Liao, Qi Guo, Teng Ma, Simeng Qin, Ranjie Duan, Tianlin Li, Yihao Huang, Zhitao Zeng, Dongxian Wu, Yiming Li, Wenqi Ren, Xiaochun Cao, Yang Liu
cs.AI

Abstract

I recenti progressi nei modelli linguistici multimodali di grandi dimensioni (MLLM) hanno consentito capacità unificate di percezione-ragionamento, eppure questi sistemi rimangono altamente vulnerabili ad attacchi di jailbreak che aggirano l'allineamento di sicurezza e inducono comportamenti dannosi. Benchmark esistenti come JailBreakV-28K, MM-SafetyBench e HADES forniscono spunti preziosi sulle vulnerabilità multimodali, ma tipicamente si concentrano su scenari di attacco limitati, mancano di una valutazione standardizzata delle difese e non offrono un toolbox unificato e riproducibile. Per colmare queste lacune, introduciamo OmniSafeBench-MM, un toolbox completo per la valutazione attacco-difesa del jailbreak multimodale. OmniSafeBench-MM integra 13 metodi di attacco rappresentativi, 15 strategie di difesa e un dataset diversificato che abbraccia 9 principali domini di rischio e 50 categorie granulari, strutturato attraverso tipi di interrogazione consultivi, imperativi e dichiarativi per riflettere le intenzioni realistiche dell'utente. Oltre alla copertura dei dati, stabilisce un protocollo di valutazione tridimensionale che misura (1) la dannosità, distinta da una scala granulare e multilivello che va dal danno individuale a basso impatto alle minacce sociali catastrofiche, (2) l'allineamento dell'intenzione tra risposte e query, e (3) il livello di dettaglio della risposta, consentendo un'analisi sfumata del compromesso sicurezza-utilità. Condurremo esperimenti estesi su 10 MLLM open-source e 8 closed-source per rivelare la loro vulnerabilità al jailbreak multimodale. Unificando dati, metodologia e valutazione in una piattaforma open-source e riproducibile, OmniSafeBench-MM fornisce una base standardizzata per la ricerca futura. Il codice è rilasciato all'indirizzo https://github.com/jiaxiaojunQAQ/OmniSafeBench-MM.
English
Recent advances in multi-modal large language models (MLLMs) have enabled unified perception-reasoning capabilities, yet these systems remain highly vulnerable to jailbreak attacks that bypass safety alignment and induce harmful behaviors. Existing benchmarks such as JailBreakV-28K, MM-SafetyBench, and HADES provide valuable insights into multi-modal vulnerabilities, but they typically focus on limited attack scenarios, lack standardized defense evaluation, and offer no unified, reproducible toolbox. To address these gaps, we introduce OmniSafeBench-MM, which is a comprehensive toolbox for multi-modal jailbreak attack-defense evaluation. OmniSafeBench-MM integrates 13 representative attack methods, 15 defense strategies, and a diverse dataset spanning 9 major risk domains and 50 fine-grained categories, structured across consultative, imperative, and declarative inquiry types to reflect realistic user intentions. Beyond data coverage, it establishes a three-dimensional evaluation protocol measuring (1) harmfulness, distinguished by a granular, multi-level scale ranging from low-impact individual harm to catastrophic societal threats, (2) intent alignment between responses and queries, and (3) response detail level, enabling nuanced safety-utility analysis. We conduct extensive experiments on 10 open-source and 8 closed-source MLLMs to reveal their vulnerability to multi-modal jailbreak. By unifying data, methodology, and evaluation into an open-source, reproducible platform, OmniSafeBench-MM provides a standardized foundation for future research. The code is released at https://github.com/jiaxiaojunQAQ/OmniSafeBench-MM.
PDF72December 10, 2025