ChatPaper.aiChatPaper

Audio Jailbreak: Un Benchmark Aperto e Completo per il Jailbreaking di Grandi Modelli Audio-Linguistici

Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models

May 21, 2025
Autori: Zirui Song, Qian Jiang, Mingxuan Cui, Mingzhe Li, Lang Gao, Zeyu Zhang, Zixiang Xu, Yanbo Wang, Chenxi Wang, Guangxian Ouyang, Zhenhao Chen, Xiuying Chen
cs.AI

Abstract

L'ascesa dei Large Audio Language Models (LAMs) porta con sé sia potenzialità che rischi, poiché i loro output audio possono contenere contenuti dannosi o non etici. Tuttavia, la ricerca attuale manca di una valutazione sistematica e quantitativa della sicurezza dei LAM, specialmente contro gli attacchi di jailbreak, che sono particolarmente impegnativi a causa della natura temporale e semantica del parlato. Per colmare questa lacuna, introduciamo AJailBench, il primo benchmark specificamente progettato per valutare le vulnerabilità di jailbreak nei LAM. Iniziamo costruendo AJailBench-Base, un dataset di 1.495 prompt audio avversari che coprono 10 categorie di violazioni delle policy, convertiti da attacchi di jailbreak testuali utilizzando una sintesi vocale realistica. Utilizzando questo dataset, valutiamo diversi LAM all'avanguardia e riveliamo che nessuno di essi mostra una robustezza consistente contro gli attacchi. Per rafforzare ulteriormente i test di jailbreak e simulare condizioni di attacco più realistiche, proponiamo un metodo per generare varianti avversarie dinamiche. Il nostro Audio Perturbation Toolkit (APT) applica distorsioni mirate nei domini del tempo, della frequenza e dell'ampiezza. Per preservare l'intento originale del jailbreak, imponiamo un vincolo di coerenza semantica e utilizziamo l'ottimizzazione bayesiana per cercare in modo efficiente perturbazioni che siano sia sottili che altamente efficaci. Questo porta alla creazione di AJailBench-APT, un dataset esteso di campioni audio avversari ottimizzati. I nostri risultati dimostrano che anche piccole perturbazioni, semanticamente preservate, possono ridurre significativamente le prestazioni di sicurezza dei principali LAM, sottolineando la necessità di meccanismi di difesa più robusti e semanticamente consapevoli.
English
The rise of Large Audio Language Models (LAMs) brings both potential and risks, as their audio outputs may contain harmful or unethical content. However, current research lacks a systematic, quantitative evaluation of LAM safety especially against jailbreak attacks, which are challenging due to the temporal and semantic nature of speech. To bridge this gap, we introduce AJailBench, the first benchmark specifically designed to evaluate jailbreak vulnerabilities in LAMs. We begin by constructing AJailBench-Base, a dataset of 1,495 adversarial audio prompts spanning 10 policy-violating categories, converted from textual jailbreak attacks using realistic text to speech synthesis. Using this dataset, we evaluate several state-of-the-art LAMs and reveal that none exhibit consistent robustness across attacks. To further strengthen jailbreak testing and simulate more realistic attack conditions, we propose a method to generate dynamic adversarial variants. Our Audio Perturbation Toolkit (APT) applies targeted distortions across time, frequency, and amplitude domains. To preserve the original jailbreak intent, we enforce a semantic consistency constraint and employ Bayesian optimization to efficiently search for perturbations that are both subtle and highly effective. This results in AJailBench-APT, an extended dataset of optimized adversarial audio samples. Our findings demonstrate that even small, semantically preserved perturbations can significantly reduce the safety performance of leading LAMs, underscoring the need for more robust and semantically aware defense mechanisms.
PDF52May 22, 2025