Audio Jailbreak: Een Open en Uitgebreide Benchmark voor het Jailbreaken van Grote Audio-Taalmodellen
Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models
May 21, 2025
Auteurs: Zirui Song, Qian Jiang, Mingxuan Cui, Mingzhe Li, Lang Gao, Zeyu Zhang, Zixiang Xu, Yanbo Wang, Chenxi Wang, Guangxian Ouyang, Zhenhao Chen, Xiuying Chen
cs.AI
Samenvatting
De opkomst van Large Audio Language Models (LAMs) brengt zowel mogelijkheden als risico's met zich mee, aangezien hun audio-uitvoer schadelijke of onethische inhoud kan bevatten. Huidig onderzoek mist echter een systematische, kwantitatieve evaluatie van de veiligheid van LAMs, met name tegen jailbreak-aanvallen, die uitdagend zijn vanwege de temporele en semantische aard van spraak. Om deze kloof te overbruggen, introduceren we AJailBench, de eerste benchmark die specifiek is ontworpen om jailbreak-kwetsbaarheden in LAMs te evalueren. We beginnen met het construeren van AJailBench-Base, een dataset van 1.495 adversariële audio-prompten die 10 beleidsschendende categorieën omvatten, geconverteerd van tekstuele jailbreak-aanvallen met behulp van realistische tekst-naar-spraak-synthese. Met behulp van deze dataset evalueren we verschillende state-of-the-art LAMs en tonen aan dat geen van hen consistente robuustheid vertoont tegen aanvallen. Om jailbreak-testen verder te versterken en realistischere aanvalsomstandigheden te simuleren, stellen we een methode voor om dynamische adversariële varianten te genereren. Onze Audio Perturbation Toolkit (APT) past gerichte verstoringen toe in tijd-, frequentie- en amplitudedomeinen. Om de oorspronkelijke jailbreak-intentie te behouden, leggen we een semantische consistentiebeperking op en gebruiken we Bayesiaanse optimalisatie om efficiënt te zoeken naar verstoringen die zowel subtiel als zeer effectief zijn. Dit resulteert in AJailBench-APT, een uitgebreide dataset van geoptimaliseerde adversariële audio-voorbeelden. Onze bevindingen tonen aan dat zelfs kleine, semantisch behouden verstoringen de veiligheidsprestaties van toonaangevende LAMs aanzienlijk kunnen verminderen, wat de noodzaak benadrukt voor robuustere en semantisch bewuste verdedigingsmechanismen.
English
The rise of Large Audio Language Models (LAMs) brings both potential and
risks, as their audio outputs may contain harmful or unethical content.
However, current research lacks a systematic, quantitative evaluation of LAM
safety especially against jailbreak attacks, which are challenging due to the
temporal and semantic nature of speech. To bridge this gap, we introduce
AJailBench, the first benchmark specifically designed to evaluate jailbreak
vulnerabilities in LAMs. We begin by constructing AJailBench-Base, a dataset of
1,495 adversarial audio prompts spanning 10 policy-violating categories,
converted from textual jailbreak attacks using realistic text to speech
synthesis. Using this dataset, we evaluate several state-of-the-art LAMs and
reveal that none exhibit consistent robustness across attacks. To further
strengthen jailbreak testing and simulate more realistic attack conditions, we
propose a method to generate dynamic adversarial variants. Our Audio
Perturbation Toolkit (APT) applies targeted distortions across time, frequency,
and amplitude domains. To preserve the original jailbreak intent, we enforce a
semantic consistency constraint and employ Bayesian optimization to efficiently
search for perturbations that are both subtle and highly effective. This
results in AJailBench-APT, an extended dataset of optimized adversarial audio
samples. Our findings demonstrate that even small, semantically preserved
perturbations can significantly reduce the safety performance of leading LAMs,
underscoring the need for more robust and semantically aware defense
mechanisms.