Audio Jailbreak: Ein umfassender Open-Benchmark für das Jailbreaking großer Audio-Sprachmodelle
Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models
May 21, 2025
Autoren: Zirui Song, Qian Jiang, Mingxuan Cui, Mingzhe Li, Lang Gao, Zeyu Zhang, Zixiang Xu, Yanbo Wang, Chenxi Wang, Guangxian Ouyang, Zhenhao Chen, Xiuying Chen
cs.AI
Zusammenfassung
Der Aufstieg von Large Audio Language Models (LAMs) birgt sowohl Potenzial als auch Risiken, da ihre Audioausgaben schädliche oder unethische Inhalte enthalten können. Allerdings fehlt es in der aktuellen Forschung an einer systematischen, quantitativen Bewertung der Sicherheit von LAMs, insbesondere gegenüber Jailbreak-Angriffen, die aufgrund der zeitlichen und semantischen Natur von Sprache eine Herausforderung darstellen. Um diese Lücke zu schließen, führen wir AJailBench ein, den ersten Benchmark, der speziell zur Bewertung von Jailbreak-Schwachstellen in LAMs entwickelt wurde. Wir beginnen mit der Erstellung von AJailBench-Base, einem Datensatz von 1.495 adversarischen Audio-Prompts, die 10 politikverletzende Kategorien abdecken und aus textuellen Jailbreak-Angriffen mithilfe realistischer Text-zu-Sprache-Synthese konvertiert wurden. Mit diesem Datensatz bewerten wir mehrere state-of-the-art LAMs und zeigen, dass keine durchgängige Robustheit gegenüber Angriffen aufweisen. Um die Jailbreak-Tests weiter zu stärken und realistischere Angriffsbedingungen zu simulieren, schlagen wir eine Methode zur Erzeugung dynamischer adversarischer Varianten vor. Unser Audio Perturbation Toolkit (APT) wendet gezielte Verzerrungen in den Bereichen Zeit, Frequenz und Amplitude an. Um die ursprüngliche Jailbreak-Absicht zu bewahren, setzen wir eine semantische Konsistenzbedingung durch und verwenden Bayesian Optimization, um effizient nach subtilen und hochwirksamen Perturbationen zu suchen. Dies führt zu AJailBench-APT, einem erweiterten Datensatz optimierter adversarischer Audio-Beispiele. Unsere Ergebnisse zeigen, dass selbst kleine, semantisch erhaltene Perturbationen die Sicherheitsleistung führender LAMs erheblich reduzieren können, was die Notwendigkeit robusterer und semantisch bewusster Abwehrmechanismen unterstreicht.
English
The rise of Large Audio Language Models (LAMs) brings both potential and
risks, as their audio outputs may contain harmful or unethical content.
However, current research lacks a systematic, quantitative evaluation of LAM
safety especially against jailbreak attacks, which are challenging due to the
temporal and semantic nature of speech. To bridge this gap, we introduce
AJailBench, the first benchmark specifically designed to evaluate jailbreak
vulnerabilities in LAMs. We begin by constructing AJailBench-Base, a dataset of
1,495 adversarial audio prompts spanning 10 policy-violating categories,
converted from textual jailbreak attacks using realistic text to speech
synthesis. Using this dataset, we evaluate several state-of-the-art LAMs and
reveal that none exhibit consistent robustness across attacks. To further
strengthen jailbreak testing and simulate more realistic attack conditions, we
propose a method to generate dynamic adversarial variants. Our Audio
Perturbation Toolkit (APT) applies targeted distortions across time, frequency,
and amplitude domains. To preserve the original jailbreak intent, we enforce a
semantic consistency constraint and employ Bayesian optimization to efficiently
search for perturbations that are both subtle and highly effective. This
results in AJailBench-APT, an extended dataset of optimized adversarial audio
samples. Our findings demonstrate that even small, semantically preserved
perturbations can significantly reduce the safety performance of leading LAMs,
underscoring the need for more robust and semantically aware defense
mechanisms.Summary
AI-Generated Summary