ChatPaper.aiChatPaper

Audio Jailbreak : Un Benchmark Ouvert et Complet pour le Contournement des Grands Modèles Audio-Linguistiques

Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models

May 21, 2025
Auteurs: Zirui Song, Qian Jiang, Mingxuan Cui, Mingzhe Li, Lang Gao, Zeyu Zhang, Zixiang Xu, Yanbo Wang, Chenxi Wang, Guangxian Ouyang, Zhenhao Chen, Xiuying Chen
cs.AI

Résumé

L'essor des modèles de langage audio de grande envergure (LAMs) apporte à la fois des opportunités et des risques, car leurs sorties audio peuvent contenir des contenus nuisibles ou contraires à l'éthique. Cependant, les recherches actuelles manquent d'une évaluation systématique et quantitative de la sécurité des LAMs, en particulier face aux attaques de contournement (jailbreak), qui sont complexes en raison de la nature temporelle et sémantique de la parole. Pour combler cette lacune, nous introduisons AJailBench, le premier benchmark spécifiquement conçu pour évaluer les vulnérabilités de contournement dans les LAMs. Nous commençons par construire AJailBench-Base, un ensemble de données comprenant 1 495 invites audio adverses couvrant 10 catégories de violations de politiques, converties à partir d'attaques de contournement textuelles en utilisant une synthèse vocale réaliste. En utilisant cet ensemble de données, nous évaluons plusieurs LAMs de pointe et révélons qu'aucun ne présente une robustesse constante face aux attaques. Pour renforcer davantage les tests de contournement et simuler des conditions d'attaque plus réalistes, nous proposons une méthode pour générer des variantes adverses dynamiques. Notre Audio Perturbation Toolkit (APT) applique des distorsions ciblées dans les domaines temporel, fréquentiel et d'amplitude. Pour préserver l'intention de contournement originale, nous imposons une contrainte de cohérence sémantique et utilisons l'optimisation bayésienne pour rechercher efficacement des perturbations à la fois subtiles et très efficaces. Cela aboutit à AJailBench-APT, un ensemble de données étendu d'échantillons audio adverses optimisés. Nos résultats démontrent que même de petites perturbations, préservant la sémantique, peuvent réduire significativement la performance de sécurité des LAMs leaders, soulignant la nécessité de mécanismes de défense plus robustes et conscients de la sémantique.
English
The rise of Large Audio Language Models (LAMs) brings both potential and risks, as their audio outputs may contain harmful or unethical content. However, current research lacks a systematic, quantitative evaluation of LAM safety especially against jailbreak attacks, which are challenging due to the temporal and semantic nature of speech. To bridge this gap, we introduce AJailBench, the first benchmark specifically designed to evaluate jailbreak vulnerabilities in LAMs. We begin by constructing AJailBench-Base, a dataset of 1,495 adversarial audio prompts spanning 10 policy-violating categories, converted from textual jailbreak attacks using realistic text to speech synthesis. Using this dataset, we evaluate several state-of-the-art LAMs and reveal that none exhibit consistent robustness across attacks. To further strengthen jailbreak testing and simulate more realistic attack conditions, we propose a method to generate dynamic adversarial variants. Our Audio Perturbation Toolkit (APT) applies targeted distortions across time, frequency, and amplitude domains. To preserve the original jailbreak intent, we enforce a semantic consistency constraint and employ Bayesian optimization to efficiently search for perturbations that are both subtle and highly effective. This results in AJailBench-APT, an extended dataset of optimized adversarial audio samples. Our findings demonstrate that even small, semantically preserved perturbations can significantly reduce the safety performance of leading LAMs, underscoring the need for more robust and semantically aware defense mechanisms.

Summary

AI-Generated Summary

PDF42May 22, 2025