ChatPaper.aiChatPaper

Audio Jailbreak: Um Benchmark Aberto e Abrangente para Jailbreaking de Grandes Modelos de Áudio e Linguagem

Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models

May 21, 2025
Autores: Zirui Song, Qian Jiang, Mingxuan Cui, Mingzhe Li, Lang Gao, Zeyu Zhang, Zixiang Xu, Yanbo Wang, Chenxi Wang, Guangxian Ouyang, Zhenhao Chen, Xiuying Chen
cs.AI

Resumo

O surgimento dos Grandes Modelos de Linguagem de Áudio (LAMs) traz tanto potencial quanto riscos, já que suas saídas de áudio podem conter conteúdo prejudicial ou antiético. No entanto, as pesquisas atuais carecem de uma avaliação sistemática e quantitativa da segurança dos LAMs, especialmente contra ataques de jailbreak, que são desafiadores devido à natureza temporal e semântica da fala. Para preencher essa lacuna, apresentamos o AJailBench, o primeiro benchmark especificamente projetado para avaliar vulnerabilidades de jailbreak em LAMs. Começamos construindo o AJailBench-Base, um conjunto de dados com 1.495 prompts de áudio adversariais abrangendo 10 categorias que violam políticas, convertidos a partir de ataques de jailbreak textuais usando síntese de texto para fala realista. Utilizando esse conjunto de dados, avaliamos vários LAMs de ponta e revelamos que nenhum deles exibe robustez consistente contra os ataques. Para fortalecer ainda mais os testes de jailbreak e simular condições de ataque mais realistas, propomos um método para gerar variantes adversariais dinâmicas. Nosso Kit de Ferramentas de Perturbação de Áudio (APT) aplica distorções direcionadas nos domínios de tempo, frequência e amplitude. Para preservar a intenção original do jailbreak, impomos uma restrição de consistência semântica e empregamos otimização bayesiana para buscar eficientemente perturbações que sejam sutis e altamente eficazes. Isso resulta no AJailBench-APT, um conjunto de dados estendido de amostras de áudio adversariais otimizadas. Nossos achados demonstram que até mesmo pequenas perturbações, semanticamente preservadas, podem reduzir significativamente o desempenho de segurança dos principais LAMs, destacando a necessidade de mecanismos de defesa mais robustos e semanticamente conscientes.
English
The rise of Large Audio Language Models (LAMs) brings both potential and risks, as their audio outputs may contain harmful or unethical content. However, current research lacks a systematic, quantitative evaluation of LAM safety especially against jailbreak attacks, which are challenging due to the temporal and semantic nature of speech. To bridge this gap, we introduce AJailBench, the first benchmark specifically designed to evaluate jailbreak vulnerabilities in LAMs. We begin by constructing AJailBench-Base, a dataset of 1,495 adversarial audio prompts spanning 10 policy-violating categories, converted from textual jailbreak attacks using realistic text to speech synthesis. Using this dataset, we evaluate several state-of-the-art LAMs and reveal that none exhibit consistent robustness across attacks. To further strengthen jailbreak testing and simulate more realistic attack conditions, we propose a method to generate dynamic adversarial variants. Our Audio Perturbation Toolkit (APT) applies targeted distortions across time, frequency, and amplitude domains. To preserve the original jailbreak intent, we enforce a semantic consistency constraint and employ Bayesian optimization to efficiently search for perturbations that are both subtle and highly effective. This results in AJailBench-APT, an extended dataset of optimized adversarial audio samples. Our findings demonstrate that even small, semantically preserved perturbations can significantly reduce the safety performance of leading LAMs, underscoring the need for more robust and semantically aware defense mechanisms.
PDF52December 8, 2025