ChatPaper.aiChatPaper

Audio Jailbreak: Un Punto de Referencia Abierto y Exhaustivo para la Vulneración de Grandes Modelos de Audio y Lenguaje

Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models

May 21, 2025
Autores: Zirui Song, Qian Jiang, Mingxuan Cui, Mingzhe Li, Lang Gao, Zeyu Zhang, Zixiang Xu, Yanbo Wang, Chenxi Wang, Guangxian Ouyang, Zhenhao Chen, Xiuying Chen
cs.AI

Resumen

El auge de los Modelos de Lenguaje de Audio a Gran Escala (LAMs, por sus siglas en inglés) conlleva tanto potencial como riesgos, ya que sus salidas de audio pueden contener contenido dañino o poco ético. Sin embargo, la investigación actual carece de una evaluación sistemática y cuantitativa de la seguridad de los LAMs, especialmente frente a ataques de jailbreak, los cuales son desafiantes debido a la naturaleza temporal y semántica del habla. Para abordar esta brecha, presentamos AJailBench, el primer punto de referencia diseñado específicamente para evaluar las vulnerabilidades de jailbreak en los LAMs. Comenzamos construyendo AJailBench-Base, un conjunto de datos de 1,495 indicaciones de audio adversarias que abarcan 10 categorías que violan políticas, convertidas a partir de ataques de jailbreak textuales utilizando síntesis de texto a voz realista. Utilizando este conjunto de datos, evaluamos varios LAMs de vanguardia y revelamos que ninguno muestra una robustez consistente frente a los ataques. Para fortalecer aún más las pruebas de jailbreak y simular condiciones de ataque más realistas, proponemos un método para generar variantes adversarias dinámicas. Nuestro Kit de Herramientas de Perturbación de Audio (APT, por sus siglas en inglés) aplica distorsiones específicas en los dominios de tiempo, frecuencia y amplitud. Para preservar la intención original del jailbreak, imponemos una restricción de consistencia semántica y empleamos optimización bayesiana para buscar de manera eficiente perturbaciones que sean tanto sutiles como altamente efectivas. Esto da como resultado AJailBench-APT, un conjunto de datos extendido de muestras de audio adversarias optimizadas. Nuestros hallazgos demuestran que incluso pequeñas perturbaciones, que preservan la semántica, pueden reducir significativamente el rendimiento de seguridad de los LAMs líderes, subrayando la necesidad de mecanismos de defensa más robustos y conscientes de la semántica.
English
The rise of Large Audio Language Models (LAMs) brings both potential and risks, as their audio outputs may contain harmful or unethical content. However, current research lacks a systematic, quantitative evaluation of LAM safety especially against jailbreak attacks, which are challenging due to the temporal and semantic nature of speech. To bridge this gap, we introduce AJailBench, the first benchmark specifically designed to evaluate jailbreak vulnerabilities in LAMs. We begin by constructing AJailBench-Base, a dataset of 1,495 adversarial audio prompts spanning 10 policy-violating categories, converted from textual jailbreak attacks using realistic text to speech synthesis. Using this dataset, we evaluate several state-of-the-art LAMs and reveal that none exhibit consistent robustness across attacks. To further strengthen jailbreak testing and simulate more realistic attack conditions, we propose a method to generate dynamic adversarial variants. Our Audio Perturbation Toolkit (APT) applies targeted distortions across time, frequency, and amplitude domains. To preserve the original jailbreak intent, we enforce a semantic consistency constraint and employ Bayesian optimization to efficiently search for perturbations that are both subtle and highly effective. This results in AJailBench-APT, an extended dataset of optimized adversarial audio samples. Our findings demonstrate that even small, semantically preserved perturbations can significantly reduce the safety performance of leading LAMs, underscoring the need for more robust and semantically aware defense mechanisms.

Summary

AI-Generated Summary

PDF42May 22, 2025