오디오 탈옥: 대규모 오디오-언어 모델 탈옥을 위한 공개적이고 포괄적인 벤치마크
Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models
May 21, 2025
저자: Zirui Song, Qian Jiang, Mingxuan Cui, Mingzhe Li, Lang Gao, Zeyu Zhang, Zixiang Xu, Yanbo Wang, Chenxi Wang, Guangxian Ouyang, Zhenhao Chen, Xiuying Chen
cs.AI
초록
대규모 오디오 언어 모델(LAMs)의 등장은 잠재력과 위험을 동시에 가져왔으며, 이들의 오디오 출력은 유해하거나 비윤리적인 내용을 포함할 가능성이 있습니다. 그러나 현재 연구에서는 특히 음성의 시간적, 의미적 특성으로 인해 도전적인 jailbreak 공격에 대한 LAM의 안전성을 체계적이고 정량적으로 평가하는 데 부족함이 있습니다. 이러한 격차를 해소하기 위해, 우리는 LAM의 jailbreak 취약성을 평가하기 위해 특별히 설계된 첫 번째 벤치마크인 AJailBench을 소개합니다. 우리는 먼저 10개의 정책 위반 범주에 걸친 1,495개의 적대적 오디오 프롬프트로 구성된 AJailBench-Base 데이터셋을 구축했습니다. 이 데이터셋은 현실적인 텍스트-음성 합성을 사용하여 텍스트 기반 jailbreak 공격을 변환한 것입니다. 이 데이터셋을 사용하여 여러 최신 LAM을 평가한 결과, 어떤 모델도 공격 전반에 걸쳐 일관된 견고성을 보이지 않음을 확인했습니다. jailbreak 테스트를 더욱 강화하고 더 현실적인 공격 조건을 시뮬레이션하기 위해, 우리는 동적 적대적 변이를 생성하는 방법을 제안합니다. 우리의 오디오 왜곡 도구(Audio Perturbation Toolkit, APT)는 시간, 주파수, 진폭 영역에 걸쳐 표적 왜곡을 적용합니다. 원래의 jailbreak 의도를 보존하기 위해, 우리는 의미적 일관성 제약을 강제하고 베이지안 최적화를 사용하여 미묘하면서도 매우 효과적인 왜곡을 효율적으로 탐색합니다. 이를 통해 최적화된 적대적 오디오 샘플로 구성된 확장 데이터셋인 AJailBench-APT가 생성됩니다. 우리의 연구 결과는 작고 의미적으로 보존된 왜곡이라도 주요 LAM의 안전성 성능을 크게 저하시킬 수 있음을 보여주며, 더 견고하고 의미를 인지한 방어 메커니즘의 필요성을 강조합니다.
English
The rise of Large Audio Language Models (LAMs) brings both potential and
risks, as their audio outputs may contain harmful or unethical content.
However, current research lacks a systematic, quantitative evaluation of LAM
safety especially against jailbreak attacks, which are challenging due to the
temporal and semantic nature of speech. To bridge this gap, we introduce
AJailBench, the first benchmark specifically designed to evaluate jailbreak
vulnerabilities in LAMs. We begin by constructing AJailBench-Base, a dataset of
1,495 adversarial audio prompts spanning 10 policy-violating categories,
converted from textual jailbreak attacks using realistic text to speech
synthesis. Using this dataset, we evaluate several state-of-the-art LAMs and
reveal that none exhibit consistent robustness across attacks. To further
strengthen jailbreak testing and simulate more realistic attack conditions, we
propose a method to generate dynamic adversarial variants. Our Audio
Perturbation Toolkit (APT) applies targeted distortions across time, frequency,
and amplitude domains. To preserve the original jailbreak intent, we enforce a
semantic consistency constraint and employ Bayesian optimization to efficiently
search for perturbations that are both subtle and highly effective. This
results in AJailBench-APT, an extended dataset of optimized adversarial audio
samples. Our findings demonstrate that even small, semantically preserved
perturbations can significantly reduce the safety performance of leading LAMs,
underscoring the need for more robust and semantically aware defense
mechanisms.Summary
AI-Generated Summary