ChatPaper.aiChatPaper

オーディオジェイルブレイク:大規模音声言語モデルのジェイルブレイクに関するオープンで包括的なベンチマーク

Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models

May 21, 2025
著者: Zirui Song, Qian Jiang, Mingxuan Cui, Mingzhe Li, Lang Gao, Zeyu Zhang, Zixiang Xu, Yanbo Wang, Chenxi Wang, Guangxian Ouyang, Zhenhao Chen, Xiuying Chen
cs.AI

要旨

大規模音声言語モデル(LAMs)の台頭は、可能性とリスクの両方をもたらします。なぜなら、それらの音声出力には有害または非倫理的な内容が含まれる可能性があるからです。しかし、現在の研究では、特にジャイルブレイク攻撃に対するLAMの安全性を体系的かつ定量的に評価するものが不足しています。これは、音声の時間的および意味的な性質により、挑戦的な課題となっています。このギャップを埋めるため、私たちはAJailBenchを導入しました。これは、LAMのジャイルブレイク脆弱性を評価するために特別に設計された最初のベンチマークです。まず、AJailBench-Baseを構築しました。これは、10のポリシー違反カテゴリーにまたがる1,495の敵対的音声プロンプトのデータセットで、現実的なテキスト音声合成を使用してテキストジャイルブレイク攻撃から変換されたものです。このデータセットを使用して、いくつかの最先端のLAMを評価し、どのモデルも攻撃に対して一貫した堅牢性を示さないことを明らかにしました。さらに、ジャイルブレイクテストを強化し、より現実的な攻撃条件をシミュレートするために、動的敵対的バリアントを生成する方法を提案します。私たちのAudio Perturbation Toolkit(APT)は、時間、周波数、振幅の各領域にわたってターゲットを絞った歪みを適用します。元のジャイルブレイクの意図を保持するために、意味的一貫性制約を課し、ベイズ最適化を使用して、微妙で非常に効果的な摂動を効率的に探索します。これにより、AJailBench-APTという最適化された敵対的音声サンプルの拡張データセットが得られます。私たちの調査結果は、小さくても意味的に保持された摂動が、主要なLAMの安全性パフォーマンスを大幅に低下させることができることを示しており、より堅牢で意味的に認識された防御メカニズムの必要性を強調しています。
English
The rise of Large Audio Language Models (LAMs) brings both potential and risks, as their audio outputs may contain harmful or unethical content. However, current research lacks a systematic, quantitative evaluation of LAM safety especially against jailbreak attacks, which are challenging due to the temporal and semantic nature of speech. To bridge this gap, we introduce AJailBench, the first benchmark specifically designed to evaluate jailbreak vulnerabilities in LAMs. We begin by constructing AJailBench-Base, a dataset of 1,495 adversarial audio prompts spanning 10 policy-violating categories, converted from textual jailbreak attacks using realistic text to speech synthesis. Using this dataset, we evaluate several state-of-the-art LAMs and reveal that none exhibit consistent robustness across attacks. To further strengthen jailbreak testing and simulate more realistic attack conditions, we propose a method to generate dynamic adversarial variants. Our Audio Perturbation Toolkit (APT) applies targeted distortions across time, frequency, and amplitude domains. To preserve the original jailbreak intent, we enforce a semantic consistency constraint and employ Bayesian optimization to efficiently search for perturbations that are both subtle and highly effective. This results in AJailBench-APT, an extended dataset of optimized adversarial audio samples. Our findings demonstrate that even small, semantically preserved perturbations can significantly reduce the safety performance of leading LAMs, underscoring the need for more robust and semantically aware defense mechanisms.

Summary

AI-Generated Summary

PDF42May 22, 2025