ChatPaper.aiChatPaper

Audio Jailbreak: Открытый всеобъемлющий бенчмарк для взлома крупных аудио-языковых моделей

Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models

May 21, 2025
Авторы: Zirui Song, Qian Jiang, Mingxuan Cui, Mingzhe Li, Lang Gao, Zeyu Zhang, Zixiang Xu, Yanbo Wang, Chenxi Wang, Guangxian Ouyang, Zhenhao Chen, Xiuying Chen
cs.AI

Аннотация

Появление крупных аудио-языковых моделей (LAMs) несет в себе как потенциал, так и риски, поскольку их аудиовыходы могут содержать вредоносный или неэтичный контент. Однако текущие исследования не предлагают систематической количественной оценки безопасности LAMs, особенно в отношении атак jailbreak, которые представляют сложность из-за временной и семантической природы речи. Чтобы восполнить этот пробел, мы представляем AJailBench — первый бенчмарк, специально разработанный для оценки уязвимостей jailbreak в LAMs. Мы начинаем с создания AJailBench-Base, набора данных из 1 495 адверсариальных аудиоподсказок, охватывающих 10 категорий, нарушающих политики, преобразованных из текстовых атак jailbreak с использованием реалистичного синтеза речи. Используя этот набор данных, мы оцениваем несколько современных LAMs и обнаруживаем, что ни одна из них не демонстрирует устойчивости ко всем атакам. Для дальнейшего усиления тестирования jailbreak и моделирования более реалистичных условий атак мы предлагаем метод генерации динамических адверсариальных вариантов. Наш инструмент Audio Perturbation Toolkit (APT) применяет целевые искажения в временной, частотной и амплитудной областях. Чтобы сохранить исходный замысел jailbreak, мы применяем ограничение семантической согласованности и используем байесовскую оптимизацию для эффективного поиска возмущений, которые одновременно незаметны и высокоэффективны. Это приводит к созданию AJailBench-APT, расширенного набора данных оптимизированных адверсариальных аудиосэмплов. Наши результаты показывают, что даже небольшие, семантически сохраненные возмущения могут значительно снизить показатели безопасности ведущих LAMs, подчеркивая необходимость более устойчивых и семантически осознанных механизмов защиты.
English
The rise of Large Audio Language Models (LAMs) brings both potential and risks, as their audio outputs may contain harmful or unethical content. However, current research lacks a systematic, quantitative evaluation of LAM safety especially against jailbreak attacks, which are challenging due to the temporal and semantic nature of speech. To bridge this gap, we introduce AJailBench, the first benchmark specifically designed to evaluate jailbreak vulnerabilities in LAMs. We begin by constructing AJailBench-Base, a dataset of 1,495 adversarial audio prompts spanning 10 policy-violating categories, converted from textual jailbreak attacks using realistic text to speech synthesis. Using this dataset, we evaluate several state-of-the-art LAMs and reveal that none exhibit consistent robustness across attacks. To further strengthen jailbreak testing and simulate more realistic attack conditions, we propose a method to generate dynamic adversarial variants. Our Audio Perturbation Toolkit (APT) applies targeted distortions across time, frequency, and amplitude domains. To preserve the original jailbreak intent, we enforce a semantic consistency constraint and employ Bayesian optimization to efficiently search for perturbations that are both subtle and highly effective. This results in AJailBench-APT, an extended dataset of optimized adversarial audio samples. Our findings demonstrate that even small, semantically preserved perturbations can significantly reduce the safety performance of leading LAMs, underscoring the need for more robust and semantically aware defense mechanisms.

Summary

AI-Generated Summary

PDF42May 22, 2025