ChatPaper.aiChatPaper

SpeechGuard: 멀티모달 대형 언어 모델의 적대적 강건성 탐구

SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models

May 14, 2024
저자: Raghuveer Peri, Sai Muralidhar Jayanthi, Srikanth Ronanki, Anshu Bhatia, Karel Mundnich, Saket Dingliwal, Nilaksh Das, Zejiang Hou, Goeric Huybrechts, Srikanth Vishnubhotla, Daniel Garcia-Romero, Sundararajan Srinivasan, Kyu J Han, Katrin Kirchhoff
cs.AI

초록

음성 명령을 이해하고 관련 텍스트 응답을 생성할 수 있는 통합 음성 및 대형 언어 모델(SLMs)이 최근 인기를 얻고 있습니다. 그러나 이러한 모델의 안전성과 견고성은 여전히 불분명한 상태입니다. 본 연구에서는 이러한 명령 수행 음성-언어 모델이 적대적 공격과 탈옥(jailbreaking)에 취약할 가능성을 조사합니다. 구체적으로, 우리는 인간의 개입 없이도 화이트박스 및 블랙박스 공격 환경에서 SLMs를 탈옥시킬 수 있는 적대적 예제를 생성하는 알고리즘을 설계합니다. 또한, 이러한 탈옥 공격을 방어하기 위한 대응책을 제안합니다. 음성 명령이 포함된 대화 데이터로 학습된 우리의 모델은 음성 질의응답 작업에서 최첨단 성능을 달성하며, 안전성과 유용성 지표 모두에서 80% 이상의 점수를 기록했습니다. 안전 장치가 있음에도 불구하고, 탈옥 실험은 SLMs가 적대적 섭동과 전이 공격에 취약함을 보여주었으며, 12가지 유해 범주에 걸쳐 신중하게 설계된 유해 질문 데이터셋에서 평균 공격 성공률이 각각 90%와 10%로 나타났습니다. 그러나 우리가 제안한 대응책이 공격 성공률을 크게 감소시킴을 입증했습니다.
English
Integrated Speech and Large Language Models (SLMs) that can follow speech instructions and generate relevant text responses have gained popularity lately. However, the safety and robustness of these models remains largely unclear. In this work, we investigate the potential vulnerabilities of such instruction-following speech-language models to adversarial attacks and jailbreaking. Specifically, we design algorithms that can generate adversarial examples to jailbreak SLMs in both white-box and black-box attack settings without human involvement. Additionally, we propose countermeasures to thwart such jailbreaking attacks. Our models, trained on dialog data with speech instructions, achieve state-of-the-art performance on spoken question-answering task, scoring over 80% on both safety and helpfulness metrics. Despite safety guardrails, experiments on jailbreaking demonstrate the vulnerability of SLMs to adversarial perturbations and transfer attacks, with average attack success rates of 90% and 10% respectively when evaluated on a dataset of carefully designed harmful questions spanning 12 different toxic categories. However, we demonstrate that our proposed countermeasures reduce the attack success significantly.

Summary

AI-Generated Summary

PDF130December 15, 2024