대화자 감정 변화에 따른 대형 오디오-언어 모델의 안전 취약점 분석
Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations
October 19, 2025
저자: Bo-Han Feng, Chien-Feng Liu, Yu-Hsuan Li Liang, Chih-Kai Yang, Szu-Wei Fu, Zhehuai Chen, Ke-Han Lu, Sung-Feng Huang, Chao-Han Huck Yang, Yu-Chiang Frank Wang, Yun-Nung Chen, Hung-yi Lee
cs.AI
초록
대규모 오디오-언어 모델(LALMs)은 텍스트 기반 대규모 언어 모델을 청각적 이해 능력으로 확장하여 다중 모달 응용 분야에 새로운 가능성을 제시합니다. 인지, 추론 및 과제 수행 능력은 광범위하게 연구되었으나, 준언어적 변형 조건에서의 안전성 정렬은 아직 충분히 탐구되지 않았습니다. 본 연구는 화자의 감정 역할을 체계적으로 조사합니다. 다양한 감정과 강도로 표현된 악성 음성 지시 데이터셋을 구축하고 여러 최신 LALMs를 평가한 결과, 상당한 안전성 불일치가 확인되었습니다. 서로 다른 감정이 다양한 수준의 안전하지 않은 응답을 유발하며, 강도 영향은 비단조적이어서 중간 강도 표현이 가장 큰 위험을 초래하는 경우가 많았습니다. 이러한 결과는 LALMs에서 간과된 취약성을 부각시키며, 감정 변동 하에서 견고성을 보장하기 위해 명시적으로 설계된 정렬 전략의 필요성을 시사합니다. 이는 실제 환경에서 신뢰할 수 있는 배포를 위한 선행 조건입니다.
English
Large audio-language models (LALMs) extend text-based LLMs with auditory
understanding, offering new opportunities for multimodal applications. While
their perception, reasoning, and task performance have been widely studied,
their safety alignment under paralinguistic variation remains underexplored.
This work systematically investigates the role of speaker emotion. We construct
a dataset of malicious speech instructions expressed across multiple emotions
and intensities, and evaluate several state-of-the-art LALMs. Our results
reveal substantial safety inconsistencies: different emotions elicit varying
levels of unsafe responses, and the effect of intensity is non-monotonic, with
medium expressions often posing the greatest risk. These findings highlight an
overlooked vulnerability in LALMs and call for alignment strategies explicitly
designed to ensure robustness under emotional variation, a prerequisite for
trustworthy deployment in real-world settings.