話者の感情変動に伴う大規模音声言語モデルの安全性脆弱性の調査
Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations
October 19, 2025
著者: Bo-Han Feng, Chien-Feng Liu, Yu-Hsuan Li Liang, Chih-Kai Yang, Szu-Wei Fu, Zhehuai Chen, Ke-Han Lu, Sung-Feng Huang, Chao-Han Huck Yang, Yu-Chiang Frank Wang, Yun-Nung Chen, Hung-yi Lee
cs.AI
要旨
大規模音声言語モデル(LALM)は、テキストベースの大規模言語モデルを聴覚的理解によって拡張し、マルチモーダル応用における新たな可能性を開くものである。その知覚・推論能力やタスク性能については広く研究が進められている一方で、パラ言語的変動下での安全性調整(セーフティアライメント)は未開拓の領域である。本研究では、話者の感情が及ぼす影響を体系的に検証する。複数の感情とその強度で表現された悪意ある音声指示から成るデータセットを構築し、いくつかの最先端LALMを評価した。結果、顕著な安全性の不整合が明らかとなった:異なる感情は不均一なレベルの不安全な応答を誘発し、強度の影響は非単調であり、中程度の感情表現が最も高いリスクをもたらす場合が多い。これらの知見は、LALMにおける見過ごされていた脆弱性を浮き彫りにするとともに、感情変動下での堅牢性を保証するために明示的に設計された調整戦略の必要性を示唆する。これは実世界での信頼できる展開における前提条件である。
English
Large audio-language models (LALMs) extend text-based LLMs with auditory
understanding, offering new opportunities for multimodal applications. While
their perception, reasoning, and task performance have been widely studied,
their safety alignment under paralinguistic variation remains underexplored.
This work systematically investigates the role of speaker emotion. We construct
a dataset of malicious speech instructions expressed across multiple emotions
and intensities, and evaluate several state-of-the-art LALMs. Our results
reveal substantial safety inconsistencies: different emotions elicit varying
levels of unsafe responses, and the effect of intensity is non-monotonic, with
medium expressions often posing the greatest risk. These findings highlight an
overlooked vulnerability in LALMs and call for alignment strategies explicitly
designed to ensure robustness under emotional variation, a prerequisite for
trustworthy deployment in real-world settings.