AudioTrust: 오디오 대형 언어 모델의 다면적 신뢰성 벤치마킹
AudioTrust: Benchmarking the Multifaceted Trustworthiness of Audio Large Language Models
May 22, 2025
저자: Kai Li, Can Shen, Yile Liu, Jirui Han, Kelong Zheng, Xuechao Zou, Zhe Wang, Xingjian Du, Shun Zhang, Hanjun Luo, Yingbin Jin, Xinxin Xing, Ziyang Ma, Yue Liu, Xiaojun Jia, Yifan Zhang, Junfeng Fang, Kun Wang, Yibo Yan, Haoyang Li, Yiming Li, Xiaobin Zhuang, Yang Liu, Haibo Hu, Zhuo Chen, Zhizheng Wu, Xiaolin Hu, Eng-Siong Chng, XiaoFeng Wang, Wenyuan Xu, Wei Dong, Xinfeng Li
cs.AI
초록
오디오 대형 언어 모델(ALLM)의 급속한 발전과 확장된 응용 분야는 이들의 신뢰성에 대한 엄격한 이해를 요구합니다. 그러나 이러한 모델을 평가하는 체계적인 연구, 특히 오디오 양식에 고유한 위험에 관한 연구는 아직 크게 미개척 상태입니다. 기존 평가 프레임워크는 주로 텍스트 양식에 초점을 맞추거나 제한된 안전성 차원만을 다루어, 오디오 양식에 내재된 고유한 특성과 응용 시나리오를 충분히 고려하지 못하고 있습니다. 우리는 ALLM을 위해 특별히 설계된 첫 번째 다면적 신뢰성 평가 프레임워크 및 벤치마크인 AudioTrust를 소개합니다. AudioTrust는 공정성, 환각, 안전성, 프라이버시, 견고성, 인증이라는 여섯 가지 핵심 차원에 걸친 평가를 용이하게 합니다. 이러한 차원을 포괄적으로 평가하기 위해 AudioTrust는 18개의 독특한 실험 설정으로 구성되어 있습니다. 그 핵심은 4,420개 이상의 오디오/텍스트 샘플로 구성된 세심하게 구축된 데이터셋으로, 일상 대화, 긴급 전화, 음성 어시스턴트 상호작용 등 실제 시나리오에서 추출되어 ALLM의 다면적 신뢰성을 탐구하도록 설계되었습니다. 평가를 위해 벤치마크는 9개의 오디오 특화 평가 지표를 신중하게 설계하였으며, 우리는 모델 출력의 객관적이고 확장 가능한 점수화를 위해 대규모 자동화 파이프라인을 사용합니다. 실험 결과는 다양한 고위험 오디오 시나리오에 직면했을 때 현재 최첨단 오픈소스 및 클로즈드소스 ALLM의 신뢰성 한계와 제약을 드러내며, 향후 오디오 모델의 안전하고 신뢰할 수 있는 배치를 위한 귀중한 통찰을 제공합니다. 우리의 플랫폼과 벤치마크는 https://github.com/JusperLee/AudioTrust에서 이용 가능합니다.
English
The rapid advancement and expanding applications of Audio Large Language
Models (ALLMs) demand a rigorous understanding of their trustworthiness.
However, systematic research on evaluating these models, particularly
concerning risks unique to the audio modality, remains largely unexplored.
Existing evaluation frameworks primarily focus on the text modality or address
only a restricted set of safety dimensions, failing to adequately account for
the unique characteristics and application scenarios inherent to the audio
modality. We introduce AudioTrust-the first multifaceted trustworthiness
evaluation framework and benchmark specifically designed for ALLMs. AudioTrust
facilitates assessments across six key dimensions: fairness, hallucination,
safety, privacy, robustness, and authentication. To comprehensively evaluate
these dimensions, AudioTrust is structured around 18 distinct experimental
setups. Its core is a meticulously constructed dataset of over 4,420 audio/text
samples, drawn from real-world scenarios (e.g., daily conversations, emergency
calls, voice assistant interactions), specifically designed to probe the
multifaceted trustworthiness of ALLMs. For assessment, the benchmark carefully
designs 9 audio-specific evaluation metrics, and we employ a large-scale
automated pipeline for objective and scalable scoring of model outputs.
Experimental results reveal the trustworthiness boundaries and limitations of
current state-of-the-art open-source and closed-source ALLMs when confronted
with various high-risk audio scenarios, offering valuable insights for the
secure and trustworthy deployment of future audio models. Our platform and
benchmark are available at https://github.com/JusperLee/AudioTrust.Summary
AI-Generated Summary