AudioTrust: Het Benchmarken van de Veelzijdige Betrouwbaarheid van Audio Large Language Models
AudioTrust: Benchmarking the Multifaceted Trustworthiness of Audio Large Language Models
May 22, 2025
Auteurs: Kai Li, Can Shen, Yile Liu, Jirui Han, Kelong Zheng, Xuechao Zou, Zhe Wang, Xingjian Du, Shun Zhang, Hanjun Luo, Yingbin Jin, Xinxin Xing, Ziyang Ma, Yue Liu, Xiaojun Jia, Yifan Zhang, Junfeng Fang, Kun Wang, Yibo Yan, Haoyang Li, Yiming Li, Xiaobin Zhuang, Yang Liu, Haibo Hu, Zhuo Chen, Zhizheng Wu, Xiaolin Hu, Eng-Siong Chng, XiaoFeng Wang, Wenyuan Xu, Wei Dong, Xinfeng Li
cs.AI
Samenvatting
De snelle vooruitgang en uitbreidende toepassingen van Audio Large Language Models (ALLMs) vereisen een grondig begrip van hun betrouwbaarheid. Systematisch onderzoek naar de evaluatie van deze modellen, met name met betrekking tot risico's die uniek zijn voor de audiomodus, blijft echter grotendeels onontgonnen. Bestaande evaluatiekaders richten zich voornamelijk op de tekstmodus of behandelen slechts een beperkte set veiligheidsdimensies, waardoor ze onvoldoende rekening houden met de unieke kenmerken en toepassingsscenario's die inherent zijn aan de audiomodus. Wij introduceren AudioTrust - het eerste veelzijdige betrouwbaarheidsevaluatiekader en benchmark specifiek ontworpen voor ALLMs. AudioTrust maakt evaluaties mogelijk over zes belangrijke dimensies: eerlijkheid, hallucinatie, veiligheid, privacy, robuustheid en authenticatie. Om deze dimensies uitgebreid te evalueren, is AudioTrust gestructureerd rond 18 verschillende experimentele opstellingen. De kern ervan is een zorgvuldig samengestelde dataset van meer dan 4.420 audio/tekstmonsters, afkomstig uit realistische scenario's (bijv. dagelijkse gesprekken, noodoproepen, interacties met stemassistenten), specifiek ontworpen om de veelzijdige betrouwbaarheid van ALLMs te onderzoeken. Voor de beoordeling ontwerpt de benchmark 9 audio-specifieke evaluatiemetrics, en we gebruiken een grootschalige geautomatiseerde pijplijn voor objectieve en schaalbare scoring van modeloutputs. Experimentele resultaten onthullen de betrouwbaarheidsgrenzen en beperkingen van huidige state-of-the-art open-source en closed-source ALLMs wanneer ze worden geconfronteerd met verschillende hoogrisico-audioscenario's, wat waardevolle inzichten biedt voor de veilige en betrouwbare inzet van toekomstige audiomodellen. Ons platform en benchmark zijn beschikbaar op https://github.com/JusperLee/AudioTrust.
English
The rapid advancement and expanding applications of Audio Large Language
Models (ALLMs) demand a rigorous understanding of their trustworthiness.
However, systematic research on evaluating these models, particularly
concerning risks unique to the audio modality, remains largely unexplored.
Existing evaluation frameworks primarily focus on the text modality or address
only a restricted set of safety dimensions, failing to adequately account for
the unique characteristics and application scenarios inherent to the audio
modality. We introduce AudioTrust-the first multifaceted trustworthiness
evaluation framework and benchmark specifically designed for ALLMs. AudioTrust
facilitates assessments across six key dimensions: fairness, hallucination,
safety, privacy, robustness, and authentication. To comprehensively evaluate
these dimensions, AudioTrust is structured around 18 distinct experimental
setups. Its core is a meticulously constructed dataset of over 4,420 audio/text
samples, drawn from real-world scenarios (e.g., daily conversations, emergency
calls, voice assistant interactions), specifically designed to probe the
multifaceted trustworthiness of ALLMs. For assessment, the benchmark carefully
designs 9 audio-specific evaluation metrics, and we employ a large-scale
automated pipeline for objective and scalable scoring of model outputs.
Experimental results reveal the trustworthiness boundaries and limitations of
current state-of-the-art open-source and closed-source ALLMs when confronted
with various high-risk audio scenarios, offering valuable insights for the
secure and trustworthy deployment of future audio models. Our platform and
benchmark are available at https://github.com/JusperLee/AudioTrust.