AudioTrust: Bewertung der vielschichtigen Vertrauenswürdigkeit von Audio-Großsprachmodellen
AudioTrust: Benchmarking the Multifaceted Trustworthiness of Audio Large Language Models
May 22, 2025
Autoren: Kai Li, Can Shen, Yile Liu, Jirui Han, Kelong Zheng, Xuechao Zou, Zhe Wang, Xingjian Du, Shun Zhang, Hanjun Luo, Yingbin Jin, Xinxin Xing, Ziyang Ma, Yue Liu, Xiaojun Jia, Yifan Zhang, Junfeng Fang, Kun Wang, Yibo Yan, Haoyang Li, Yiming Li, Xiaobin Zhuang, Yang Liu, Haibo Hu, Zhuo Chen, Zhizheng Wu, Xiaolin Hu, Eng-Siong Chng, XiaoFeng Wang, Wenyuan Xu, Wei Dong, Xinfeng Li
cs.AI
Zusammenfassung
Die rasante Weiterentwicklung und die zunehmenden Anwendungen von Audio Large Language Models (ALLMs) erfordern ein fundiertes Verständnis ihrer Vertrauenswürdigkeit. Systematische Forschung zur Bewertung dieser Modelle, insbesondere im Hinblick auf risikobehaftete Aspekte, die spezifisch für die Audio-Modalität sind, bleibt jedoch weitgehend unerforscht. Bestehende Bewertungsrahmen konzentrieren sich hauptsächlich auf die Text-Modalität oder behandeln nur einen begrenzten Satz von Sicherheitsdimensionen, wodurch die einzigartigen Merkmale und Anwendungsszenarien der Audio-Modalität nicht ausreichend berücksichtigt werden. Wir stellen AudioTrust vor – den ersten vielseitigen Bewertungsrahmen und Benchmark, der speziell für ALLMs entwickelt wurde. AudioTrust ermöglicht Bewertungen in sechs Schlüsseldimensionen: Fairness, Halluzination, Sicherheit, Privatsphäre, Robustheit und Authentifizierung. Um diese Dimensionen umfassend zu bewerten, ist AudioTrust um 18 verschiedene experimentelle Aufbauten strukturiert. Sein Kern besteht aus einem sorgfältig erstellten Datensatz mit über 4.420 Audio-/Text-Beispielen, die aus realen Szenarien (z.B. tägliche Gespräche, Notrufe, Interaktionen mit Sprachassistenten) stammen und speziell dazu entwickelt wurden, die vielseitige Vertrauenswürdigkeit von ALLMs zu untersuchen. Für die Bewertung entwirft der Benchmark 9 audio-spezifische Bewertungsmetriken, und wir setzen eine groß angelegte automatisierte Pipeline ein, um die Modellausgaben objektiv und skalierbar zu bewerten. Experimentelle Ergebnisse zeigen die Grenzen und Einschränkungen der Vertrauenswürdigkeit aktueller state-of-the-art Open-Source- und Closed-Source-ALLMs in verschiedenen Hochrisiko-Audio-Szenarien auf und bieten wertvolle Einblicke für die sichere und vertrauenswürdige Bereitstellung zukünftiger Audiomodelle. Unsere Plattform und der Benchmark sind unter https://github.com/JusperLee/AudioTrust verfügbar.
English
The rapid advancement and expanding applications of Audio Large Language
Models (ALLMs) demand a rigorous understanding of their trustworthiness.
However, systematic research on evaluating these models, particularly
concerning risks unique to the audio modality, remains largely unexplored.
Existing evaluation frameworks primarily focus on the text modality or address
only a restricted set of safety dimensions, failing to adequately account for
the unique characteristics and application scenarios inherent to the audio
modality. We introduce AudioTrust-the first multifaceted trustworthiness
evaluation framework and benchmark specifically designed for ALLMs. AudioTrust
facilitates assessments across six key dimensions: fairness, hallucination,
safety, privacy, robustness, and authentication. To comprehensively evaluate
these dimensions, AudioTrust is structured around 18 distinct experimental
setups. Its core is a meticulously constructed dataset of over 4,420 audio/text
samples, drawn from real-world scenarios (e.g., daily conversations, emergency
calls, voice assistant interactions), specifically designed to probe the
multifaceted trustworthiness of ALLMs. For assessment, the benchmark carefully
designs 9 audio-specific evaluation metrics, and we employ a large-scale
automated pipeline for objective and scalable scoring of model outputs.
Experimental results reveal the trustworthiness boundaries and limitations of
current state-of-the-art open-source and closed-source ALLMs when confronted
with various high-risk audio scenarios, offering valuable insights for the
secure and trustworthy deployment of future audio models. Our platform and
benchmark are available at https://github.com/JusperLee/AudioTrust.Summary
AI-Generated Summary