AudioTrust : Évaluation multidimensionnelle de la fiabilité des modèles de langage audio de grande envergure
AudioTrust: Benchmarking the Multifaceted Trustworthiness of Audio Large Language Models
May 22, 2025
Auteurs: Kai Li, Can Shen, Yile Liu, Jirui Han, Kelong Zheng, Xuechao Zou, Zhe Wang, Xingjian Du, Shun Zhang, Hanjun Luo, Yingbin Jin, Xinxin Xing, Ziyang Ma, Yue Liu, Xiaojun Jia, Yifan Zhang, Junfeng Fang, Kun Wang, Yibo Yan, Haoyang Li, Yiming Li, Xiaobin Zhuang, Yang Liu, Haibo Hu, Zhuo Chen, Zhizheng Wu, Xiaolin Hu, Eng-Siong Chng, XiaoFeng Wang, Wenyuan Xu, Wei Dong, Xinfeng Li
cs.AI
Résumé
L'évolution rapide et les applications croissantes des modèles de langage audio de grande envergure (ALLMs) nécessitent une compréhension rigoureuse de leur fiabilité. Cependant, les recherches systématiques sur l'évaluation de ces modèles, en particulier concernant les risques spécifiques à la modalité audio, restent largement inexplorées. Les cadres d'évaluation existants se concentrent principalement sur la modalité textuelle ou abordent seulement un ensemble restreint de dimensions de sécurité, ne tenant pas suffisamment compte des caractéristiques uniques et des scénarios d'application inhérents à la modalité audio. Nous présentons AudioTrust, le premier cadre d'évaluation multidimensionnel de la fiabilité et benchmark spécifiquement conçu pour les ALLMs. AudioTrust facilite les évaluations à travers six dimensions clés : équité, hallucination, sécurité, confidentialité, robustesse et authentification. Pour évaluer de manière exhaustive ces dimensions, AudioTrust est structuré autour de 18 configurations expérimentales distinctes. Son cœur repose sur un ensemble de données méticuleusement construit de plus de 4 420 échantillons audio/texte, tirés de scénarios réels (par exemple, conversations quotidiennes, appels d'urgence, interactions avec des assistants vocaux), spécifiquement conçus pour explorer la fiabilité multidimensionnelle des ALLMs. Pour l'évaluation, le benchmark conçoit soigneusement 9 métriques spécifiques à l'audio, et nous employons un pipeline automatisé à grande échelle pour un scoring objectif et évolutif des sorties de modèles. Les résultats expérimentaux révèlent les limites de fiabilité des ALLMs open-source et closed-source de pointe actuels lorsqu'ils sont confrontés à divers scénarios audio à haut risque, offrant des insights précieux pour le déploiement sécurisé et fiable des futurs modèles audio. Notre plateforme et benchmark sont disponibles à l'adresse https://github.com/JusperLee/AudioTrust.
English
The rapid advancement and expanding applications of Audio Large Language
Models (ALLMs) demand a rigorous understanding of their trustworthiness.
However, systematic research on evaluating these models, particularly
concerning risks unique to the audio modality, remains largely unexplored.
Existing evaluation frameworks primarily focus on the text modality or address
only a restricted set of safety dimensions, failing to adequately account for
the unique characteristics and application scenarios inherent to the audio
modality. We introduce AudioTrust-the first multifaceted trustworthiness
evaluation framework and benchmark specifically designed for ALLMs. AudioTrust
facilitates assessments across six key dimensions: fairness, hallucination,
safety, privacy, robustness, and authentication. To comprehensively evaluate
these dimensions, AudioTrust is structured around 18 distinct experimental
setups. Its core is a meticulously constructed dataset of over 4,420 audio/text
samples, drawn from real-world scenarios (e.g., daily conversations, emergency
calls, voice assistant interactions), specifically designed to probe the
multifaceted trustworthiness of ALLMs. For assessment, the benchmark carefully
designs 9 audio-specific evaluation metrics, and we employ a large-scale
automated pipeline for objective and scalable scoring of model outputs.
Experimental results reveal the trustworthiness boundaries and limitations of
current state-of-the-art open-source and closed-source ALLMs when confronted
with various high-risk audio scenarios, offering valuable insights for the
secure and trustworthy deployment of future audio models. Our platform and
benchmark are available at https://github.com/JusperLee/AudioTrust.Summary
AI-Generated Summary