ChatPaper.aiChatPaper

AudioTrust: Valutazione della Multiforme Affidabilità dei Modelli Linguistici di Grande Dimensione per l'Audio

AudioTrust: Benchmarking the Multifaceted Trustworthiness of Audio Large Language Models

May 22, 2025
Autori: Kai Li, Can Shen, Yile Liu, Jirui Han, Kelong Zheng, Xuechao Zou, Zhe Wang, Xingjian Du, Shun Zhang, Hanjun Luo, Yingbin Jin, Xinxin Xing, Ziyang Ma, Yue Liu, Xiaojun Jia, Yifan Zhang, Junfeng Fang, Kun Wang, Yibo Yan, Haoyang Li, Yiming Li, Xiaobin Zhuang, Yang Liu, Haibo Hu, Zhuo Chen, Zhizheng Wu, Xiaolin Hu, Eng-Siong Chng, XiaoFeng Wang, Wenyuan Xu, Wei Dong, Xinfeng Li
cs.AI

Abstract

Il rapido progresso e le applicazioni in espansione dei Modelli Linguistici Audio di Grande Dimensione (ALLM) richiedono una comprensione rigorosa della loro affidabilità. Tuttavia, la ricerca sistematica sulla valutazione di questi modelli, in particolare per quanto riguarda i rischi unici della modalità audio, rimane in gran parte inesplorata. I framework di valutazione esistenti si concentrano principalmente sulla modalità testuale o affrontano solo un insieme limitato di dimensioni della sicurezza, non riuscendo a tenere adeguatamente conto delle caratteristiche uniche e degli scenari applicativi intrinseci alla modalità audio. Introduciamo AudioTrust, il primo framework e benchmark di valutazione dell'affidabilità multifaccettato specificamente progettato per gli ALLM. AudioTrust facilita valutazioni in sei dimensioni chiave: equità, allucinazione, sicurezza, privacy, robustezza e autenticazione. Per valutare in modo completo queste dimensioni, AudioTrust è strutturato attorno a 18 configurazioni sperimentali distinte. Il suo nucleo è un dataset meticolosamente costruito di oltre 4.420 campioni audio/testo, tratti da scenari reali (ad esempio, conversazioni quotidiane, chiamate di emergenza, interazioni con assistenti vocali), specificamente progettato per esplorare l'affidabilità multifaccettata degli ALLM. Per la valutazione, il benchmark progetta attentamente 9 metriche di valutazione specifiche per l'audio, e impieghiamo una pipeline automatizzata su larga scala per la valutazione oggettiva e scalabile degli output del modello. I risultati sperimentali rivelano i limiti e le frontiere dell'affidabilità degli ALLM open-source e closed-source all'avanguardia quando affrontano vari scenari audio ad alto rischio, offrendo spunti preziosi per il dispiegamento sicuro e affidabile dei futuri modelli audio. La nostra piattaforma e il benchmark sono disponibili all'indirizzo https://github.com/JusperLee/AudioTrust.
English
The rapid advancement and expanding applications of Audio Large Language Models (ALLMs) demand a rigorous understanding of their trustworthiness. However, systematic research on evaluating these models, particularly concerning risks unique to the audio modality, remains largely unexplored. Existing evaluation frameworks primarily focus on the text modality or address only a restricted set of safety dimensions, failing to adequately account for the unique characteristics and application scenarios inherent to the audio modality. We introduce AudioTrust-the first multifaceted trustworthiness evaluation framework and benchmark specifically designed for ALLMs. AudioTrust facilitates assessments across six key dimensions: fairness, hallucination, safety, privacy, robustness, and authentication. To comprehensively evaluate these dimensions, AudioTrust is structured around 18 distinct experimental setups. Its core is a meticulously constructed dataset of over 4,420 audio/text samples, drawn from real-world scenarios (e.g., daily conversations, emergency calls, voice assistant interactions), specifically designed to probe the multifaceted trustworthiness of ALLMs. For assessment, the benchmark carefully designs 9 audio-specific evaluation metrics, and we employ a large-scale automated pipeline for objective and scalable scoring of model outputs. Experimental results reveal the trustworthiness boundaries and limitations of current state-of-the-art open-source and closed-source ALLMs when confronted with various high-risk audio scenarios, offering valuable insights for the secure and trustworthy deployment of future audio models. Our platform and benchmark are available at https://github.com/JusperLee/AudioTrust.
PDF182May 26, 2025