ChatPaper.aiChatPaper

AudioTrust: オーディオ大規模言語モデルの多面的信頼性のベンチマーキング

AudioTrust: Benchmarking the Multifaceted Trustworthiness of Audio Large Language Models

May 22, 2025
著者: Kai Li, Can Shen, Yile Liu, Jirui Han, Kelong Zheng, Xuechao Zou, Zhe Wang, Xingjian Du, Shun Zhang, Hanjun Luo, Yingbin Jin, Xinxin Xing, Ziyang Ma, Yue Liu, Xiaojun Jia, Yifan Zhang, Junfeng Fang, Kun Wang, Yibo Yan, Haoyang Li, Yiming Li, Xiaobin Zhuang, Yang Liu, Haibo Hu, Zhuo Chen, Zhizheng Wu, Xiaolin Hu, Eng-Siong Chng, XiaoFeng Wang, Wenyuan Xu, Wei Dong, Xinfeng Li
cs.AI

要旨

オーディオ大規模言語モデル(ALLM)の急速な進展と応用範囲の拡大に伴い、その信頼性を厳密に理解することが求められています。しかし、特にオーディオモダリティに固有のリスクに関する評価を体系的に行う研究は、ほとんど未開拓のままです。既存の評価フレームワークは主にテキストモダリティに焦点を当てるか、限られた安全性の次元しか扱わず、オーディオモダリティに固有の特性や応用シナリオを十分に考慮していません。本論文では、ALLMに特化した初の多面的な信頼性評価フレームワークおよびベンチマークであるAudioTrustを紹介します。AudioTrustは、公平性、幻覚、安全性、プライバシー、堅牢性、認証という6つの主要な次元にわたる評価を可能にします。これらの次元を包括的に評価するため、AudioTrustは18の異なる実験設定を基に構成されています。その中核には、現実世界のシナリオ(例:日常会話、緊急通話、音声アシスタントのやり取り)から抽出した4,420以上のオーディオ/テキストサンプルで構成されたデータセットがあり、ALLMの多面的な信頼性を探るために特別に設計されています。評価のため、ベンチマークは9つのオーディオ固有の評価指標を慎重に設計し、大規模な自動化パイプラインを採用してモデル出力を客観的かつスケーラブルにスコアリングします。実験結果は、様々な高リスクなオーディオシナリオに直面した際の、現在の最先端のオープンソースおよびクローズドソースALLMの信頼性の境界と限界を明らかにし、将来のオーディオモデルの安全で信頼性のある展開に貴重な洞察を提供します。私たちのプラットフォームとベンチマークはhttps://github.com/JusperLee/AudioTrustで公開されています。
English
The rapid advancement and expanding applications of Audio Large Language Models (ALLMs) demand a rigorous understanding of their trustworthiness. However, systematic research on evaluating these models, particularly concerning risks unique to the audio modality, remains largely unexplored. Existing evaluation frameworks primarily focus on the text modality or address only a restricted set of safety dimensions, failing to adequately account for the unique characteristics and application scenarios inherent to the audio modality. We introduce AudioTrust-the first multifaceted trustworthiness evaluation framework and benchmark specifically designed for ALLMs. AudioTrust facilitates assessments across six key dimensions: fairness, hallucination, safety, privacy, robustness, and authentication. To comprehensively evaluate these dimensions, AudioTrust is structured around 18 distinct experimental setups. Its core is a meticulously constructed dataset of over 4,420 audio/text samples, drawn from real-world scenarios (e.g., daily conversations, emergency calls, voice assistant interactions), specifically designed to probe the multifaceted trustworthiness of ALLMs. For assessment, the benchmark carefully designs 9 audio-specific evaluation metrics, and we employ a large-scale automated pipeline for objective and scalable scoring of model outputs. Experimental results reveal the trustworthiness boundaries and limitations of current state-of-the-art open-source and closed-source ALLMs when confronted with various high-risk audio scenarios, offering valuable insights for the secure and trustworthy deployment of future audio models. Our platform and benchmark are available at https://github.com/JusperLee/AudioTrust.

Summary

AI-Generated Summary

PDF172May 26, 2025