ChatPaper.aiChatPaper

AudioTrust: Оценка многогранной надежности аудио-ориентированных больших языковых моделей

AudioTrust: Benchmarking the Multifaceted Trustworthiness of Audio Large Language Models

May 22, 2025
Авторы: Kai Li, Can Shen, Yile Liu, Jirui Han, Kelong Zheng, Xuechao Zou, Zhe Wang, Xingjian Du, Shun Zhang, Hanjun Luo, Yingbin Jin, Xinxin Xing, Ziyang Ma, Yue Liu, Xiaojun Jia, Yifan Zhang, Junfeng Fang, Kun Wang, Yibo Yan, Haoyang Li, Yiming Li, Xiaobin Zhuang, Yang Liu, Haibo Hu, Zhuo Chen, Zhizheng Wu, Xiaolin Hu, Eng-Siong Chng, XiaoFeng Wang, Wenyuan Xu, Wei Dong, Xinfeng Li
cs.AI

Аннотация

Быстрое развитие и расширение областей применения аудио-моделей большого языка (ALLM) требуют глубокого понимания их надежности. Однако систематические исследования по оценке этих моделей, особенно в отношении рисков, уникальных для аудиомодальности, остаются в значительной степени неисследованными. Существующие оценочные фреймворки в основном сосредоточены на текстовой модальности или охватывают лишь ограниченный набор аспектов безопасности, не учитывая в полной мере уникальные характеристики и сценарии применения, присущие аудиомодальности. Мы представляем AudioTrust — первый многогранный фреймворк и бенчмарк для оценки надежности, специально разработанный для ALLM. AudioTrust позволяет проводить оценку по шести ключевым направлениям: справедливость, галлюцинации, безопасность, конфиденциальность, устойчивость и аутентификация. Для всесторонней оценки этих аспектов AudioTrust структурирован вокруг 18 различных экспериментальных сценариев. Его основу составляет тщательно собранный набор данных, включающий более 4420 аудио- и текстовых примеров, взятых из реальных сценариев (например, повседневные разговоры, экстренные вызовы, взаимодействия с голосовыми помощниками), специально разработанных для исследования многогранной надежности ALLM. Для оценки бенчмарк включает 9 аудио-специфичных метрик, а также использует масштабируемый автоматизированный конвейер для объективного и масштабируемого анализа выходных данных моделей. Результаты экспериментов выявляют границы надежности и ограничения современных открытых и закрытых ALLM при работе с различными высокорисковыми аудиосценариями, предоставляя ценные инсайты для безопасного и надежного внедрения будущих аудиомоделей. Наша платформа и бенчмарк доступны по адресу https://github.com/JusperLee/AudioTrust.
English
The rapid advancement and expanding applications of Audio Large Language Models (ALLMs) demand a rigorous understanding of their trustworthiness. However, systematic research on evaluating these models, particularly concerning risks unique to the audio modality, remains largely unexplored. Existing evaluation frameworks primarily focus on the text modality or address only a restricted set of safety dimensions, failing to adequately account for the unique characteristics and application scenarios inherent to the audio modality. We introduce AudioTrust-the first multifaceted trustworthiness evaluation framework and benchmark specifically designed for ALLMs. AudioTrust facilitates assessments across six key dimensions: fairness, hallucination, safety, privacy, robustness, and authentication. To comprehensively evaluate these dimensions, AudioTrust is structured around 18 distinct experimental setups. Its core is a meticulously constructed dataset of over 4,420 audio/text samples, drawn from real-world scenarios (e.g., daily conversations, emergency calls, voice assistant interactions), specifically designed to probe the multifaceted trustworthiness of ALLMs. For assessment, the benchmark carefully designs 9 audio-specific evaluation metrics, and we employ a large-scale automated pipeline for objective and scalable scoring of model outputs. Experimental results reveal the trustworthiness boundaries and limitations of current state-of-the-art open-source and closed-source ALLMs when confronted with various high-risk audio scenarios, offering valuable insights for the secure and trustworthy deployment of future audio models. Our platform and benchmark are available at https://github.com/JusperLee/AudioTrust.

Summary

AI-Generated Summary

PDF172May 26, 2025