AudioTrust: Evaluación de la Confiabilidad Multifacética de los Modelos de Lenguaje de Gran Escala en Audio
AudioTrust: Benchmarking the Multifaceted Trustworthiness of Audio Large Language Models
May 22, 2025
Autores: Kai Li, Can Shen, Yile Liu, Jirui Han, Kelong Zheng, Xuechao Zou, Zhe Wang, Xingjian Du, Shun Zhang, Hanjun Luo, Yingbin Jin, Xinxin Xing, Ziyang Ma, Yue Liu, Xiaojun Jia, Yifan Zhang, Junfeng Fang, Kun Wang, Yibo Yan, Haoyang Li, Yiming Li, Xiaobin Zhuang, Yang Liu, Haibo Hu, Zhuo Chen, Zhizheng Wu, Xiaolin Hu, Eng-Siong Chng, XiaoFeng Wang, Wenyuan Xu, Wei Dong, Xinfeng Li
cs.AI
Resumen
El rápido avance y las crecientes aplicaciones de los Modelos de Lenguaje de Gran Escala para Audio (ALLMs, por sus siglas en inglés) exigen una comprensión rigurosa de su confiabilidad. Sin embargo, la investigación sistemática sobre la evaluación de estos modelos, particularmente en relación con los riesgos únicos de la modalidad de audio, sigue siendo en gran medida inexplorada. Los marcos de evaluación existentes se centran principalmente en la modalidad de texto o abordan solo un conjunto limitado de dimensiones de seguridad, sin tener en cuenta adecuadamente las características únicas y los escenarios de aplicación inherentes a la modalidad de audio. Presentamos AudioTrust, el primer marco de evaluación de confiabilidad multifacético y punto de referencia diseñado específicamente para ALLMs. AudioTrust facilita evaluaciones en seis dimensiones clave: equidad, alucinación, seguridad, privacidad, robustez y autenticación. Para evaluar de manera integral estas dimensiones, AudioTrust se estructura en torno a 18 configuraciones experimentales distintas. Su núcleo es un conjunto de datos meticulosamente construido de más de 4,420 muestras de audio/texto, extraídas de escenarios del mundo real (por ejemplo, conversaciones diarias, llamadas de emergencia, interacciones con asistentes de voz), específicamente diseñado para explorar la confiabilidad multifacética de los ALLMs. Para la evaluación, el punto de referencia diseña cuidadosamente 9 métricas de evaluación específicas para audio, y empleamos una canalización automatizada a gran escala para la puntuación objetiva y escalable de las salidas del modelo. Los resultados experimentales revelan los límites y limitaciones de confiabilidad de los ALLMs de código abierto y cerrado más avanzados actualmente cuando se enfrentan a diversos escenarios de audio de alto riesgo, ofreciendo información valiosa para el despliegue seguro y confiable de futuros modelos de audio. Nuestra plataforma y punto de referencia están disponibles en https://github.com/JusperLee/AudioTrust.
English
The rapid advancement and expanding applications of Audio Large Language
Models (ALLMs) demand a rigorous understanding of their trustworthiness.
However, systematic research on evaluating these models, particularly
concerning risks unique to the audio modality, remains largely unexplored.
Existing evaluation frameworks primarily focus on the text modality or address
only a restricted set of safety dimensions, failing to adequately account for
the unique characteristics and application scenarios inherent to the audio
modality. We introduce AudioTrust-the first multifaceted trustworthiness
evaluation framework and benchmark specifically designed for ALLMs. AudioTrust
facilitates assessments across six key dimensions: fairness, hallucination,
safety, privacy, robustness, and authentication. To comprehensively evaluate
these dimensions, AudioTrust is structured around 18 distinct experimental
setups. Its core is a meticulously constructed dataset of over 4,420 audio/text
samples, drawn from real-world scenarios (e.g., daily conversations, emergency
calls, voice assistant interactions), specifically designed to probe the
multifaceted trustworthiness of ALLMs. For assessment, the benchmark carefully
designs 9 audio-specific evaluation metrics, and we employ a large-scale
automated pipeline for objective and scalable scoring of model outputs.
Experimental results reveal the trustworthiness boundaries and limitations of
current state-of-the-art open-source and closed-source ALLMs when confronted
with various high-risk audio scenarios, offering valuable insights for the
secure and trustworthy deployment of future audio models. Our platform and
benchmark are available at https://github.com/JusperLee/AudioTrust.Summary
AI-Generated Summary