AudioTrust: Avaliando a Multifacetada Confiabilidade de Modelos de Linguagem de Grande Escala para Áudio
AudioTrust: Benchmarking the Multifaceted Trustworthiness of Audio Large Language Models
May 22, 2025
Autores: Kai Li, Can Shen, Yile Liu, Jirui Han, Kelong Zheng, Xuechao Zou, Zhe Wang, Xingjian Du, Shun Zhang, Hanjun Luo, Yingbin Jin, Xinxin Xing, Ziyang Ma, Yue Liu, Xiaojun Jia, Yifan Zhang, Junfeng Fang, Kun Wang, Yibo Yan, Haoyang Li, Yiming Li, Xiaobin Zhuang, Yang Liu, Haibo Hu, Zhuo Chen, Zhizheng Wu, Xiaolin Hu, Eng-Siong Chng, XiaoFeng Wang, Wenyuan Xu, Wei Dong, Xinfeng Li
cs.AI
Resumo
O rápido avanço e as aplicações em expansão dos Modelos de Linguagem de Grande Escala em Áudio (ALLMs, na sigla em inglês) exigem uma compreensão rigorosa de sua confiabilidade. No entanto, pesquisas sistemáticas sobre a avaliação desses modelos, particularmente em relação aos riscos exclusivos da modalidade de áudio, permanecem amplamente inexploradas. Os frameworks de avaliação existentes focam principalmente na modalidade de texto ou abordam apenas um conjunto restrito de dimensões de segurança, falhando em considerar adequadamente as características únicas e os cenários de aplicação inerentes à modalidade de áudio. Apresentamos o AudioTrust — o primeiro framework e benchmark multifacetado de avaliação de confiabilidade projetado especificamente para ALLMs. O AudioTrust facilita avaliações em seis dimensões-chave: justiça, alucinação, segurança, privacidade, robustez e autenticação. Para avaliar de forma abrangente essas dimensões, o AudioTrust é estruturado em torno de 18 configurações experimentais distintas. Seu núcleo é um conjunto de dados meticulosamente construído, com mais de 4.420 amostras de áudio/texto, extraídas de cenários do mundo real (por exemplo, conversas cotidianas, chamadas de emergência, interações com assistentes de voz), projetadas especificamente para investigar a confiabilidade multifacetada dos ALLMs. Para avaliação, o benchmark projeta cuidadosamente 9 métricas de avaliação específicas para áudio, e empregamos um pipeline automatizado em larga escala para pontuação objetiva e escalável das saídas dos modelos. Os resultados experimentais revelam os limites e as limitações de confiabilidade dos ALLMs de código aberto e proprietários mais avançados atuais quando confrontados com diversos cenários de áudio de alto risco, oferecendo insights valiosos para a implantação segura e confiável de futuros modelos de áudio. Nossa plataforma e benchmark estão disponíveis em https://github.com/JusperLee/AudioTrust.
English
The rapid advancement and expanding applications of Audio Large Language
Models (ALLMs) demand a rigorous understanding of their trustworthiness.
However, systematic research on evaluating these models, particularly
concerning risks unique to the audio modality, remains largely unexplored.
Existing evaluation frameworks primarily focus on the text modality or address
only a restricted set of safety dimensions, failing to adequately account for
the unique characteristics and application scenarios inherent to the audio
modality. We introduce AudioTrust-the first multifaceted trustworthiness
evaluation framework and benchmark specifically designed for ALLMs. AudioTrust
facilitates assessments across six key dimensions: fairness, hallucination,
safety, privacy, robustness, and authentication. To comprehensively evaluate
these dimensions, AudioTrust is structured around 18 distinct experimental
setups. Its core is a meticulously constructed dataset of over 4,420 audio/text
samples, drawn from real-world scenarios (e.g., daily conversations, emergency
calls, voice assistant interactions), specifically designed to probe the
multifaceted trustworthiness of ALLMs. For assessment, the benchmark carefully
designs 9 audio-specific evaluation metrics, and we employ a large-scale
automated pipeline for objective and scalable scoring of model outputs.
Experimental results reveal the trustworthiness boundaries and limitations of
current state-of-the-art open-source and closed-source ALLMs when confronted
with various high-risk audio scenarios, offering valuable insights for the
secure and trustworthy deployment of future audio models. Our platform and
benchmark are available at https://github.com/JusperLee/AudioTrust.