ChatPaper.aiChatPaper

Rumo a uma Avaliação Holística de Grandes Modelos de Áudio-Linguagem: Um Estudo Abrangente

Towards Holistic Evaluation of Large Audio-Language Models: A Comprehensive Survey

May 21, 2025
Autores: Chih-Kai Yang, Neo S. Ho, Hung-yi Lee
cs.AI

Resumo

Com os avanços nos grandes modelos de áudio-linguagem (LALMs, do inglês Large Audio-Language Models), que aprimoram os grandes modelos de linguagem (LLMs, do inglês Large Language Models) com capacidades auditivas, espera-se que esses modelos demonstrem proficiência universal em diversas tarefas auditivas. Embora tenham surgido inúmeros benchmarks para avaliar o desempenho dos LALMs, eles permanecem fragmentados e carecem de uma taxonomia estruturada. Para preencher essa lacuna, realizamos uma pesquisa abrangente e propomos uma taxonomia sistemática para as avaliações de LALMs, categorizando-as em quatro dimensões com base em seus objetivos: (1) Consciência e Processamento Auditivo Geral, (2) Conhecimento e Raciocínio, (3) Habilidade Orientada ao Diálogo e (4) Justiça, Segurança e Confiabilidade. Fornecemos visões detalhadas dentro de cada categoria e destacamos os desafios neste campo, oferecendo insights sobre direções futuras promissoras. Até onde sabemos, esta é a primeira pesquisa especificamente focada nas avaliações de LALMs, fornecendo diretrizes claras para a comunidade. Disponibilizaremos a coleção dos artigos pesquisados e a manteremos ativamente para apoiar os avanços contínuos na área.
English
With advancements in large audio-language models (LALMs), which enhance large language models (LLMs) with auditory capabilities, these models are expected to demonstrate universal proficiency across various auditory tasks. While numerous benchmarks have emerged to assess LALMs' performance, they remain fragmented and lack a structured taxonomy. To bridge this gap, we conduct a comprehensive survey and propose a systematic taxonomy for LALM evaluations, categorizing them into four dimensions based on their objectives: (1) General Auditory Awareness and Processing, (2) Knowledge and Reasoning, (3) Dialogue-oriented Ability, and (4) Fairness, Safety, and Trustworthiness. We provide detailed overviews within each category and highlight challenges in this field, offering insights into promising future directions. To the best of our knowledge, this is the first survey specifically focused on the evaluations of LALMs, providing clear guidelines for the community. We will release the collection of the surveyed papers and actively maintain it to support ongoing advancements in the field.
PDF32December 16, 2025