Vers une évaluation holistique des grands modèles audio-langage : une étude approfondie
Towards Holistic Evaluation of Large Audio-Language Models: A Comprehensive Survey
May 21, 2025
Auteurs: Chih-Kai Yang, Neo S. Ho, Hung-yi Lee
cs.AI
Résumé
Avec les avancées des modèles audio-langage de grande échelle (LALMs), qui enrichissent les modèles de langage de grande échelle (LLMs) avec des capacités auditives, ces modèles sont censés démontrer une compétence universelle dans diverses tâches auditives. Bien que de nombreux benchmarks aient émergé pour évaluer les performances des LALMs, ils restent fragmentés et manquent d'une taxonomie structurée. Pour combler cette lacune, nous menons une étude approfondie et proposons une taxonomie systématique pour les évaluations des LALMs, les catégorisant en quatre dimensions basées sur leurs objectifs : (1) Conscience et traitement auditif général, (2) Connaissance et raisonnement, (3) Capacité orientée dialogue, et (4) Équité, sécurité et fiabilité. Nous fournissons des aperçus détaillés pour chaque catégorie et mettons en lumière les défis dans ce domaine, offrant des perspectives sur les directions futures prometteuses. À notre connaissance, il s'agit de la première étude spécifiquement axée sur les évaluations des LALMs, fournissant des lignes directrices claires pour la communauté. Nous publierons la collection des articles étudiés et la maintiendrons activement pour soutenir les avancées continues dans ce domaine.
English
With advancements in large audio-language models (LALMs), which enhance large
language models (LLMs) with auditory capabilities, these models are expected to
demonstrate universal proficiency across various auditory tasks. While numerous
benchmarks have emerged to assess LALMs' performance, they remain fragmented
and lack a structured taxonomy. To bridge this gap, we conduct a comprehensive
survey and propose a systematic taxonomy for LALM evaluations, categorizing
them into four dimensions based on their objectives: (1) General Auditory
Awareness and Processing, (2) Knowledge and Reasoning, (3) Dialogue-oriented
Ability, and (4) Fairness, Safety, and Trustworthiness. We provide detailed
overviews within each category and highlight challenges in this field, offering
insights into promising future directions. To the best of our knowledge, this
is the first survey specifically focused on the evaluations of LALMs, providing
clear guidelines for the community. We will release the collection of the
surveyed papers and actively maintain it to support ongoing advancements in the
field.Summary
AI-Generated Summary