Verso una valutazione olistica dei modelli audio-linguistici su larga scala: un'indagine completa
Towards Holistic Evaluation of Large Audio-Language Models: A Comprehensive Survey
May 21, 2025
Autori: Chih-Kai Yang, Neo S. Ho, Hung-yi Lee
cs.AI
Abstract
Con i progressi nei grandi modelli audio-linguistici (LALMs), che potenziano i grandi modelli linguistici (LLMs) con capacità uditive, si prevede che questi modelli dimostrino una competenza universale in vari compiti uditivi. Sebbene siano emersi numerosi benchmark per valutare le prestazioni dei LALMs, essi rimangono frammentati e privi di una tassonomia strutturata. Per colmare questa lacuna, conduciamo un'indagine completa e proponiamo una tassonomia sistematica per le valutazioni dei LALMs, categorizzandole in quattro dimensioni basate sui loro obiettivi: (1) Consapevolezza e Elaborazione Uditiva Generale, (2) Conoscenza e Ragionamento, (3) Abilità Orientata al Dialogo, e (4) Equità, Sicurezza e Affidabilità. Forniamo panoramiche dettagliate all'interno di ciascuna categoria e evidenziamo le sfide in questo campo, offrendo spunti su promettenti direzioni future. Per quanto ne sappiamo, questa è la prima indagine specificamente focalizzata sulle valutazioni dei LALMs, fornendo linee guida chiare per la comunità. Rilasceremo la raccolta dei documenti esaminati e la manterremo attivamente per supportare i progressi in corso nel campo.
English
With advancements in large audio-language models (LALMs), which enhance large
language models (LLMs) with auditory capabilities, these models are expected to
demonstrate universal proficiency across various auditory tasks. While numerous
benchmarks have emerged to assess LALMs' performance, they remain fragmented
and lack a structured taxonomy. To bridge this gap, we conduct a comprehensive
survey and propose a systematic taxonomy for LALM evaluations, categorizing
them into four dimensions based on their objectives: (1) General Auditory
Awareness and Processing, (2) Knowledge and Reasoning, (3) Dialogue-oriented
Ability, and (4) Fairness, Safety, and Trustworthiness. We provide detailed
overviews within each category and highlight challenges in this field, offering
insights into promising future directions. To the best of our knowledge, this
is the first survey specifically focused on the evaluations of LALMs, providing
clear guidelines for the community. We will release the collection of the
surveyed papers and actively maintain it to support ongoing advancements in the
field.