ChatPaper.aiChatPaper

Verso una valutazione olistica dei modelli audio-linguistici su larga scala: un'indagine completa

Towards Holistic Evaluation of Large Audio-Language Models: A Comprehensive Survey

May 21, 2025
Autori: Chih-Kai Yang, Neo S. Ho, Hung-yi Lee
cs.AI

Abstract

Con i progressi nei grandi modelli audio-linguistici (LALMs), che potenziano i grandi modelli linguistici (LLMs) con capacità uditive, si prevede che questi modelli dimostrino una competenza universale in vari compiti uditivi. Sebbene siano emersi numerosi benchmark per valutare le prestazioni dei LALMs, essi rimangono frammentati e privi di una tassonomia strutturata. Per colmare questa lacuna, conduciamo un'indagine completa e proponiamo una tassonomia sistematica per le valutazioni dei LALMs, categorizzandole in quattro dimensioni basate sui loro obiettivi: (1) Consapevolezza e Elaborazione Uditiva Generale, (2) Conoscenza e Ragionamento, (3) Abilità Orientata al Dialogo, e (4) Equità, Sicurezza e Affidabilità. Forniamo panoramiche dettagliate all'interno di ciascuna categoria e evidenziamo le sfide in questo campo, offrendo spunti su promettenti direzioni future. Per quanto ne sappiamo, questa è la prima indagine specificamente focalizzata sulle valutazioni dei LALMs, fornendo linee guida chiare per la comunità. Rilasceremo la raccolta dei documenti esaminati e la manterremo attivamente per supportare i progressi in corso nel campo.
English
With advancements in large audio-language models (LALMs), which enhance large language models (LLMs) with auditory capabilities, these models are expected to demonstrate universal proficiency across various auditory tasks. While numerous benchmarks have emerged to assess LALMs' performance, they remain fragmented and lack a structured taxonomy. To bridge this gap, we conduct a comprehensive survey and propose a systematic taxonomy for LALM evaluations, categorizing them into four dimensions based on their objectives: (1) General Auditory Awareness and Processing, (2) Knowledge and Reasoning, (3) Dialogue-oriented Ability, and (4) Fairness, Safety, and Trustworthiness. We provide detailed overviews within each category and highlight challenges in this field, offering insights into promising future directions. To the best of our knowledge, this is the first survey specifically focused on the evaluations of LALMs, providing clear guidelines for the community. We will release the collection of the surveyed papers and actively maintain it to support ongoing advancements in the field.
PDF32May 27, 2025