ChatPaper.aiChatPaper

Naar een holistische evaluatie van grote audio-taalmodellen: een uitgebreid overzicht

Towards Holistic Evaluation of Large Audio-Language Models: A Comprehensive Survey

May 21, 2025
Auteurs: Chih-Kai Yang, Neo S. Ho, Hung-yi Lee
cs.AI

Samenvatting

Met de vooruitgang in grote audio-taalmodellen (LALMs), die grote taalmodellen (LLMs) versterken met auditieve mogelijkheden, wordt verwacht dat deze modellen universele vaardigheid zullen demonstreren in diverse auditieve taken. Hoewel er tal van benchmarks zijn ontstaan om de prestaties van LALMs te beoordelen, blijven deze gefragmenteerd en ontbreekt het aan een gestructureerde taxonomie. Om deze kloof te overbruggen, voeren we een uitgebreid onderzoek uit en stellen we een systematische taxonomie voor voor de evaluatie van LALMs, waarbij we deze categoriseren in vier dimensies op basis van hun doelstellingen: (1) Algemeen Auditief Bewustzijn en Verwerking, (2) Kennis en Redenering, (3) Dialooggerichte Vaardigheid, en (4) Eerlijkheid, Veiligheid en Betrouwbaarheid. We bieden gedetailleerde overzichten binnen elke categorie en belichten uitdagingen op dit gebied, waarbij we inzichten bieden in veelbelovende toekomstige richtingen. Voor zover wij weten, is dit het eerste onderzoek dat specifiek gericht is op de evaluaties van LALMs, en biedt het duidelijke richtlijnen voor de gemeenschap. We zullen de verzameling van de onderzochte artikelen vrijgeven en deze actief onderhouden om verdere vooruitgang in het veld te ondersteunen.
English
With advancements in large audio-language models (LALMs), which enhance large language models (LLMs) with auditory capabilities, these models are expected to demonstrate universal proficiency across various auditory tasks. While numerous benchmarks have emerged to assess LALMs' performance, they remain fragmented and lack a structured taxonomy. To bridge this gap, we conduct a comprehensive survey and propose a systematic taxonomy for LALM evaluations, categorizing them into four dimensions based on their objectives: (1) General Auditory Awareness and Processing, (2) Knowledge and Reasoning, (3) Dialogue-oriented Ability, and (4) Fairness, Safety, and Trustworthiness. We provide detailed overviews within each category and highlight challenges in this field, offering insights into promising future directions. To the best of our knowledge, this is the first survey specifically focused on the evaluations of LALMs, providing clear guidelines for the community. We will release the collection of the surveyed papers and actively maintain it to support ongoing advancements in the field.
PDF32May 27, 2025