ChatPaper.aiChatPaper

Auf dem Weg zu einer ganzheitlichen Bewertung großer Audio-Sprach-Modelle: Eine umfassende Übersicht

Towards Holistic Evaluation of Large Audio-Language Models: A Comprehensive Survey

May 21, 2025
Autoren: Chih-Kai Yang, Neo S. Ho, Hung-yi Lee
cs.AI

Zusammenfassung

Mit den Fortschritten bei großen Audio-Sprachmodellen (Large Audio-Language Models, LALMs), die große Sprachmodelle (Large Language Models, LLMs) um auditive Fähigkeiten erweitern, wird erwartet, dass diese Modelle universelle Kompetenz in verschiedenen auditiven Aufgaben zeigen. Obwohl zahlreiche Benchmarks entstanden sind, um die Leistung von LALMs zu bewerten, bleiben sie fragmentiert und es fehlt an einer strukturierten Taxonomie. Um diese Lücke zu schließen, führen wir eine umfassende Untersuchung durch und schlagen eine systematische Taxonomie für die Bewertung von LALMs vor, die diese basierend auf ihren Zielen in vier Dimensionen kategorisiert: (1) Allgemeine auditive Wahrnehmung und Verarbeitung, (2) Wissen und logisches Denken, (3) Dialogorientierte Fähigkeiten und (4) Fairness, Sicherheit und Vertrauenswürdigkeit. Wir bieten detaillierte Übersichten innerhalb jeder Kategorie und heben Herausforderungen in diesem Bereich hervor, wobei wir Einblicke in vielversprechende zukünftige Richtungen geben. Nach bestem Wissen ist dies die erste Untersuchung, die sich speziell auf die Bewertung von LALMs konzentriert und klare Leitlinien für die Community bietet. Wir werden die Sammlung der untersuchten Arbeiten veröffentlichen und aktiv pflegen, um die fortlaufenden Fortschritte in diesem Bereich zu unterstützen.
English
With advancements in large audio-language models (LALMs), which enhance large language models (LLMs) with auditory capabilities, these models are expected to demonstrate universal proficiency across various auditory tasks. While numerous benchmarks have emerged to assess LALMs' performance, they remain fragmented and lack a structured taxonomy. To bridge this gap, we conduct a comprehensive survey and propose a systematic taxonomy for LALM evaluations, categorizing them into four dimensions based on their objectives: (1) General Auditory Awareness and Processing, (2) Knowledge and Reasoning, (3) Dialogue-oriented Ability, and (4) Fairness, Safety, and Trustworthiness. We provide detailed overviews within each category and highlight challenges in this field, offering insights into promising future directions. To the best of our knowledge, this is the first survey specifically focused on the evaluations of LALMs, providing clear guidelines for the community. We will release the collection of the surveyed papers and actively maintain it to support ongoing advancements in the field.

Summary

AI-Generated Summary

PDF22May 27, 2025