ChatPaper.aiChatPaper

К всесторонней оценке крупных аудио-языковых моделей: Комплексный обзор

Towards Holistic Evaluation of Large Audio-Language Models: A Comprehensive Survey

May 21, 2025
Авторы: Chih-Kai Yang, Neo S. Ho, Hung-yi Lee
cs.AI

Аннотация

С развитием крупных аудио-языковых моделей (LALMs), которые расширяют возможности крупных языковых моделей (LLMs) за счет добавления слуховых функций, ожидается, что эти модели продемонстрируют универсальную компетентность в различных слуховых задачах. Хотя появилось множество тестов для оценки производительности LALMs, они остаются разрозненными и не имеют структурированной таксономии. Чтобы устранить этот пробел, мы проводим всесторонний обзор и предлагаем систематическую таксономию для оценки LALMs, классифицируя их по четырем измерениям в зависимости от их целей: (1) Общая слуховая осведомленность и обработка, (2) Знания и рассуждения, (3) Диалоговая способность и (4) Справедливость, безопасность и надежность. Мы предоставляем подробные обзоры в каждой категории и выделяем вызовы в этой области, предлагая взгляды на перспективные направления будущих исследований. Насколько нам известно, это первый обзор, специально посвященный оценке LALMs, предоставляющий четкие рекомендации для сообщества. Мы опубликуем коллекцию рассмотренных статей и будем активно поддерживать её для содействия дальнейшим достижениям в этой области.
English
With advancements in large audio-language models (LALMs), which enhance large language models (LLMs) with auditory capabilities, these models are expected to demonstrate universal proficiency across various auditory tasks. While numerous benchmarks have emerged to assess LALMs' performance, they remain fragmented and lack a structured taxonomy. To bridge this gap, we conduct a comprehensive survey and propose a systematic taxonomy for LALM evaluations, categorizing them into four dimensions based on their objectives: (1) General Auditory Awareness and Processing, (2) Knowledge and Reasoning, (3) Dialogue-oriented Ability, and (4) Fairness, Safety, and Trustworthiness. We provide detailed overviews within each category and highlight challenges in this field, offering insights into promising future directions. To the best of our knowledge, this is the first survey specifically focused on the evaluations of LALMs, providing clear guidelines for the community. We will release the collection of the surveyed papers and actively maintain it to support ongoing advancements in the field.

Summary

AI-Generated Summary

PDF22May 27, 2025