ChatPaper.aiChatPaper

Hacia una Evaluación Holística de los Modelos de Audio-Lenguaje a Gran Escala: Una Revisión Integral

Towards Holistic Evaluation of Large Audio-Language Models: A Comprehensive Survey

May 21, 2025
Autores: Chih-Kai Yang, Neo S. Ho, Hung-yi Lee
cs.AI

Resumen

Con los avances en los modelos de audio-lenguaje a gran escala (LALMs, por sus siglas en inglés), que mejoran los modelos de lenguaje a gran escala (LLMs) con capacidades auditivas, se espera que estos modelos demuestren competencia universal en diversas tareas auditivas. Si bien han surgido numerosos puntos de referencia para evaluar el rendimiento de los LALMs, estos siguen siendo fragmentados y carecen de una taxonomía estructurada. Para cerrar esta brecha, realizamos una encuesta exhaustiva y proponemos una taxonomía sistemática para las evaluaciones de LALMs, categorizándolas en cuatro dimensiones según sus objetivos: (1) Conciencia y Procesamiento Auditivo General, (2) Conocimiento y Razonamiento, (3) Habilidad Orientada al Diálogo, y (4) Equidad, Seguridad y Confiabilidad. Proporcionamos descripciones detalladas dentro de cada categoría y destacamos los desafíos en este campo, ofreciendo perspectivas sobre direcciones futuras prometedoras. Hasta donde sabemos, esta es la primera encuesta centrada específicamente en las evaluaciones de LALMs, proporcionando pautas claras para la comunidad. Publicaremos la colección de los artículos revisados y la mantendremos activamente para apoyar los avances continuos en el campo.
English
With advancements in large audio-language models (LALMs), which enhance large language models (LLMs) with auditory capabilities, these models are expected to demonstrate universal proficiency across various auditory tasks. While numerous benchmarks have emerged to assess LALMs' performance, they remain fragmented and lack a structured taxonomy. To bridge this gap, we conduct a comprehensive survey and propose a systematic taxonomy for LALM evaluations, categorizing them into four dimensions based on their objectives: (1) General Auditory Awareness and Processing, (2) Knowledge and Reasoning, (3) Dialogue-oriented Ability, and (4) Fairness, Safety, and Trustworthiness. We provide detailed overviews within each category and highlight challenges in this field, offering insights into promising future directions. To the best of our knowledge, this is the first survey specifically focused on the evaluations of LALMs, providing clear guidelines for the community. We will release the collection of the surveyed papers and actively maintain it to support ongoing advancements in the field.

Summary

AI-Generated Summary

PDF22May 27, 2025