ChatPaper.aiChatPaper

MMAU: Un Banco de Pruebas Masivo de Comprendimiento y Razonamiento de Audio Multitarea

MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark

October 24, 2024
Autores: S Sakshi, Utkarsh Tyagi, Sonal Kumar, Ashish Seth, Ramaneswaran Selvakumar, Oriol Nieto, Ramani Duraiswami, Sreyan Ghosh, Dinesh Manocha
cs.AI

Resumen

La capacidad de comprender audio, que incluye habla, sonidos no verbales y música, es crucial para que los agentes de IA interactúen de manera efectiva con el mundo. Presentamos MMAU, un nuevo punto de referencia diseñado para evaluar modelos de comprensión de audio multimodal en tareas que requieren conocimientos de nivel experto y razonamiento complejo. MMAU consta de 10k clips de audio cuidadosamente seleccionados emparejados con preguntas y respuestas en lenguaje natural anotadas por humanos que abarcan habla, sonidos ambientales y música. Incluye preguntas de extracción de información y razonamiento, que requieren que los modelos demuestren 27 habilidades distintas en tareas únicas y desafiantes. A diferencia de los puntos de referencia existentes, MMAU enfatiza la percepción y el razonamiento avanzados con conocimientos específicos del dominio, desafiando a los modelos a abordar tareas similares a las enfrentadas por expertos. Evaluamos 18 modelos de audio-lenguaje (Grandes) de código abierto y propietarios, demostrando los desafíos significativos planteados por MMAU. Notablemente, incluso el más avanzado Gemini Pro v1.5 logra solo un 52.97% de precisión, y el estado del arte de código abierto Qwen2-Audio logra solo un 52.50%, resaltando un considerable margen para mejorar. Creemos que MMAU impulsará a la comunidad de investigación de audio y multimodal a desarrollar modelos de comprensión de audio más avanzados capaces de resolver tareas de audio complejas.
English
The ability to comprehend audio--which includes speech, non-speech sounds, and music--is crucial for AI agents to interact effectively with the world. We present MMAU, a novel benchmark designed to evaluate multimodal audio understanding models on tasks requiring expert-level knowledge and complex reasoning. MMAU comprises 10k carefully curated audio clips paired with human-annotated natural language questions and answers spanning speech, environmental sounds, and music. It includes information extraction and reasoning questions, requiring models to demonstrate 27 distinct skills across unique and challenging tasks. Unlike existing benchmarks, MMAU emphasizes advanced perception and reasoning with domain-specific knowledge, challenging models to tackle tasks akin to those faced by experts. We assess 18 open-source and proprietary (Large) Audio-Language Models, demonstrating the significant challenges posed by MMAU. Notably, even the most advanced Gemini Pro v1.5 achieves only 52.97% accuracy, and the state-of-the-art open-source Qwen2-Audio achieves only 52.50%, highlighting considerable room for improvement. We believe MMAU will drive the audio and multimodal research community to develop more advanced audio understanding models capable of solving complex audio tasks.

Summary

AI-Generated Summary

PDF202November 16, 2024