MMAU: Um Benchmark de Compreensão e Raciocínio de Áudio Multi-Tarefa em Massa
MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark
October 24, 2024
Autores: S Sakshi, Utkarsh Tyagi, Sonal Kumar, Ashish Seth, Ramaneswaran Selvakumar, Oriol Nieto, Ramani Duraiswami, Sreyan Ghosh, Dinesh Manocha
cs.AI
Resumo
A capacidade de compreender áudio - que inclui fala, sons não verbais e música - é crucial para agentes de IA interagirem de forma eficaz com o mundo. Apresentamos o MMAU, um novo benchmark projetado para avaliar modelos de compreensão multimodal de áudio em tarefas que exigem conhecimento de nível especialista e raciocínio complexo. O MMAU é composto por 10 mil clipes de áudio cuidadosamente selecionados, combinados com perguntas e respostas em linguagem natural anotadas por humanos, abrangendo fala, sons ambientais e música. Ele inclui perguntas de extração de informações e raciocínio, exigindo que os modelos demonstrem 27 habilidades distintas em tarefas únicas e desafiadoras. Ao contrário de benchmarks existentes, o MMAU enfatiza a percepção avançada e o raciocínio com conhecimento específico de domínio, desafiando os modelos a lidar com tarefas semelhantes às enfrentadas por especialistas. Avaliamos 18 modelos de áudio-linguagem (Grandes) de código aberto e proprietários, demonstrando os desafios significativos apresentados pelo MMAU. Notavelmente, mesmo o avançado Gemini Pro v1.5 alcança apenas 52,97% de precisão, e o estado-da-arte de código aberto Qwen2-Audio atinge apenas 52,50%, destacando um espaço considerável para melhorias. Acreditamos que o MMAU impulsionará a comunidade de pesquisa em áudio e multimodal a desenvolver modelos de compreensão de áudio mais avançados capazes de resolver tarefas de áudio complexas.
English
The ability to comprehend audio--which includes speech, non-speech sounds,
and music--is crucial for AI agents to interact effectively with the world. We
present MMAU, a novel benchmark designed to evaluate multimodal audio
understanding models on tasks requiring expert-level knowledge and complex
reasoning. MMAU comprises 10k carefully curated audio clips paired with
human-annotated natural language questions and answers spanning speech,
environmental sounds, and music. It includes information extraction and
reasoning questions, requiring models to demonstrate 27 distinct skills across
unique and challenging tasks. Unlike existing benchmarks, MMAU emphasizes
advanced perception and reasoning with domain-specific knowledge, challenging
models to tackle tasks akin to those faced by experts. We assess 18 open-source
and proprietary (Large) Audio-Language Models, demonstrating the significant
challenges posed by MMAU. Notably, even the most advanced Gemini Pro v1.5
achieves only 52.97% accuracy, and the state-of-the-art open-source Qwen2-Audio
achieves only 52.50%, highlighting considerable room for improvement. We
believe MMAU will drive the audio and multimodal research community to develop
more advanced audio understanding models capable of solving complex audio
tasks.