MMAU: Массивный многозадачный бенчмарк по пониманию и рассуждениям аудио.
MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark
October 24, 2024
Авторы: S Sakshi, Utkarsh Tyagi, Sonal Kumar, Ashish Seth, Ramaneswaran Selvakumar, Oriol Nieto, Ramani Duraiswami, Sreyan Ghosh, Dinesh Manocha
cs.AI
Аннотация
Способность понимать аудио - включая речь, звуки не являющиеся речью и музыку - является ключевой для эффективного взаимодействия искусственного интеллекта с миром. Мы представляем MMAU, новый бенчмарк, разработанный для оценки моделей мультимодального аудио-понимания на задачах, требующих знаний на уровне эксперта и сложного рассуждения. MMAU включает 10 тыс. тщательно подобранных аудио-клипов, сопоставленных с человечески аннотированными вопросами и ответами на естественном языке, охватывающими речь, окружающие звуки и музыку. Он включает в себя вопросы по извлечению информации и рассуждения, требующие от моделей демонстрации 27 различных навыков на уникальных и сложных задачах. В отличие от существующих бенчмарков, MMAU акцентирует продвинутое восприятие и рассуждение с областными знаниями, ставя перед моделями задачи, аналогичные тем, с которыми сталкиваются эксперты. Мы оцениваем 18 открытых и проприетарных (Large) моделей аудио-языка, демонстрируя значительные вызовы, представленные MMAU. Заметно, что даже самый передовой Gemini Pro v1.5 достигает лишь 52,97% точности, а передовая открытая модель Qwen2-Audio достигает лишь 52,50%, подчеркивая значительный потенциал для улучшения. Мы считаем, что MMAU стимулирует сообщество аудио и мультимодальных исследований к разработке более продвинутых моделей аудио-понимания, способных решать сложные аудио-задачи.
English
The ability to comprehend audio--which includes speech, non-speech sounds,
and music--is crucial for AI agents to interact effectively with the world. We
present MMAU, a novel benchmark designed to evaluate multimodal audio
understanding models on tasks requiring expert-level knowledge and complex
reasoning. MMAU comprises 10k carefully curated audio clips paired with
human-annotated natural language questions and answers spanning speech,
environmental sounds, and music. It includes information extraction and
reasoning questions, requiring models to demonstrate 27 distinct skills across
unique and challenging tasks. Unlike existing benchmarks, MMAU emphasizes
advanced perception and reasoning with domain-specific knowledge, challenging
models to tackle tasks akin to those faced by experts. We assess 18 open-source
and proprietary (Large) Audio-Language Models, demonstrating the significant
challenges posed by MMAU. Notably, even the most advanced Gemini Pro v1.5
achieves only 52.97% accuracy, and the state-of-the-art open-source Qwen2-Audio
achieves only 52.50%, highlighting considerable room for improvement. We
believe MMAU will drive the audio and multimodal research community to develop
more advanced audio understanding models capable of solving complex audio
tasks.Summary
AI-Generated Summary