MMAU-Pro: Сложный и всесторонний эталон для целостной оценки аудио-общего интеллекта
MMAU-Pro: A Challenging and Comprehensive Benchmark for Holistic Evaluation of Audio General Intelligence
August 19, 2025
Авторы: Sonal Kumar, Šimon Sedláček, Vaibhavi Lokegaonkar, Fernando López, Wenyi Yu, Nishit Anand, Hyeonggon Ryu, Lichang Chen, Maxim Plička, Miroslav Hlaváček, William Fineas Ellingwood, Sathvik Udupa, Siyuan Hou, Allison Ferner, Sara Barahona, Cecilia Bolaños, Satish Rahi, Laura Herrera-Alarcón, Satvik Dixit, Siddhi Patil, Soham Deshmukh, Lasha Koroshinadze, Yao Liu, Leibny Paola Garcia Perera, Eleni Zanou, Themos Stafylakis, Joon Son Chung, David Harwath, Chao Zhang, Dinesh Manocha, Alicia Lozano-Diez, Santosh Kesiraju, Sreyan Ghosh, Ramani Duraiswami
cs.AI
Аннотация
Понимание аудио, включая речь, неречевые звуки и музыку, является важным компонентом для достижения человеческого уровня интеллекта. Следовательно, ИИ-агенты должны демонстрировать целостное понимание аудио, чтобы считаться обладающими общим интеллектом. Однако всесторонняя оценка слухового интеллекта остается сложной задачей. Чтобы устранить этот пробел, мы представляем MMAU-Pro — наиболее полный и тщательно разработанный бенчмарк для оценки аудиоинтеллекта в ИИ-системах. MMAU-Pro содержит 5 305 примеров, где каждый пример включает один или несколько аудиофайлов, сопряженных с вопросами и ответами, созданными экспертами-людьми, охватывающими речь, звуки, музыку и их комбинации. В отличие от существующих бенчмарков, MMAU-Pro оценивает слуховой интеллект по 49 уникальным навыкам и нескольким сложным измерениям, включая понимание длинных аудиозаписей, пространственное аудио-рассуждение, понимание нескольких аудиофайлов и другие. Все вопросы тщательно разработаны для того, чтобы требовать многошагового рассуждения, включая как вопросы с множественным выбором, так и открытые форматы ответов. Важно отметить, что аудиоданные взяты непосредственно «из реального мира», а не из существующих наборов данных с известными распределениями. Мы оценили 22 ведущие открытые и проприетарные мультимодальные ИИ-модели, выявив значительные ограничения: даже передовые модели, такие как Gemini 2.5 Flash и Audio Flamingo 3, достигают точности всего 59,2% и 51,7% соответственно, приближаясь к случайному угадыванию в нескольких категориях. Наш подробный анализ выявляет конкретные недостатки и предоставляет новые инсайты, предлагая практические перспективы для сообщества, чтобы улучшить прогресс будущих ИИ-систем в направлении общего аудиоинтеллекта. Бенчмарк и код доступны по адресу https://sonalkum.github.io/mmau-pro.
English
Audio comprehension-including speech, non-speech sounds, and music-is
essential for achieving human-level intelligence. Consequently, AI agents must
demonstrate holistic audio understanding to qualify as generally intelligent.
However, evaluating auditory intelligence comprehensively remains challenging.
To address this gap, we introduce MMAU-Pro, the most comprehensive and
rigorously curated benchmark for assessing audio intelligence in AI systems.
MMAU-Pro contains 5,305 instances, where each instance has one or more audios
paired with human expert-generated question-answer pairs, spanning speech,
sound, music, and their combinations. Unlike existing benchmarks, MMAU-Pro
evaluates auditory intelligence across 49 unique skills and multiple complex
dimensions, including long-form audio comprehension, spatial audio reasoning,
multi-audio understanding, among others. All questions are meticulously
designed to require deliberate multi-hop reasoning, including both
multiple-choice and open-ended response formats. Importantly, audio data is
sourced directly ``from the wild" rather than from existing datasets with known
distributions. We evaluate 22 leading open-source and proprietary multimodal AI
models, revealing significant limitations: even state-of-the-art models such as
Gemini 2.5 Flash and Audio Flamingo 3 achieve only 59.2% and 51.7% accuracy,
respectively, approaching random performance in multiple categories. Our
extensive analysis highlights specific shortcomings and provides novel
insights, offering actionable perspectives for the community to enhance future
AI systems' progression toward audio general intelligence. The benchmark and
code is available at https://sonalkum.github.io/mmau-pro.