MMAU-Pro: 오디오 일반 지능의 종합적 평가를 위한 도전적이고 포괄적인 벤치마크
MMAU-Pro: A Challenging and Comprehensive Benchmark for Holistic Evaluation of Audio General Intelligence
August 19, 2025
저자: Sonal Kumar, Šimon Sedláček, Vaibhavi Lokegaonkar, Fernando López, Wenyi Yu, Nishit Anand, Hyeonggon Ryu, Lichang Chen, Maxim Plička, Miroslav Hlaváček, William Fineas Ellingwood, Sathvik Udupa, Siyuan Hou, Allison Ferner, Sara Barahona, Cecilia Bolaños, Satish Rahi, Laura Herrera-Alarcón, Satvik Dixit, Siddhi Patil, Soham Deshmukh, Lasha Koroshinadze, Yao Liu, Leibny Paola Garcia Perera, Eleni Zanou, Themos Stafylakis, Joon Son Chung, David Harwath, Chao Zhang, Dinesh Manocha, Alicia Lozano-Diez, Santosh Kesiraju, Sreyan Ghosh, Ramani Duraiswami
cs.AI
초록
오디오 이해—음성, 비음성 소리, 음악을 포함한—는 인간 수준의 지능을 달성하기 위해 필수적입니다. 따라서, 일반 지능을 갖춘 것으로 간주되기 위해서는 AI 에이전트가 포괄적인 오디오 이해 능력을 보여주어야 합니다. 그러나, 청각 지능을 종합적으로 평가하는 것은 여전히 어려운 과제로 남아 있습니다. 이러한 격차를 해결하기 위해, 우리는 AI 시스템의 오디오 지능을 평가하기 위해 가장 포괄적이고 엄격하게 선별된 벤치마크인 MMAU-Pro를 소개합니다. MMAU-Pro는 5,305개의 인스턴스를 포함하며, 각 인스턴스는 하나 이상의 오디오와 인간 전문가가 생성한 질문-답변 쌍으로 구성되어 있으며, 음성, 소리, 음악 및 이들의 조합을 다룹니다. 기존 벤치마크와 달리, MMAU-Pro는 49가지 독특한 기술과 여러 복잡한 차원에 걸쳐 청각 지능을 평가합니다. 이는 장편 오디오 이해, 공간 오디오 추론, 다중 오디오 이해 등을 포함합니다. 모든 질문은 신중하게 설계되어 다중 단계 추론을 요구하며, 객관식과 주관식 응답 형식을 모두 포함합니다. 중요한 점은, 오디오 데이터가 기존의 알려진 분포를 가진 데이터셋이 아니라 "야생에서" 직접 수집되었다는 것입니다. 우리는 22개의 주요 오픈소스 및 독점 멀티모달 AI 모델을 평가하여 상당한 한계를 발견했습니다: Gemini 2.5 Flash와 Audio Flamingo 3과 같은 최첨단 모델조차 각각 59.2%와 51.7%의 정확도를 보이며, 여러 범주에서 무작위 성능에 근접했습니다. 우리의 광범위한 분석은 특정 단점을 강조하고 새로운 통찰을 제공하여, 향후 AI 시스템이 오디오 일반 지능을 향해 나아가기 위한 실행 가능한 관점을 제시합니다. 벤치마크와 코드는 https://sonalkum.github.io/mmau-pro에서 확인할 수 있습니다.
English
Audio comprehension-including speech, non-speech sounds, and music-is
essential for achieving human-level intelligence. Consequently, AI agents must
demonstrate holistic audio understanding to qualify as generally intelligent.
However, evaluating auditory intelligence comprehensively remains challenging.
To address this gap, we introduce MMAU-Pro, the most comprehensive and
rigorously curated benchmark for assessing audio intelligence in AI systems.
MMAU-Pro contains 5,305 instances, where each instance has one or more audios
paired with human expert-generated question-answer pairs, spanning speech,
sound, music, and their combinations. Unlike existing benchmarks, MMAU-Pro
evaluates auditory intelligence across 49 unique skills and multiple complex
dimensions, including long-form audio comprehension, spatial audio reasoning,
multi-audio understanding, among others. All questions are meticulously
designed to require deliberate multi-hop reasoning, including both
multiple-choice and open-ended response formats. Importantly, audio data is
sourced directly ``from the wild" rather than from existing datasets with known
distributions. We evaluate 22 leading open-source and proprietary multimodal AI
models, revealing significant limitations: even state-of-the-art models such as
Gemini 2.5 Flash and Audio Flamingo 3 achieve only 59.2% and 51.7% accuracy,
respectively, approaching random performance in multiple categories. Our
extensive analysis highlights specific shortcomings and provides novel
insights, offering actionable perspectives for the community to enhance future
AI systems' progression toward audio general intelligence. The benchmark and
code is available at https://sonalkum.github.io/mmau-pro.