ChatPaper.aiChatPaper

MMAU-Pro: オーディオ汎用知能の包括的評価のための挑戦的で総合的なベンチマーク

MMAU-Pro: A Challenging and Comprehensive Benchmark for Holistic Evaluation of Audio General Intelligence

August 19, 2025
著者: Sonal Kumar, Šimon Sedláček, Vaibhavi Lokegaonkar, Fernando López, Wenyi Yu, Nishit Anand, Hyeonggon Ryu, Lichang Chen, Maxim Plička, Miroslav Hlaváček, William Fineas Ellingwood, Sathvik Udupa, Siyuan Hou, Allison Ferner, Sara Barahona, Cecilia Bolaños, Satish Rahi, Laura Herrera-Alarcón, Satvik Dixit, Siddhi Patil, Soham Deshmukh, Lasha Koroshinadze, Yao Liu, Leibny Paola Garcia Perera, Eleni Zanou, Themos Stafylakis, Joon Son Chung, David Harwath, Chao Zhang, Dinesh Manocha, Alicia Lozano-Diez, Santosh Kesiraju, Sreyan Ghosh, Ramani Duraiswami
cs.AI

要旨

音声理解—音声、非音声の音、音楽を含む—は、人間レベルの知能を達成するために不可欠です。そのため、AIエージェントが一般的な知能を持つと認められるためには、包括的な音声理解を実証する必要があります。しかし、聴覚的知能を包括的に評価することは依然として困難です。このギャップを埋めるため、我々はMMAU-Proを紹介します。これは、AIシステムの音声知能を評価するための最も包括的で厳密に精選されたベンチマークです。MMAU-Proは5,305のインスタンスを含み、各インスタンスには1つ以上の音声と、人間の専門家が生成した質問-回答ペアがペアリングされており、音声、音、音楽、およびそれらの組み合わせをカバーしています。既存のベンチマークとは異なり、MMAU-Proは49のユニークなスキルと複数の複雑な次元にわたって聴覚的知能を評価します。これには、長文音声理解、空間音声推論、複数音声理解などが含まれます。すべての質問は、意図的なマルチホップ推論を必要とするよう綿密に設計されており、多肢選択式と自由回答形式の両方を含みます。重要な点として、音声データは既知の分布を持つ既存のデータセットではなく、「野生」から直接収集されています。我々は22の主要なオープンソースおよびプロプライエタリのマルチモーダルAIモデルを評価し、重大な制約を明らかにしました:Gemini 2.5 FlashやAudio Flamingo 3のような最先端のモデルでさえ、それぞれ59.2%と51.7%の精度しか達成せず、複数のカテゴリーでランダムな性能に近い結果を示しました。我々の詳細な分析は、特定の欠点を強調し、新たな洞察を提供し、将来のAIシステムが音声一般知能に向けて進化するための実践的な視点をコミュニティに提供します。ベンチマークとコードはhttps://sonalkum.github.io/mmau-proで利用可能です。
English
Audio comprehension-including speech, non-speech sounds, and music-is essential for achieving human-level intelligence. Consequently, AI agents must demonstrate holistic audio understanding to qualify as generally intelligent. However, evaluating auditory intelligence comprehensively remains challenging. To address this gap, we introduce MMAU-Pro, the most comprehensive and rigorously curated benchmark for assessing audio intelligence in AI systems. MMAU-Pro contains 5,305 instances, where each instance has one or more audios paired with human expert-generated question-answer pairs, spanning speech, sound, music, and their combinations. Unlike existing benchmarks, MMAU-Pro evaluates auditory intelligence across 49 unique skills and multiple complex dimensions, including long-form audio comprehension, spatial audio reasoning, multi-audio understanding, among others. All questions are meticulously designed to require deliberate multi-hop reasoning, including both multiple-choice and open-ended response formats. Importantly, audio data is sourced directly ``from the wild" rather than from existing datasets with known distributions. We evaluate 22 leading open-source and proprietary multimodal AI models, revealing significant limitations: even state-of-the-art models such as Gemini 2.5 Flash and Audio Flamingo 3 achieve only 59.2% and 51.7% accuracy, respectively, approaching random performance in multiple categories. Our extensive analysis highlights specific shortcomings and provides novel insights, offering actionable perspectives for the community to enhance future AI systems' progression toward audio general intelligence. The benchmark and code is available at https://sonalkum.github.io/mmau-pro.
PDF31August 20, 2025