ChatPaper.aiChatPaper

MMAU-Pro: Un Benchmark Impegnativo e Completo per la Valutazione Olistica dell'Intelligenza Generale nell'Audio

MMAU-Pro: A Challenging and Comprehensive Benchmark for Holistic Evaluation of Audio General Intelligence

August 19, 2025
Autori: Sonal Kumar, Šimon Sedláček, Vaibhavi Lokegaonkar, Fernando López, Wenyi Yu, Nishit Anand, Hyeonggon Ryu, Lichang Chen, Maxim Plička, Miroslav Hlaváček, William Fineas Ellingwood, Sathvik Udupa, Siyuan Hou, Allison Ferner, Sara Barahona, Cecilia Bolaños, Satish Rahi, Laura Herrera-Alarcón, Satvik Dixit, Siddhi Patil, Soham Deshmukh, Lasha Koroshinadze, Yao Liu, Leibny Paola Garcia Perera, Eleni Zanou, Themos Stafylakis, Joon Son Chung, David Harwath, Chao Zhang, Dinesh Manocha, Alicia Lozano-Diez, Santosh Kesiraju, Sreyan Ghosh, Ramani Duraiswami
cs.AI

Abstract

La comprensione audio - inclusi discorsi, suoni non verbali e musica - è essenziale per raggiungere un'intelligenza di livello umano. Di conseguenza, gli agenti di IA devono dimostrare una comprensione audio olistica per qualificarsi come generalmente intelligenti. Tuttavia, valutare in modo completo l'intelligenza uditiva rimane una sfida. Per colmare questa lacuna, introduciamo MMAU-Pro, il benchmark più completo e rigorosamente curato per valutare l'intelligenza audio nei sistemi di IA. MMAU-Pro contiene 5.305 istanze, in cui ciascuna istanza ha uno o più audio abbinati a coppie domanda-risposta generate da esperti umani, che coprono discorsi, suoni, musica e loro combinazioni. A differenza dei benchmark esistenti, MMAU-Pro valuta l'intelligenza uditiva attraverso 49 abilità uniche e molteplici dimensioni complesse, tra cui la comprensione di audio di lunga durata, il ragionamento spaziale audio, la comprensione di più audio, tra gli altri. Tutte le domande sono meticolosamente progettate per richiedere un ragionamento multi-hop deliberato, includendo sia formati a scelta multipla che a risposta aperta. È importante sottolineare che i dati audio sono raccolti direttamente "dal mondo reale" piuttosto che da dataset esistenti con distribuzioni note. Valutiamo 22 modelli di IA multimodali open-source e proprietari leader, rivelando limitazioni significative: anche modelli all'avanguardia come Gemini 2.5 Flash e Audio Flamingo 3 raggiungono solo il 59,2% e il 51,7% di accuratezza, rispettivamente, avvicinandosi a prestazioni casuali in più categorie. La nostra analisi estesa evidenzia specifiche carenze e fornisce nuove intuizioni, offrendo prospettive attuabili per la comunità per migliorare il progresso futuro dei sistemi di IA verso l'intelligenza audio generale. Il benchmark e il codice sono disponibili all'indirizzo https://sonalkum.github.io/mmau-pro.
English
Audio comprehension-including speech, non-speech sounds, and music-is essential for achieving human-level intelligence. Consequently, AI agents must demonstrate holistic audio understanding to qualify as generally intelligent. However, evaluating auditory intelligence comprehensively remains challenging. To address this gap, we introduce MMAU-Pro, the most comprehensive and rigorously curated benchmark for assessing audio intelligence in AI systems. MMAU-Pro contains 5,305 instances, where each instance has one or more audios paired with human expert-generated question-answer pairs, spanning speech, sound, music, and their combinations. Unlike existing benchmarks, MMAU-Pro evaluates auditory intelligence across 49 unique skills and multiple complex dimensions, including long-form audio comprehension, spatial audio reasoning, multi-audio understanding, among others. All questions are meticulously designed to require deliberate multi-hop reasoning, including both multiple-choice and open-ended response formats. Importantly, audio data is sourced directly ``from the wild" rather than from existing datasets with known distributions. We evaluate 22 leading open-source and proprietary multimodal AI models, revealing significant limitations: even state-of-the-art models such as Gemini 2.5 Flash and Audio Flamingo 3 achieve only 59.2% and 51.7% accuracy, respectively, approaching random performance in multiple categories. Our extensive analysis highlights specific shortcomings and provides novel insights, offering actionable perspectives for the community to enhance future AI systems' progression toward audio general intelligence. The benchmark and code is available at https://sonalkum.github.io/mmau-pro.
PDF72August 20, 2025