MMAU-Pro: Сложный и всесторонний эталон для целостной оценки аудио-общего интеллекта

Аннотация

Понимание аудио, включая речь, неречевые звуки и музыку, является важным компонентом для достижения человеческого уровня интеллекта. Следовательно, ИИ-агенты должны демонстрировать целостное понимание аудио, чтобы считаться обладающими общим интеллектом. Однако всесторонняя оценка слухового интеллекта остается сложной задачей. Чтобы устранить этот пробел, мы представляем MMAU-Pro — наиболее полный и тщательно разработанный бенчмарк для оценки аудиоинтеллекта в ИИ-системах. MMAU-Pro содержит 5 305 примеров, где каждый пример включает один или несколько аудиофайлов, сопряженных с вопросами и ответами, созданными экспертами-людьми, охватывающими речь, звуки, музыку и их комбинации. В отличие от существующих бенчмарков, MMAU-Pro оценивает слуховой интеллект по 49 уникальным навыкам и нескольким сложным измерениям, включая понимание длинных аудиозаписей, пространственное аудио-рассуждение, понимание нескольких аудиофайлов и другие. Все вопросы тщательно разработаны для того, чтобы требовать многошагового рассуждения, включая как вопросы с множественным выбором, так и открытые форматы ответов. Важно отметить, что аудиоданные взяты непосредственно «из реального мира», а не из существующих наборов данных с известными распределениями. Мы оценили 22 ведущие открытые и проприетарные мультимодальные ИИ-модели, выявив значительные ограничения: даже передовые модели, такие как Gemini 2.5 Flash и Audio Flamingo 3, достигают точности всего 59,2% и 51,7% соответственно, приближаясь к случайному угадыванию в нескольких категориях. Наш подробный анализ выявляет конкретные недостатки и предоставляет новые инсайты, предлагая практические перспективы для сообщества, чтобы улучшить прогресс будущих ИИ-систем в направлении общего аудиоинтеллекта. Бенчмарк и код доступны по адресу https://sonalkum.github.io/mmau-pro.

English

Audio comprehension-including speech, non-speech sounds, and music-is essential for achieving human-level intelligence. Consequently, AI agents must demonstrate holistic audio understanding to qualify as generally intelligent. However, evaluating auditory intelligence comprehensively remains challenging. To address this gap, we introduce MMAU-Pro, the most comprehensive and rigorously curated benchmark for assessing audio intelligence in AI systems. MMAU-Pro contains 5,305 instances, where each instance has one or more audios paired with human expert-generated question-answer pairs, spanning speech, sound, music, and their combinations. Unlike existing benchmarks, MMAU-Pro evaluates auditory intelligence across 49 unique skills and multiple complex dimensions, including long-form audio comprehension, spatial audio reasoning, multi-audio understanding, among others. All questions are meticulously designed to require deliberate multi-hop reasoning, including both multiple-choice and open-ended response formats. Importantly, audio data is sourced directly ``from the wild" rather than from existing datasets with known distributions. We evaluate 22 leading open-source and proprietary multimodal AI models, revealing significant limitations: even state-of-the-art models such as Gemini 2.5 Flash and Audio Flamingo 3 achieve only 59.2% and 51.7% accuracy, respectively, approaching random performance in multiple categories. Our extensive analysis highlights specific shortcomings and provides novel insights, offering actionable perspectives for the community to enhance future AI systems' progression toward audio general intelligence. The benchmark and code is available at https://sonalkum.github.io/mmau-pro.

MMAU-Pro: Сложный и всесторонний эталон для целостной оценки аудио-общего интеллекта

MMAU-Pro: A Challenging and Comprehensive Benchmark for Holistic Evaluation of Audio General Intelligence

Аннотация

Support