ChatPaper.aiChatPaper

MMAU: 大規模マルチタスク音声理解および推論ベンチマーク

MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark

October 24, 2024
著者: S Sakshi, Utkarsh Tyagi, Sonal Kumar, Ashish Seth, Ramaneswaran Selvakumar, Oriol Nieto, Ramani Duraiswami, Sreyan Ghosh, Dinesh Manocha
cs.AI

要旨

音声(スピーチ、非スピーチ音、音楽を含む)を理解する能力は、AIエージェントが世界と効果的にやり取りするために重要です。私たちは、専門レベルの知識と複雑な推論を必要とするタスクでマルチモーダル音声理解モデルを評価するために設計された画期的なベンチマークであるMMAUを提案します。MMAUには、スピーチ、環境音、音楽を含む自然言語の質問と回答がペアになった、注意深く選定された10,000個のオーディオクリップが含まれています。情報抽出と推論の質問が含まれており、モデルに27種類の異なるスキルを示すことが求められるユニークで挑戦的なタスクが用意されています。既存のベンチマークとは異なり、MMAUはドメイン固有の知識を活用した高度な知覚と推論を重視し、モデルに専門家が直面するようなタスクに取り組むことを求めます。我々は18のオープンソースおよびプロプライエタリ(大規模)オーディオ・ランゲージ・モデルを評価し、MMAUがもたらす重要な課題を示しています。特筆すべきは、最も先進的なGemini Pro v1.5でも正解率がわずか52.97%であり、最先端のオープンソースQwen2-Audioでも52.50%しか達成していないことです。これは、さらなる改善の余地が大きいことを示しています。MMAUが、複雑な音声タスクを解決できるより高度な音声理解モデルを開発するために、音声およびマルチモーダル研究コミュニティを推進すると信じています。
English
The ability to comprehend audio--which includes speech, non-speech sounds, and music--is crucial for AI agents to interact effectively with the world. We present MMAU, a novel benchmark designed to evaluate multimodal audio understanding models on tasks requiring expert-level knowledge and complex reasoning. MMAU comprises 10k carefully curated audio clips paired with human-annotated natural language questions and answers spanning speech, environmental sounds, and music. It includes information extraction and reasoning questions, requiring models to demonstrate 27 distinct skills across unique and challenging tasks. Unlike existing benchmarks, MMAU emphasizes advanced perception and reasoning with domain-specific knowledge, challenging models to tackle tasks akin to those faced by experts. We assess 18 open-source and proprietary (Large) Audio-Language Models, demonstrating the significant challenges posed by MMAU. Notably, even the most advanced Gemini Pro v1.5 achieves only 52.97% accuracy, and the state-of-the-art open-source Qwen2-Audio achieves only 52.50%, highlighting considerable room for improvement. We believe MMAU will drive the audio and multimodal research community to develop more advanced audio understanding models capable of solving complex audio tasks.

Summary

AI-Generated Summary

PDF202November 16, 2024