MuChoMusic:マルチモーダル音声-言語モデルにおける音楽理解の評価
MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models
August 2, 2024
著者: Benno Weck, Ilaria Manco, Emmanouil Benetos, Elio Quinton, George Fazekas, Dmitry Bogdanov
cs.AI
要旨
音声と言語を統合的に処理するマルチモーダルモデルは、音声理解において大きな可能性を秘めており、音楽領域での採用が増えつつある。ユーザーがテキストでクエリを実行し、与えられた音声入力に関する情報を得られるようにすることで、これらのモデルは言語ベースのインターフェースを通じて多様な音楽理解タスクを可能にする潜在力を有している。しかし、その評価には大きな課題があり、現在の手法で音楽関連の入力を正しく解釈する能力を効果的に測定する方法は未だ明確ではない。この問題意識から、我々はMuChoMusicを導入する。これは、音声に焦点を当てたマルチモーダル言語モデルの音楽理解を評価するためのベンチマークである。MuChoMusicは、公開されている2つの音楽データセットから抽出された644の音楽トラックに基づき、人間のアノテーターによって検証された1,187の多肢選択問題で構成されており、多様なジャンルを網羅している。ベンチマーク内の質問は、基本的な音楽概念とそれらが文化的・機能的文脈とどのように関連するかといった複数の次元にわたる知識と推論能力を評価するために設計されている。このベンチマークによる包括的な分析を通じて、我々は5つのオープンソースモデルを評価し、言語モダリティへの過度な依存を含むいくつかの課題を特定し、より優れたマルチモーダル統合の必要性を指摘する。データとコードは公開されている。
English
Multimodal models that jointly process audio and language hold great promise
in audio understanding and are increasingly being adopted in the music domain.
By allowing users to query via text and obtain information about a given audio
input, these models have the potential to enable a variety of music
understanding tasks via language-based interfaces. However, their evaluation
poses considerable challenges, and it remains unclear how to effectively assess
their ability to correctly interpret music-related inputs with current methods.
Motivated by this, we introduce MuChoMusic, a benchmark for evaluating music
understanding in multimodal language models focused on audio. MuChoMusic
comprises 1,187 multiple-choice questions, all validated by human annotators,
on 644 music tracks sourced from two publicly available music datasets, and
covering a wide variety of genres. Questions in the benchmark are crafted to
assess knowledge and reasoning abilities across several dimensions that cover
fundamental musical concepts and their relation to cultural and functional
contexts. Through the holistic analysis afforded by the benchmark, we evaluate
five open-source models and identify several pitfalls, including an
over-reliance on the language modality, pointing to a need for better
multimodal integration. Data and code are open-sourced.Summary
AI-Generated Summary