ミュージックアリーナ:テキストから音楽へのライブ評価
Music Arena: Live Evaluation for Text-to-Music
July 28, 2025
著者: Yonghyun Kim, Wayne Chi, Anastasios N. Angelopoulos, Wei-Lin Chiang, Koichi Saito, Shinji Watanabe, Yuki Mitsufuji, Chris Donahue
cs.AI
要旨
私たちは、テキストから音楽を生成するモデル(TTM)のスケーラブルな人間の嗜好評価のためのオープンプラットフォームであるMusic Arenaを紹介します。リスニングスタディを通じて人間の嗜好を収集することは、TTM評価におけるゴールドスタンダードですが、これらのスタディは実施にコストがかかり、システム間でプロトコルが異なるため比較が困難です。さらに、人間の嗜好は研究者がTTMシステムを調整したり、自動評価指標を改善したりするのに役立つ可能性がありますが、オープンで再生可能な嗜好データのソースは現在存在しません。私たちは、TTMのための*ライブ*評価を提供することでこれらのギャップを埋めることを目指しています。Music Arenaでは、現実世界のユーザーが自分で選んだテキストプロンプトを入力し、2つのTTMシステムの出力を比較し、その嗜好を使用してリーダーボードを編成します。Music Arenaは他のAIドメインにおける最近の評価トレンドに従っていますが、音楽に特化した重要な機能も設計しています:TTMシステムの異なるタイプシグネチャをナビゲートするためのLLMベースのルーティングシステム、リスニングデータや自然言語フィードバックを含む*詳細な*嗜好の収集などです。また、ユーザーのプライバシーを保証したローデータリリースポリシーを提案し、再生可能な嗜好データのソースを提供し、プラットフォームの透明性を高めます。標準化された評価プロトコル、透明性のあるデータアクセスポリシー、音楽に特化した機能を通じて、Music ArenaはTTMエコシステムにおける主要な課題に対処するだけでなく、ライブ評価が特定のAIドメインのユニークな特性にどのように慎重に適応できるかを示しています。
Music Arenaは以下で利用可能です:https://music-arena.org
English
We present Music Arena, an open platform for scalable human preference
evaluation of text-to-music (TTM) models. Soliciting human preferences via
listening studies is the gold standard for evaluation in TTM, but these studies
are expensive to conduct and difficult to compare, as study protocols may
differ across systems. Moreover, human preferences might help researchers align
their TTM systems or improve automatic evaluation metrics, but an open and
renewable source of preferences does not currently exist. We aim to fill these
gaps by offering *live* evaluation for TTM. In Music Arena, real-world users
input text prompts of their choosing and compare outputs from two TTM systems,
and their preferences are used to compile a leaderboard. While Music Arena
follows recent evaluation trends in other AI domains, we also design it with
key features tailored to music: an LLM-based routing system to navigate the
heterogeneous type signatures of TTM systems, and the collection of *detailed*
preferences including listening data and natural language feedback. We also
propose a rolling data release policy with user privacy guarantees, providing a
renewable source of preference data and increasing platform transparency.
Through its standardized evaluation protocol, transparent data access policies,
and music-specific features, Music Arena not only addresses key challenges in
the TTM ecosystem but also demonstrates how live evaluation can be thoughtfully
adapted to unique characteristics of specific AI domains.
Music Arena is available at: https://music-arena.org