Music Arena : Évaluation en temps réel pour la génération de musique à partir de texte
Music Arena: Live Evaluation for Text-to-Music
July 28, 2025
papers.authors: Yonghyun Kim, Wayne Chi, Anastasios N. Angelopoulos, Wei-Lin Chiang, Koichi Saito, Shinji Watanabe, Yuki Mitsufuji, Chris Donahue
cs.AI
papers.abstract
Nous présentons Music Arena, une plateforme ouverte pour l'évaluation scalable des préférences humaines dans les modèles de texte-à-musique (TTM). Solliciter les préférences humaines via des études d'écoute constitue la méthode de référence pour l'évaluation en TTM, mais ces études sont coûteuses à réaliser et difficiles à comparer, car les protocoles d'étude peuvent varier entre les systèmes. De plus, les préférences humaines pourraient aider les chercheurs à aligner leurs systèmes TTM ou à améliorer les métriques d'évaluation automatiques, mais une source ouverte et renouvelable de préférences n'existe pas actuellement. Nous visons à combler ces lacunes en proposant une évaluation *en temps réel* pour le TTM. Dans Music Arena, des utilisateurs du monde réel saisissent des prompts textuels de leur choix et comparent les sorties de deux systèmes TTM, et leurs préférences sont utilisées pour établir un classement. Bien que Music Arena s'inscrive dans les tendances récentes d'évaluation dans d'autres domaines de l'IA, nous l'avons également conçu avec des fonctionnalités clés adaptées à la musique : un système de routage basé sur un LLM pour naviguer dans les signatures de type hétérogènes des systèmes TTM, et la collecte de préférences *détaillées* incluant des données d'écoute et des retours en langage naturel. Nous proposons également une politique de publication continue des données avec des garanties de confidentialité pour les utilisateurs, offrant ainsi une source renouvelable de données de préférences et augmentant la transparence de la plateforme. Grâce à son protocole d'évaluation standardisé, ses politiques d'accès transparentes aux données et ses fonctionnalités spécifiques à la musique, Music Arena non seulement relève les principaux défis de l'écosystème TTM, mais démontre également comment l'évaluation en temps réel peut être judicieusement adaptée aux caractéristiques uniques de domaines spécifiques de l'IA.
Music Arena est disponible à l'adresse : https://music-arena.org
English
We present Music Arena, an open platform for scalable human preference
evaluation of text-to-music (TTM) models. Soliciting human preferences via
listening studies is the gold standard for evaluation in TTM, but these studies
are expensive to conduct and difficult to compare, as study protocols may
differ across systems. Moreover, human preferences might help researchers align
their TTM systems or improve automatic evaluation metrics, but an open and
renewable source of preferences does not currently exist. We aim to fill these
gaps by offering *live* evaluation for TTM. In Music Arena, real-world users
input text prompts of their choosing and compare outputs from two TTM systems,
and their preferences are used to compile a leaderboard. While Music Arena
follows recent evaluation trends in other AI domains, we also design it with
key features tailored to music: an LLM-based routing system to navigate the
heterogeneous type signatures of TTM systems, and the collection of *detailed*
preferences including listening data and natural language feedback. We also
propose a rolling data release policy with user privacy guarantees, providing a
renewable source of preference data and increasing platform transparency.
Through its standardized evaluation protocol, transparent data access policies,
and music-specific features, Music Arena not only addresses key challenges in
the TTM ecosystem but also demonstrates how live evaluation can be thoughtfully
adapted to unique characteristics of specific AI domains.
Music Arena is available at: https://music-arena.org