Music Arena: Valutazione in Tempo Reale per la Generazione di Musica da Testo
Music Arena: Live Evaluation for Text-to-Music
July 28, 2025
Autori: Yonghyun Kim, Wayne Chi, Anastasios N. Angelopoulos, Wei-Lin Chiang, Koichi Saito, Shinji Watanabe, Yuki Mitsufuji, Chris Donahue
cs.AI
Abstract
Presentiamo Music Arena, una piattaforma aperta per la valutazione scalabile delle preferenze umane nei modelli di testo-musica (TTM). Sollecitare le preferenze umane attraverso studi di ascolto rappresenta lo standard di riferimento per la valutazione nel campo TTM, ma questi studi sono costosi da condurre e difficili da confrontare, poiché i protocolli di studio possono variare tra i sistemi. Inoltre, le preferenze umane potrebbero aiutare i ricercatori ad allineare i loro sistemi TTM o a migliorare le metriche di valutazione automatica, ma attualmente non esiste una fonte aperta e rinnovabile di preferenze. Miriamo a colmare queste lacune offrendo una valutazione *in tempo reale* per i TTM. In Music Arena, utenti reali inseriscono prompt di testo di loro scelta e confrontano gli output di due sistemi TTM, e le loro preferenze vengono utilizzate per compilare una classifica. Sebbene Music Arena segua le recenti tendenze di valutazione in altri domini dell'IA, lo abbiamo progettato con caratteristiche chiave specifiche per la musica: un sistema di routing basato su LLM per navigare le firme di tipo eterogenee dei sistemi TTM e la raccolta di preferenze *dettagliate*, inclusi dati di ascolto e feedback in linguaggio naturale. Proponiamo inoltre una politica di rilascio dati continuo con garanzie sulla privacy degli utenti, fornendo una fonte rinnovabile di dati sulle preferenze e aumentando la trasparenza della piattaforma. Attraverso il suo protocollo di valutazione standardizzato, le politiche di accesso ai dati trasparenti e le funzionalità specifiche per la musica, Music Arena non solo affronta le principali sfide nell'ecosistema TTM, ma dimostra anche come la valutazione in tempo reale possa essere adattata in modo ponderato alle caratteristiche uniche di specifici domini dell'IA.
Music Arena è disponibile all'indirizzo: https://music-arena.org
English
We present Music Arena, an open platform for scalable human preference
evaluation of text-to-music (TTM) models. Soliciting human preferences via
listening studies is the gold standard for evaluation in TTM, but these studies
are expensive to conduct and difficult to compare, as study protocols may
differ across systems. Moreover, human preferences might help researchers align
their TTM systems or improve automatic evaluation metrics, but an open and
renewable source of preferences does not currently exist. We aim to fill these
gaps by offering *live* evaluation for TTM. In Music Arena, real-world users
input text prompts of their choosing and compare outputs from two TTM systems,
and their preferences are used to compile a leaderboard. While Music Arena
follows recent evaluation trends in other AI domains, we also design it with
key features tailored to music: an LLM-based routing system to navigate the
heterogeneous type signatures of TTM systems, and the collection of *detailed*
preferences including listening data and natural language feedback. We also
propose a rolling data release policy with user privacy guarantees, providing a
renewable source of preference data and increasing platform transparency.
Through its standardized evaluation protocol, transparent data access policies,
and music-specific features, Music Arena not only addresses key challenges in
the TTM ecosystem but also demonstrates how live evaluation can be thoughtfully
adapted to unique characteristics of specific AI domains.
Music Arena is available at: https://music-arena.org