ChatPaper.aiChatPaper

APEX: Groß angelegte, ästhetisch informierte Beliebtheitsvorhersage für KI-generierte Musik in Multi-Task-Umgebungen

APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music

May 5, 2026
Autoren: Jaavid Aktar Husain, Dorien Herremans
cs.AI

Zusammenfassung

Die Vorhersage von Musikpopularität hat zunehmendes Forschungsinteresse geweckt, das für Künstler, Plattformen und Empfehlungssysteme relevant ist. Der explosive Aufstieg von KI-generierten Musikplattformen hat jedoch eine völlig neue und weitgehend unerforschte Landschaft geschaffen, in der täglich eine Flut von Songs produziert und konsumiert wird, ohne die traditionellen Marker von Künstlerreputation oder Labelunterstützung. Eine Schlüsselgröße, die in diesem Bestreben noch unerforscht ist, ist die ästhetische Qualität. Wir präsentieren APEX, den ersten Multi-Task-Learning-Ansatz im großen Maßstab für KI-generierte Musik, trainiert mit über 211.000 Songs (10.000 Stunden Audio) von Suno und Udio. Das Framework sagt gleichzeitig engagementsbasierte Popularitätssignale – Streams und Like-Scores – sowie fünf perzeptive Dimensionen ästhetischer Qualität aus gefrorenen Audio-Embeddings vorher, die mit MERT, einem selbstüberwachten Musikverständnismodell, extrahiert wurden. Ästhetische Qualität und Popularität erfassen komplementäre Aspekte von Musik, die sich gemeinsam als wertvoll erweisen: In einer Out-of-Distribution-Evaluation auf dem Music-Arena-Datensatz, der paarweise menschliche Präferenzvergleiche über elf generative Musiksysteme umfasst, die während des Trainings unbekannt waren, verbessert die Einbeziehung ästhetischer Merkmale durchgängig die Präferenzvorhersage. Dies demonstriert eine starke Generalisierungsfähigkeit der gelernten Repräsentationen über generative Architekturen hinweg.
English
Music popularity prediction has attracted growing research interest, with relevance to artists, platforms, and recommendation systems. However, the explosive rise of AI-generated music platforms has created an entirely new and largely unexplored landscape, where a surge of songs is produced and consumed daily without the traditional markers of artist reputation or label backing. Key, yet unexplored in this pursuit is aesthetic quality. We propose APEX, the first large-scale multi-task learning framework for AI-generated music, trained on over 211k songs (10k hours of audio) from Suno and Udio, that jointly predicts engagement-based popularity signals - streams and likes scores - alongside five perceptual aesthetic quality dimensions from frozen audio embeddings extracted from MERT, a self-supervised music understanding model. Aesthetic quality and popularity capture complementary aspects of music that together prove valuable: in an out-of-distribution evaluation on the Music Arena dataset, comprising pairwise human preference battles across eleven generative music systems unseen during training, including aesthetic features consistently improves preference prediction, demonstrating strong generalisation of the learned representations across generative architectures.
PDF21May 8, 2026