ChatPaper.aiChatPaper

APEX: Grootschalige voorspelling van populariteit voor AI-gegenereerde muziek met esthetisch geïnformeerde multitask-learning

APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music

May 5, 2026
Auteurs: Jaavid Aktar Husain, Dorien Herremans
cs.AI

Samenvatting

Het voorspellen van muziekpopulariteit heeft een groeiende onderzoeksinteresse gewekt, vanwege de relevantie voor artiesten, platformen en aanbevelingssystemen. De explosieve opkomst van door AI gegenereerde muziekplatforms heeft echter een geheel nieuw en grotendeels onontgonnen landschap gecreëerd, waar dagelijks een stroom van liedjes wordt geproduceerd en geconsumeerd zonder de traditionele indicatoren zoals artiestenreputatie of labelondersteuning. Een cruciale, maar nog ononderzochte factor in deze zoektocht is de esthetische kwaliteit. Wij presenteren APEX, het eerste grootschalige multi-task leerframework voor door AI gegenereerde muziek, getraind op meer dan 211.000 nummers (10.000 uur audio) van Suno en Udio. Dit framework voorspelt gezamenlijk op betrokkenheid gebaseerde populariteitssignalen – streams en likes-scores – naast vijf perceptuele esthetische kwaliteitsdimensies, op basis van bevroren audio-embeddingen die zijn geëxtraheerd uit MERT, een zelfgesuperviseerd muziekbegripsmodel. Esthetische kwaliteit en populariteit vangen complementaire aspecten van muziek die samen waardevol blijken: in een out-of-distribution evaluatie op de Music Arena-dataset, die bestaat uit paarsgewijze menselijke voorkeursgevechten over elf generatieve muzieksystemen die niet tijdens de training zijn gezien, verbetert het opnemen van esthetische kenmerken consistent de voorkeursvoorspelling. Dit toont een sterke generalisatie van de geleerde representaties aan over verschillende generatieve architecturen heen.
English
Music popularity prediction has attracted growing research interest, with relevance to artists, platforms, and recommendation systems. However, the explosive rise of AI-generated music platforms has created an entirely new and largely unexplored landscape, where a surge of songs is produced and consumed daily without the traditional markers of artist reputation or label backing. Key, yet unexplored in this pursuit is aesthetic quality. We propose APEX, the first large-scale multi-task learning framework for AI-generated music, trained on over 211k songs (10k hours of audio) from Suno and Udio, that jointly predicts engagement-based popularity signals - streams and likes scores - alongside five perceptual aesthetic quality dimensions from frozen audio embeddings extracted from MERT, a self-supervised music understanding model. Aesthetic quality and popularity capture complementary aspects of music that together prove valuable: in an out-of-distribution evaluation on the Music Arena dataset, comprising pairwise human preference battles across eleven generative music systems unseen during training, including aesthetic features consistently improves preference prediction, demonstrating strong generalisation of the learned representations across generative architectures.
PDF21May 8, 2026