ChatPaper.aiChatPaper

APEX : Prédiction à grande échelle de la popularité de la musique générée par IA, informée par l'esthétique et multi-tâches

APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music

May 5, 2026
Auteurs: Jaavid Aktar Husain, Dorien Herremans
cs.AI

Résumé

La prédiction de la popularité musicale suscite un intérêt croissant dans la recherche, avec des implications pour les artistes, les plateformes et les systèmes de recommandation. Cependant, l'essor explosif des plateformes de musique générée par IA a créé un paysage entièrement nouveau et largement inexploré, où une multitude de chansons sont produites et consommées quotidiennement sans les indicateurs traditionnels de réputation d'artiste ou de soutien de label. La qualité esthétique constitue un aspect crucial mais encore inexploré dans cette démarche. Nous proposons APEX, le premier cadre d'apprentissage multi-tâches à grande échelle pour la musique générée par IA, entraîné sur plus de 211 000 chansons (10 000 heures d'audio) provenant de Suno et Udio, qui prédit conjointement les signaux de popularité basés sur l'engagement - scores de streams et de likes - aux côtés de cinq dimensions perceptives de qualité esthétique, à partir d'embeddings audio figés extraits de MERT, un modèle auto-supervisé de compréhension musicale. La qualité esthétique et la popularité capturent des aspects complémentaires de la musique qui, combinés, s'avèrent précieux : dans une évaluation hors distribution sur le jeu de données Music Arena, comprenant des batailles de préférences humaines par paires across onze systèmes de musique générative non vus pendant l'entraînement, l'intégration des caractéristiques esthétiques améliore systématiquement la prédiction des préférences, démontrant une forte généralisation des représentations apprises across les architectures génératives.
English
Music popularity prediction has attracted growing research interest, with relevance to artists, platforms, and recommendation systems. However, the explosive rise of AI-generated music platforms has created an entirely new and largely unexplored landscape, where a surge of songs is produced and consumed daily without the traditional markers of artist reputation or label backing. Key, yet unexplored in this pursuit is aesthetic quality. We propose APEX, the first large-scale multi-task learning framework for AI-generated music, trained on over 211k songs (10k hours of audio) from Suno and Udio, that jointly predicts engagement-based popularity signals - streams and likes scores - alongside five perceptual aesthetic quality dimensions from frozen audio embeddings extracted from MERT, a self-supervised music understanding model. Aesthetic quality and popularity capture complementary aspects of music that together prove valuable: in an out-of-distribution evaluation on the Music Arena dataset, comprising pairwise human preference battles across eleven generative music systems unseen during training, including aesthetic features consistently improves preference prediction, demonstrating strong generalisation of the learned representations across generative architectures.
PDF21May 8, 2026