ChatPaper.aiChatPaper

APEX: Predicción de Popularidad a Gran Escala Informada por la Estética para Música Generada por IA en Múltiples Tareas

APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music

May 5, 2026
Autores: Jaavid Aktar Husain, Dorien Herremans
cs.AI

Resumen

La predicción de la popularidad musical ha atraído un creciente interés investigador, con relevancia para artistas, plataformas y sistemas de recomendación. Sin embargo, el auge explosivo de las plataformas de música generada por IA ha creado un panorama completamente nuevo y en gran medida inexplorado, donde se producen y consumen diariamente una avalancha de canciones sin los marcadores tradicionales de reputación del artista o respaldo discográfico. Un aspecto clave, y aún no explorado en esta búsqueda, es la calidad estética. Proponemos APEX, el primer marco de aprendizaje multitarea a gran escala para música generada por IA, entrenado con más de 211k canciones (10k horas de audio) de Suno y Udio, que predice conjuntamente señales de popularidad basadas en el compromiso —puntuaciones de reproducciones y 'me gusta'— junto con cinco dimensiones perceptuales de calidad estética, a partir de *embeddings* de audio extraídos y congelados de MERT, un modelo de comprensión musical auto-supervisado. La calidad estética y la popularidad capturan aspectos complementarios de la música que, en conjunto, demuestran ser valiosos: en una evaluación fuera de distribución en el conjunto de datos Music Arena, que comprende batallas de preferencia humana por pares en once sistemas de música generativa no vistos durante el entrenamiento, la inclusión de características estéticas mejora consistentemente la predicción de preferencias, demostrando una fuerte generalización de las representaciones aprendidas a través de arquitecturas generativas.
English
Music popularity prediction has attracted growing research interest, with relevance to artists, platforms, and recommendation systems. However, the explosive rise of AI-generated music platforms has created an entirely new and largely unexplored landscape, where a surge of songs is produced and consumed daily without the traditional markers of artist reputation or label backing. Key, yet unexplored in this pursuit is aesthetic quality. We propose APEX, the first large-scale multi-task learning framework for AI-generated music, trained on over 211k songs (10k hours of audio) from Suno and Udio, that jointly predicts engagement-based popularity signals - streams and likes scores - alongside five perceptual aesthetic quality dimensions from frozen audio embeddings extracted from MERT, a self-supervised music understanding model. Aesthetic quality and popularity capture complementary aspects of music that together prove valuable: in an out-of-distribution evaluation on the Music Arena dataset, comprising pairwise human preference battles across eleven generative music systems unseen during training, including aesthetic features consistently improves preference prediction, demonstrating strong generalisation of the learned representations across generative architectures.
PDF21May 8, 2026