APEX: Прогнозирование популярности AI-генерируемой музыки в крупных масштабах с учетом эстетических аспектов в рамках многозадачного подхода
APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music
May 5, 2026
Авторы: Jaavid Aktar Husain, Dorien Herremans
cs.AI
Аннотация
Прогнозирование популярности музыки привлекает растущий исследовательский интерес, имея значение для артистов, платформ и систем рекомендаций. Однако взрывной рост платформ для генерации музыки средствами ИИ создал совершенно новую и в значительной степени неисследованную среду, где ежедневно производится и потребляется огромное количество песен без традиционных маркеров, таких как репутация исполнителя или поддержка лейбла. Ключевым, но не изученным в этом направлении аспектом является эстетическое качество. Мы предлагаем APEX — первую крупномасштабную многозадачную框架 обучения для музыки, сгенерированной ИИ, обученную на более чем 211 тыс. треков (10 тыс. часов аудио) с платформ Suno и Udio, которая совместно прогнозирует показатели популярности на основе вовлеченности — баллы потокового вещания и лайков — наряду с пятью перцептивными измерениями эстетического качества, используя замороженные аудио-эмбеддинги, извлеченные из MERT, самообучающейся модели понимания музыки. Эстетическое качество и популярность отражают взаимодополняющие аспекты музыки, которые в совокупности оказываются ценными: в оценке на данных вне распределения (out-of-distribution) на наборе данных Music Arena, содержащем парные сравнения человеческих предпочтений для одиннадцати генеративных музыкальных систем, не встречавшихся во время обучения, включение эстетических характеристик последовательно улучшает прогнозирование предпочтений, демонстрируя сильную обобщающую способность изученных представлений across различными генеративными архитектурами.
English
Music popularity prediction has attracted growing research interest, with relevance to artists, platforms, and recommendation systems. However, the explosive rise of AI-generated music platforms has created an entirely new and largely unexplored landscape, where a surge of songs is produced and consumed daily without the traditional markers of artist reputation or label backing. Key, yet unexplored in this pursuit is aesthetic quality. We propose APEX, the first large-scale multi-task learning framework for AI-generated music, trained on over 211k songs (10k hours of audio) from Suno and Udio, that jointly predicts engagement-based popularity signals - streams and likes scores - alongside five perceptual aesthetic quality dimensions from frozen audio embeddings extracted from MERT, a self-supervised music understanding model. Aesthetic quality and popularity capture complementary aspects of music that together prove valuable: in an out-of-distribution evaluation on the Music Arena dataset, comprising pairwise human preference battles across eleven generative music systems unseen during training, including aesthetic features consistently improves preference prediction, demonstrating strong generalisation of the learned representations across generative architectures.