APEX: AI 생성 음악을 위한 대규모 다중 작업 미학 기반 인기도 예측
APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music
May 5, 2026
저자: Jaavid Aktar Husain, Dorien Herremans
cs.AI
초록
음악 인기도 예측은 아티스트, 플랫폼, 추천 시스템과 관련하여 점차 연구 관심을 끌고 있다. 그러나 AI 생성 음악 플랫폼의 폭발적 증가는 완전히 새롭고 거의 탐구되지 않은 영역을 만들어냈으며, 이곳에서는 아티스트의 평판이나 레이블 지원과 같은 전통적 지표 없이 매일 많은 노래가 생산 및 소비된다. 이러한 탐구에서 핵심적이면서도 아직 연구되지 않은 것은 미적 품질이다. 우리는 AI 생성 음악을 위한 최초의 대규모 다중 작업 학습 프레임워크인 APEX를 제안한다. 이 프레임워크는 Suno와 Udio의 211,000곡 이상(10,000시간 분량 오디오)으로 훈련되었으며, 자기 지도 음악 이해 모델인 MERT에서 추출한 고정 오디오 임베딩을 기반으로 참여 기반 인기도 신호(스트리밍 및 좋아요 점수)와 5가지 지각적 미적 품질 차원을 함께 예측한다. 미적 품질과 인기도는 상호 보완적인 음악의 측면을 포착하며, 함께 사용될 때 가치를 입증한다: 훈련期间 보지 않은 11개 생성 음악 시스템 간의 인간 선호도 대전을 포함하는 Music Arena 데이터셋에 대한 분포 외 평가에서 미적 특징을 포함하면 선호도 예측이 지속적으로 개선되어, 학습된 표현이 생성 아키텍처 전반에 걸쳐 강력한 일반화 능력을 보여준다.
English
Music popularity prediction has attracted growing research interest, with relevance to artists, platforms, and recommendation systems. However, the explosive rise of AI-generated music platforms has created an entirely new and largely unexplored landscape, where a surge of songs is produced and consumed daily without the traditional markers of artist reputation or label backing. Key, yet unexplored in this pursuit is aesthetic quality. We propose APEX, the first large-scale multi-task learning framework for AI-generated music, trained on over 211k songs (10k hours of audio) from Suno and Udio, that jointly predicts engagement-based popularity signals - streams and likes scores - alongside five perceptual aesthetic quality dimensions from frozen audio embeddings extracted from MERT, a self-supervised music understanding model. Aesthetic quality and popularity capture complementary aspects of music that together prove valuable: in an out-of-distribution evaluation on the Music Arena dataset, comprising pairwise human preference battles across eleven generative music systems unseen during training, including aesthetic features consistently improves preference prediction, demonstrating strong generalisation of the learned representations across generative architectures.