생성 음악 AI와 인간 선호도 정렬: 방법과 과제
Aligning Generative Music AI with Human Preferences: Methods and Challenges
November 19, 2025
저자: Dorien Herremans, Abhinaba Roy
cs.AI
초록
생성형 음악 AI의 최근 발전은 놀라운 정확도와 스타일 다양성을 달성했으나, 이러한 시스템들은 사용하는 특정 손실 함수로 인해 미묘한 인간의 선호도와 일치하지 못하는 경우가 많습니다. 본 논문은 음악 생성에 대한 선호도 정렬 기법의 체계적 적용을 주장하며, 계산적 최적화와 인간의 음악적 감상 사이의 근본적 격차를 해소하고자 합니다. MusicRL의 대규모 선호도 학습, DiffRhythm+의 확산 기반 선호도 최적화와 같은 다중 선호도 정렬 프레임워크, Text2midi-InferAlign과 같은 추론 시점 최적화 기법 등 최근의 획기적 발전을 바탕으로, 이러한 기법들이 음악의 고유한 과제인 시간적 일관성, 화성적 일관성, 주관적 품질 평가를 어떻게 해결할 수 있는지 논의합니다. 우리는 장편 구성으로의 확장성, 선호도 모델링의 신뢰성 등을 포함한 주요 연구 과제를 확인합니다. 전망적으로, 선호도가 정렬된 음악 생성이 인터랙티브 작곡 도구 및 맞춤형 음악 서비스에서 혁신적 응용 프로그램을 가능하게 할 것으로 기대합니다. 본 연구는 인간의 창의적·경험적 요구에 진정으로 부응하는 음악 AI 시스템을 만들기 위해 기계 학습과 음악 이론의 발전을 결합한 지속적 학제간 연구의 필요성을 촉구합니다.
English
Recent advances in generative AI for music have achieved remarkable fidelity and stylistic diversity, yet these systems often fail to align with nuanced human preferences due to the specific loss functions they use. This paper advocates for the systematic application of preference alignment techniques to music generation, addressing the fundamental gap between computational optimization and human musical appreciation. Drawing on recent breakthroughs including MusicRL's large-scale preference learning, multi-preference alignment frameworks like diffusion-based preference optimization in DiffRhythm+, and inference-time optimization techniques like Text2midi-InferAlign, we discuss how these techniques can address music's unique challenges: temporal coherence, harmonic consistency, and subjective quality assessment. We identify key research challenges including scalability to long-form compositions, reliability amongst others in preference modelling. Looking forward, we envision preference-aligned music generation enabling transformative applications in interactive composition tools and personalized music services. This work calls for sustained interdisciplinary research combining advances in machine learning, music-theory to create music AI systems that truly serve human creative and experiential needs.