生成的音楽AIと人間の選好のアライメント:手法と課題
Aligning Generative Music AI with Human Preferences: Methods and Challenges
November 19, 2025
著者: Dorien Herremans, Abhinaba Roy
cs.AI
要旨
近年の音楽生成AIの進歩は、驚異的な忠実度と様式の多様性を達成しているが、使用される特定の損失関数のため、微妙な人間の嗜好に合致しないことが多い。本論文は、計算最適化と人間の音楽的評価の間の根本的な隔たりを埋めるため、音楽生成への嗜好アライメント技術の体系的な応用を提唱する。MusicRLの大規模嗜好学習、DiffRhythm+における拡散ベース嗜好最適化のようなマルチ嗜好アライメントフレームワーク、Text2midi-InferAlignのような推論時最適化技術といった最近の画期的成果を踏まえ、これらの技術が音楽固有の課題(時間的一貫性、和声的一貫性、主観的品質評価)にどのように対処できるかを論じる。長尺作曲へのスケーラビリティ、嗜好モデリングにおける信頼性など、主要な研究課題を特定する。今後の展望として、嗜好に合致した音楽生成が、対話型作曲ツールやパーソナライズド音楽サービスにおいて変革的な応用を可能にすると予想する。本研究は、人間の創造的・体験的ニーズに真に奉仕する音楽AIシステムを作り出すために、機械学習と音楽理論の進歩を結合した持続的な学際研究を呼びかけるものである。
English
Recent advances in generative AI for music have achieved remarkable fidelity and stylistic diversity, yet these systems often fail to align with nuanced human preferences due to the specific loss functions they use. This paper advocates for the systematic application of preference alignment techniques to music generation, addressing the fundamental gap between computational optimization and human musical appreciation. Drawing on recent breakthroughs including MusicRL's large-scale preference learning, multi-preference alignment frameworks like diffusion-based preference optimization in DiffRhythm+, and inference-time optimization techniques like Text2midi-InferAlign, we discuss how these techniques can address music's unique challenges: temporal coherence, harmonic consistency, and subjective quality assessment. We identify key research challenges including scalability to long-form compositions, reliability amongst others in preference modelling. Looking forward, we envision preference-aligned music generation enabling transformative applications in interactive composition tools and personalized music services. This work calls for sustained interdisciplinary research combining advances in machine learning, music-theory to create music AI systems that truly serve human creative and experiential needs.