Abstimmung generativer Musik-KI mit menschlichen Präferenzen: Methoden und Herausforderungen
Aligning Generative Music AI with Human Preferences: Methods and Challenges
November 19, 2025
papers.authors: Dorien Herremans, Abhinaba Roy
cs.AI
papers.abstract
Jüngste Fortschritte bei generativer KI für Musik haben eine bemerkenswerte Klangtreue und stilistische Vielfalt erreicht. Dennoch gelingt es diesen Systemen oft nicht, mit nuancenreichen menschlichen Präferenzen übereinzustimmen, was auf die spezifischen von ihnen verwendeten Verlustfunktionen zurückzuführen ist. Dieses Papier plädiert für die systematische Anwendung von Präferenzabgleichsverfahren auf die Musikerzeugung, um die grundlegende Lücke zwischen computergestützter Optimierung und menschlichem Musikempfinden zu schließen. Unter Bezugnahme auf jüngste Durchbrüche – darunter MusicRLs groß angelegtes Präferenzlernen, Multi-Präferenz-Abgleichsrahmenwerke wie die diffusionsbasierte Präferenzoptimierung in DiffRhythm+ und Inferenzzeit-Optimierungstechniken wie Text2midi-InferAlign – diskutieren wir, wie diese Techniken die einzigartigen Herausforderungen der Musik bewältigen können: zeitliche Kohärenz, harmonische Konsistenz und subjektive Qualitätsbewertung. Wir identifizieren zentrale Forschungsherausforderungen, darunter die Skalierbarkeit für Langform-Kompositionen und die Zuverlässigkeit von Präferenzmodellen. In der Zukunft sehen wir präferenzabgeglichene Musikerzeugung, die transformative Anwendungen in interaktiven Kompositionstools und personalisierten Musikdiensten ermöglicht. Diese Arbeit ruft zu nachhaltiger interdisziplinärer Forschung auf, die Fortschritte im maschinellen Lernen und in der Musiktheorie kombiniert, um KI-Musiksysteme zu schaffen, die wirklich den kreativen und erfahrungsbezogenen Bedürfnissen des Menschen dienen.
English
Recent advances in generative AI for music have achieved remarkable fidelity and stylistic diversity, yet these systems often fail to align with nuanced human preferences due to the specific loss functions they use. This paper advocates for the systematic application of preference alignment techniques to music generation, addressing the fundamental gap between computational optimization and human musical appreciation. Drawing on recent breakthroughs including MusicRL's large-scale preference learning, multi-preference alignment frameworks like diffusion-based preference optimization in DiffRhythm+, and inference-time optimization techniques like Text2midi-InferAlign, we discuss how these techniques can address music's unique challenges: temporal coherence, harmonic consistency, and subjective quality assessment. We identify key research challenges including scalability to long-form compositions, reliability amongst others in preference modelling. Looking forward, we envision preference-aligned music generation enabling transformative applications in interactive composition tools and personalized music services. This work calls for sustained interdisciplinary research combining advances in machine learning, music-theory to create music AI systems that truly serve human creative and experiential needs.