ChatPaper.aiChatPaper

Infilling symbolique de musique à long contexte personnalisable avec MIDI-RWKV

Personalizable Long-Context Symbolic Music Infilling with MIDI-RWKV

June 16, 2025
Auteurs: Christian Zhou-Zheng, Philippe Pasquier
cs.AI

Résumé

Les travaux existants en génération automatique de musique se sont principalement concentrés sur des systèmes de bout en bout produisant des compositions complètes ou des continuations. Cependant, comme la composition musicale est typiquement un processus itératif, ces systèmes rendent difficile l'engagement dans un va-et-vient entre l'humain et la machine, essentiel à la créativité assistée par ordinateur. Dans cette étude, nous abordons la tâche de remplissage symbolique de musique personnalisable, multi-pistes, à long contexte et contrôlable, afin d'améliorer le processus de composition assistée par ordinateur. Nous présentons MIDI-RWKV, un modèle novateur basé sur l'architecture linéaire RWKV-7, permettant une co-création musicale efficace et cohérente sur des appareils embarqués. Nous démontrons également que MIDI-RWKV permet une méthode efficace de réglage de son état initial pour la personnalisation dans un régime à très faible échantillonnage. Nous évaluons MIDI-RWKV et son réglage d'état sur plusieurs métriques quantitatives et qualitatives, et publions les poids du modèle et le code à l'adresse https://github.com/christianazinn/MIDI-RWKV.
English
Existing work in automatic music generation has primarily focused on end-to-end systems that produce complete compositions or continuations. However, because musical composition is typically an iterative process, such systems make it difficult to engage in the back-and-forth between human and machine that is essential to computer-assisted creativity. In this study, we address the task of personalizable, multi-track, long-context, and controllable symbolic music infilling to enhance the process of computer-assisted composition. We present MIDI-RWKV, a novel model based on the RWKV-7 linear architecture, to enable efficient and coherent musical cocreation on edge devices. We also demonstrate that MIDI-RWKV admits an effective method of finetuning its initial state for personalization in the very-low-sample regime. We evaluate MIDI-RWKV and its state tuning on several quantitative and qualitative metrics, and release model weights and code at https://github.com/christianazinn/MIDI-RWKV.
PDF12June 18, 2025