Infilling symbolique de musique à long contexte personnalisable avec MIDI-RWKV
Personalizable Long-Context Symbolic Music Infilling with MIDI-RWKV
June 16, 2025
Auteurs: Christian Zhou-Zheng, Philippe Pasquier
cs.AI
Résumé
Les travaux existants en génération automatique de musique se sont principalement concentrés sur des systèmes de bout en bout produisant des compositions complètes ou des continuations. Cependant, comme la composition musicale est typiquement un processus itératif, ces systèmes rendent difficile l'engagement dans un va-et-vient entre l'humain et la machine, essentiel à la créativité assistée par ordinateur. Dans cette étude, nous abordons la tâche de remplissage symbolique de musique personnalisable, multi-pistes, à long contexte et contrôlable, afin d'améliorer le processus de composition assistée par ordinateur. Nous présentons MIDI-RWKV, un modèle novateur basé sur l'architecture linéaire RWKV-7, permettant une co-création musicale efficace et cohérente sur des appareils embarqués. Nous démontrons également que MIDI-RWKV permet une méthode efficace de réglage de son état initial pour la personnalisation dans un régime à très faible échantillonnage. Nous évaluons MIDI-RWKV et son réglage d'état sur plusieurs métriques quantitatives et qualitatives, et publions les poids du modèle et le code à l'adresse https://github.com/christianazinn/MIDI-RWKV.
English
Existing work in automatic music generation has primarily focused on
end-to-end systems that produce complete compositions or continuations.
However, because musical composition is typically an iterative process, such
systems make it difficult to engage in the back-and-forth between human and
machine that is essential to computer-assisted creativity. In this study, we
address the task of personalizable, multi-track, long-context, and controllable
symbolic music infilling to enhance the process of computer-assisted
composition. We present MIDI-RWKV, a novel model based on the RWKV-7 linear
architecture, to enable efficient and coherent musical cocreation on edge
devices. We also demonstrate that MIDI-RWKV admits an effective method of
finetuning its initial state for personalization in the very-low-sample regime.
We evaluate MIDI-RWKV and its state tuning on several quantitative and
qualitative metrics, and release model weights and code at
https://github.com/christianazinn/MIDI-RWKV.