Transformateur Musical Anticipatoire
Anticipatory Music Transformer
June 14, 2023
Auteurs: John Thickstun, David Hall, Chris Donahue, Percy Liang
cs.AI
Résumé
Nous introduisons l'anticipation : une méthode pour construire un modèle génératif contrôlable d'un processus ponctuel temporel (le processus d'événements) conditionné de manière asynchrone sur les réalisations d'un second processus corrélé (le processus de contrôle). Nous y parvenons en entrelaçant des séquences d'événements et de contrôles, de sorte que les contrôles apparaissent après des temps d'arrêt dans la séquence d'événements. Ce travail est motivé par des problèmes rencontrés dans le contrôle de la génération de musique symbolique. Nous nous concentrons sur des tâches de contrôle par remplissage, où les contrôles sont un sous-ensemble des événements eux-mêmes, et où la génération conditionnelle complète une séquence d'événements étant donné les événements de contrôle fixes. Nous entraînons des modèles de remplissage anticipatoires en utilisant le vaste et diversifié ensemble de données musicales Lakh MIDI. Ces modèles égalent les performances des modèles autorégressifs pour la génération de musique guidée, avec la capacité supplémentaire d'exécuter des tâches de contrôle par remplissage, y compris l'accompagnement. Des évaluateurs humains rapportent qu'un modèle anticipatoire produit des accompagnements ayant une musicalité similaire à celle de la musique composée par des humains sur un extrait de 20 secondes.
English
We introduce anticipation: a method for constructing a controllable
generative model of a temporal point process (the event process) conditioned
asynchronously on realizations of a second, correlated process (the control
process). We achieve this by interleaving sequences of events and controls,
such that controls appear following stopping times in the event sequence. This
work is motivated by problems arising in the control of symbolic music
generation. We focus on infilling control tasks, whereby the controls are a
subset of the events themselves, and conditional generation completes a
sequence of events given the fixed control events. We train anticipatory
infilling models using the large and diverse Lakh MIDI music dataset. These
models match the performance of autoregressive models for prompted music
generation, with the additional capability to perform infilling control tasks,
including accompaniment. Human evaluators report that an anticipatory model
produces accompaniments with similar musicality to even music composed by
humans over a 20-second clip.