Transformador Musical Anticipatorio
Anticipatory Music Transformer
June 14, 2023
Autores: John Thickstun, David Hall, Chris Donahue, Percy Liang
cs.AI
Resumen
Introducimos la anticipación: un método para construir un modelo generativo controlable de un proceso puntual temporal (el proceso de eventos) condicionado de manera asíncrona por realizaciones de un segundo proceso correlacionado (el proceso de control). Logramos esto intercalando secuencias de eventos y controles, de modo que los controles aparezcan después de tiempos de parada en la secuencia de eventos. Este trabajo está motivado por problemas que surgen en el control de la generación de música simbólica. Nos enfocamos en tareas de control de relleno, donde los controles son un subconjunto de los eventos mismos, y la generación condicional completa una secuencia de eventos dados los eventos de control fijos. Entrenamos modelos de relleno anticipatorio utilizando el amplio y diverso conjunto de datos Lakh MIDI. Estos modelos igualan el rendimiento de los modelos autorregresivos para la generación de música con indicaciones, con la capacidad adicional de realizar tareas de control de relleno, incluido el acompañamiento. Evaluadores humanos informan que un modelo anticipatorio produce acompañamientos con una musicalidad similar incluso a la música compuesta por humanos en un clip de 20 segundos.
English
We introduce anticipation: a method for constructing a controllable
generative model of a temporal point process (the event process) conditioned
asynchronously on realizations of a second, correlated process (the control
process). We achieve this by interleaving sequences of events and controls,
such that controls appear following stopping times in the event sequence. This
work is motivated by problems arising in the control of symbolic music
generation. We focus on infilling control tasks, whereby the controls are a
subset of the events themselves, and conditional generation completes a
sequence of events given the fixed control events. We train anticipatory
infilling models using the large and diverse Lakh MIDI music dataset. These
models match the performance of autoregressive models for prompted music
generation, with the additional capability to perform infilling control tasks,
including accompaniment. Human evaluators report that an anticipatory model
produces accompaniments with similar musicality to even music composed by
humans over a 20-second clip.