Transformador Musical Antecipatório
Anticipatory Music Transformer
June 14, 2023
Autores: John Thickstun, David Hall, Chris Donahue, Percy Liang
cs.AI
Resumo
Apresentamos a antecipação: um método para construir um modelo generativo controlável de um processo pontual temporal (o processo de eventos) condicionado de forma assíncrona às realizações de um segundo processo correlacionado (o processo de controle). Isso é alcançado intercalando sequências de eventos e controles, de modo que os controles apareçam após tempos de parada na sequência de eventos. Este trabalho é motivado por problemas que surgem no controle da geração de música simbólica. Focamos em tarefas de controle de preenchimento, nas quais os controles são um subconjunto dos próprios eventos, e a geração condicional completa uma sequência de eventos dados os eventos de controle fixos. Treinamos modelos de preenchimento antecipatório utilizando o grande e diversificado conjunto de dados Lakh MIDI. Esses modelos igualam o desempenho de modelos autoregressivos na geração de música com prompts, com a capacidade adicional de realizar tarefas de controle de preenchimento, incluindo acompanhamento. Avaliadores humanos relatam que um modelo antecipatório produz acompanhamentos com musicalidade semelhante até mesmo à música composta por humanos em um clipe de 20 segundos.
English
We introduce anticipation: a method for constructing a controllable
generative model of a temporal point process (the event process) conditioned
asynchronously on realizations of a second, correlated process (the control
process). We achieve this by interleaving sequences of events and controls,
such that controls appear following stopping times in the event sequence. This
work is motivated by problems arising in the control of symbolic music
generation. We focus on infilling control tasks, whereby the controls are a
subset of the events themselves, and conditional generation completes a
sequence of events given the fixed control events. We train anticipatory
infilling models using the large and diverse Lakh MIDI music dataset. These
models match the performance of autoregressive models for prompted music
generation, with the additional capability to perform infilling control tasks,
including accompaniment. Human evaluators report that an anticipatory model
produces accompaniments with similar musicality to even music composed by
humans over a 20-second clip.