Transformador Musical Antecipatório

Resumo

Apresentamos a antecipação: um método para construir um modelo generativo controlável de um processo pontual temporal (o processo de eventos) condicionado de forma assíncrona às realizações de um segundo processo correlacionado (o processo de controle). Isso é alcançado intercalando sequências de eventos e controles, de modo que os controles apareçam após tempos de parada na sequência de eventos. Este trabalho é motivado por problemas que surgem no controle da geração de música simbólica. Focamos em tarefas de controle de preenchimento, nas quais os controles são um subconjunto dos próprios eventos, e a geração condicional completa uma sequência de eventos dados os eventos de controle fixos. Treinamos modelos de preenchimento antecipatório utilizando o grande e diversificado conjunto de dados Lakh MIDI. Esses modelos igualam o desempenho de modelos autoregressivos na geração de música com prompts, com a capacidade adicional de realizar tarefas de controle de preenchimento, incluindo acompanhamento. Avaliadores humanos relatam que um modelo antecipatório produz acompanhamentos com musicalidade semelhante até mesmo à música composta por humanos em um clipe de 20 segundos.

English

We introduce anticipation: a method for constructing a controllable generative model of a temporal point process (the event process) conditioned asynchronously on realizations of a second, correlated process (the control process). We achieve this by interleaving sequences of events and controls, such that controls appear following stopping times in the event sequence. This work is motivated by problems arising in the control of symbolic music generation. We focus on infilling control tasks, whereby the controls are a subset of the events themselves, and conditional generation completes a sequence of events given the fixed control events. We train anticipatory infilling models using the large and diverse Lakh MIDI music dataset. These models match the performance of autoregressive models for prompted music generation, with the additional capability to perform infilling control tasks, including accompaniment. Human evaluators report that an anticipatory model produces accompaniments with similar musicality to even music composed by humans over a 20-second clip.

Transformador Musical Antecipatório

Anticipatory Music Transformer

Resumo

Support