Anticipatory Music Transformer
Anticipatory Music Transformer
June 14, 2023
Autori: John Thickstun, David Hall, Chris Donahue, Percy Liang
cs.AI
Abstract
Introduciamo l'anticipazione: un metodo per costruire un modello generativo controllabile di un processo puntuale temporale (il processo degli eventi) condizionato in modo asincrono sulle realizzazioni di un secondo processo correlato (il processo di controllo). Raggiungiamo questo obiettivo intercalando sequenze di eventi e controlli, in modo che i controlli appaiano in seguito a tempi di arresto nella sequenza degli eventi. Questo lavoro è motivato da problemi che sorgono nel controllo della generazione di musica simbolica. Ci concentriamo su compiti di controllo di riempimento, in cui i controlli sono un sottoinsieme degli eventi stessi, e la generazione condizionale completa una sequenza di eventi dati gli eventi di controllo fissi. Addestriamo modelli di riempimento anticipatorio utilizzando il vasto e diversificato dataset musicale Lakh MIDI. Questi modelli eguagliano le prestazioni dei modelli autoregressivi per la generazione musicale su richiesta, con l'ulteriore capacità di eseguire compiti di controllo di riempimento, inclusi gli accompagnamenti. I valutatori umani riferiscono che un modello anticipatorio produce accompagnamenti con una musicalità simile persino a quella della musica composta da esseri umani in un clip di 20 secondi.
English
We introduce anticipation: a method for constructing a controllable
generative model of a temporal point process (the event process) conditioned
asynchronously on realizations of a second, correlated process (the control
process). We achieve this by interleaving sequences of events and controls,
such that controls appear following stopping times in the event sequence. This
work is motivated by problems arising in the control of symbolic music
generation. We focus on infilling control tasks, whereby the controls are a
subset of the events themselves, and conditional generation completes a
sequence of events given the fixed control events. We train anticipatory
infilling models using the large and diverse Lakh MIDI music dataset. These
models match the performance of autoregressive models for prompted music
generation, with the additional capability to perform infilling control tasks,
including accompaniment. Human evaluators report that an anticipatory model
produces accompaniments with similar musicality to even music composed by
humans over a 20-second clip.