Anticiperende Muziek Transformer
Anticipatory Music Transformer
June 14, 2023
Auteurs: John Thickstun, David Hall, Chris Donahue, Percy Liang
cs.AI
Samenvatting
We introduceren anticipatie: een methode voor het construeren van een controleerbaar generatief model van een tijdelijk puntproces (het gebeurtenisproces) dat asynchroon wordt geconditioneerd op realisaties van een tweede, gecorreleerd proces (het controleproces). We bereiken dit door sequenties van gebeurtenissen en controles te verweven, zodat controles verschijnen na stopmomenten in de gebeurtenisreeks. Dit werk is gemotiveerd door problemen die ontstaan bij de controle van symbolische muziekgeneratie. We richten ons op infillingscontroletaken, waarbij de controles een subset van de gebeurtenissen zelf zijn, en conditionele generatie een reeks gebeurtenissen voltooit gegeven de vaste controle-gebeurtenissen. We trainen anticipatoire infillingsmodellen met behulp van de grote en diverse Lakh MIDI-muziekdataset. Deze modellen evenaren de prestaties van autoregressieve modellen voor geprompte muziekgeneratie, met de extra mogelijkheid om infillingscontroletaken uit te voeren, inclusief begeleiding. Menselijke beoordelaars melden dat een anticipatoir model begeleidingen produceert met een vergelijkbare muzikaliteit als zelfs door mensen gecomponeerde muziek over een clip van 20 seconden.
English
We introduce anticipation: a method for constructing a controllable
generative model of a temporal point process (the event process) conditioned
asynchronously on realizations of a second, correlated process (the control
process). We achieve this by interleaving sequences of events and controls,
such that controls appear following stopping times in the event sequence. This
work is motivated by problems arising in the control of symbolic music
generation. We focus on infilling control tasks, whereby the controls are a
subset of the events themselves, and conditional generation completes a
sequence of events given the fixed control events. We train anticipatory
infilling models using the large and diverse Lakh MIDI music dataset. These
models match the performance of autoregressive models for prompted music
generation, with the additional capability to perform infilling control tasks,
including accompaniment. Human evaluators report that an anticipatory model
produces accompaniments with similar musicality to even music composed by
humans over a 20-second clip.