Antizipativer Music Transformer
Anticipatory Music Transformer
June 14, 2023
Autoren: John Thickstun, David Hall, Chris Donahue, Percy Liang
cs.AI
Zusammenfassung
Wir stellen Antizipation vor: eine Methode zur Konstruktion eines kontrollierbaren generativen Modells eines zeitlichen Punktprozesses (des Ereignisprozesses), das asynchron auf Realisierungen eines zweiten, korrelierten Prozesses (des Kontrollprozesses) bedingt ist. Dies erreichen wir, indem wir Sequenzen von Ereignissen und Kontrollen verschachteln, sodass Kontrollen nach Stoppzeiten in der Ereignissequenz erscheinen. Diese Arbeit wird durch Probleme motiviert, die bei der Kontrolle der symbolischen Musikerzeugung auftreten. Wir konzentrieren uns auf Infilling-Kontrollaufgaben, bei denen die Kontrollen eine Teilmenge der Ereignisse selbst sind und die bedingte Erzeugung eine Ereignissequenz gegeben der festen Kontrollereignisse vervollständigt. Wir trainieren antizipatorische Infilling-Modelle mit dem umfangreichen und vielfältigen Lakh MIDI-Musikdatensatz. Diese Modelle erreichen die Leistung autoregressiver Modelle für die promptgesteuerte Musikerzeugung, mit der zusätzlichen Fähigkeit, Infilling-Kontrollaufgaben, einschließlich Begleitung, durchzuführen. Menschliche Bewerter berichten, dass ein antizipatorisches Modell Begleitungen mit einer ähnlichen Musikalität wie sogar von Menschen komponierte Musik über einen 20-Sekunden-Ausschnitt erzeugt.
English
We introduce anticipation: a method for constructing a controllable
generative model of a temporal point process (the event process) conditioned
asynchronously on realizations of a second, correlated process (the control
process). We achieve this by interleaving sequences of events and controls,
such that controls appear following stopping times in the event sequence. This
work is motivated by problems arising in the control of symbolic music
generation. We focus on infilling control tasks, whereby the controls are a
subset of the events themselves, and conditional generation completes a
sequence of events given the fixed control events. We train anticipatory
infilling models using the large and diverse Lakh MIDI music dataset. These
models match the performance of autoregressive models for prompted music
generation, with the additional capability to perform infilling control tasks,
including accompaniment. Human evaluators report that an anticipatory model
produces accompaniments with similar musicality to even music composed by
humans over a 20-second clip.