Антиципаторный музыкальный трансформер
Anticipatory Music Transformer
June 14, 2023
Авторы: John Thickstun, David Hall, Chris Donahue, Percy Liang
cs.AI
Аннотация
Мы представляем метод предвосхищения (anticipation) для построения управляемой генеративной модели временного точечного процесса (процесса событий), асинхронно обусловленного реализациями второго, коррелированного процесса (процесса управления). Это достигается путем чередования последовательностей событий и управляющих воздействий, причем управляющие воздействия появляются после моментов остановки в последовательности событий. Данная работа мотивирована задачами, возникающими при управлении генерацией символической музыки. Мы сосредоточиваемся на задачах заполнения (infilling), где управляющие воздействия представляют собой подмножество самих событий, а условная генерация завершает последовательность событий при заданных фиксированных управляющих событиях. Мы обучаем модели предвосхищающего заполнения на большом и разнообразном наборе данных Lakh MIDI. Эти модели демонстрируют производительность, сопоставимую с авторегрессионными моделями для генерации музыки по запросу, с дополнительной возможностью выполнения задач заполнения, включая аккомпанемент. Человеческие оценщики отмечают, что модель предвосхищения создает аккомпанементы, сопоставимые по музыкальности даже с музыкой, сочиненной людьми, на 20-секундных фрагментах.
English
We introduce anticipation: a method for constructing a controllable
generative model of a temporal point process (the event process) conditioned
asynchronously on realizations of a second, correlated process (the control
process). We achieve this by interleaving sequences of events and controls,
such that controls appear following stopping times in the event sequence. This
work is motivated by problems arising in the control of symbolic music
generation. We focus on infilling control tasks, whereby the controls are a
subset of the events themselves, and conditional generation completes a
sequence of events given the fixed control events. We train anticipatory
infilling models using the large and diverse Lakh MIDI music dataset. These
models match the performance of autoregressive models for prompted music
generation, with the additional capability to perform infilling control tasks,
including accompaniment. Human evaluators report that an anticipatory model
produces accompaniments with similar musicality to even music composed by
humans over a 20-second clip.