ChatPaper.aiChatPaper

Антиципаторный музыкальный трансформер

Anticipatory Music Transformer

June 14, 2023
Авторы: John Thickstun, David Hall, Chris Donahue, Percy Liang
cs.AI

Аннотация

Мы представляем метод предвосхищения (anticipation) для построения управляемой генеративной модели временного точечного процесса (процесса событий), асинхронно обусловленного реализациями второго, коррелированного процесса (процесса управления). Это достигается путем чередования последовательностей событий и управляющих воздействий, причем управляющие воздействия появляются после моментов остановки в последовательности событий. Данная работа мотивирована задачами, возникающими при управлении генерацией символической музыки. Мы сосредоточиваемся на задачах заполнения (infilling), где управляющие воздействия представляют собой подмножество самих событий, а условная генерация завершает последовательность событий при заданных фиксированных управляющих событиях. Мы обучаем модели предвосхищающего заполнения на большом и разнообразном наборе данных Lakh MIDI. Эти модели демонстрируют производительность, сопоставимую с авторегрессионными моделями для генерации музыки по запросу, с дополнительной возможностью выполнения задач заполнения, включая аккомпанемент. Человеческие оценщики отмечают, что модель предвосхищения создает аккомпанементы, сопоставимые по музыкальности даже с музыкой, сочиненной людьми, на 20-секундных фрагментах.
English
We introduce anticipation: a method for constructing a controllable generative model of a temporal point process (the event process) conditioned asynchronously on realizations of a second, correlated process (the control process). We achieve this by interleaving sequences of events and controls, such that controls appear following stopping times in the event sequence. This work is motivated by problems arising in the control of symbolic music generation. We focus on infilling control tasks, whereby the controls are a subset of the events themselves, and conditional generation completes a sequence of events given the fixed control events. We train anticipatory infilling models using the large and diverse Lakh MIDI music dataset. These models match the performance of autoregressive models for prompted music generation, with the additional capability to perform infilling control tasks, including accompaniment. Human evaluators report that an anticipatory model produces accompaniments with similar musicality to even music composed by humans over a 20-second clip.
PDF90December 15, 2024