ChatPaper.aiChatPaper

GETMusic: Генерация любых музыкальных треков с использованием унифицированного представления и диффузионного фреймворка

GETMusic: Generating Any Music Tracks with a Unified Representation and Diffusion Framework

May 18, 2023
Авторы: Ang Lv, Xu Tan, Peiling Lu, Wei Ye, Shikun Zhang, Jiang Bian, Rui Yan
cs.AI

Аннотация

Генерация символической музыки направлена на создание музыкальных нот, что может помочь пользователям в сочинении музыки, например, в создании целевых инструментальных треков с нуля или на основе предоставленных пользователем исходных треков. Учитывая разнообразные и гибкие комбинации между исходными и целевыми треками, крайне необходима унифицированная модель, способная генерировать любые произвольные треки. Предыдущие работы не смогли удовлетворить эту потребность из-за внутренних ограничений в представлении музыки и архитектуре моделей. Чтобы решить эту задачу, мы предлагаем унифицированное представление и диффузионную модель под названием GETMusic (где `GET` означает GEnerate music Tracks), которая включает новое представление музыки под названием GETScore и диффузионную модель GETDiff. GETScore представляет ноты в виде токенов и организует их в двумерной структуре, где треки расположены вертикально, а время прогрессирует горизонтально. Во время обучения треки случайным образом выбираются в качестве целевых или исходных. В прямом процессе целевые треки искажаются путем маскирования их токенов, в то время как исходные треки остаются в качестве эталонных данных. В процессе денойзинга GETDiff учится предсказывать замаскированные токены целевых треков, основываясь на исходных треках. Благодаря разделению треков в GETScore и неавторегрессивному поведению модели, GETMusic может явно контролировать генерацию любых целевых треков с нуля или на основе исходных треков. Мы провели эксперименты по генерации музыки с участием шести инструментальных треков, что в общей сложности составило 665 комбинаций. GETMusic демонстрирует высококачественные результаты для различных комбинаций и превосходит предыдущие работы, предложенные для некоторых конкретных комбинаций.
English
Symbolic music generation aims to create musical notes, which can help users compose music, such as generating target instrumental tracks from scratch, or based on user-provided source tracks. Considering the diverse and flexible combination between source and target tracks, a unified model capable of generating any arbitrary tracks is of crucial necessity. Previous works fail to address this need due to inherent constraints in music representations and model architectures. To address this need, we propose a unified representation and diffusion framework named GETMusic (`GET' stands for GEnerate music Tracks), which includes a novel music representation named GETScore, and a diffusion model named GETDiff. GETScore represents notes as tokens and organizes them in a 2D structure, with tracks stacked vertically and progressing horizontally over time. During training, tracks are randomly selected as either the target or source. In the forward process, target tracks are corrupted by masking their tokens, while source tracks remain as ground truth. In the denoising process, GETDiff learns to predict the masked target tokens, conditioning on the source tracks. With separate tracks in GETScore and the non-autoregressive behavior of the model, GETMusic can explicitly control the generation of any target tracks from scratch or conditioning on source tracks. We conduct experiments on music generation involving six instrumental tracks, resulting in a total of 665 combinations. GETMusic provides high-quality results across diverse combinations and surpasses prior works proposed for some specific combinations.
PDF21December 15, 2024