GETMusic: Gerando Qualquer Faixa Musical com uma Representação Unificada e Estrutura de Difusão

Resumo

A geração simbólica de música visa criar notas musicais, o que pode auxiliar usuários na composição de músicas, como gerar faixas instrumentais alvo do zero ou com base em faixas de origem fornecidas pelo usuário. Considerando a combinação diversa e flexível entre faixas de origem e alvo, um modelo unificado capaz de gerar qualquer faixa arbitrária é de extrema necessidade. Trabalhos anteriores não conseguiram atender a essa necessidade devido a limitações intrínsecas nas representações musicais e arquiteturas de modelos. Para resolver essa questão, propomos uma representação unificada e um framework de difusão chamado GETMusic (onde "GET" significa GEnerate music Tracks), que inclui uma nova representação musical chamada GETScore e um modelo de difusão chamado GETDiff. O GETScore representa notas como tokens e as organiza em uma estrutura 2D, com faixas empilhadas verticalmente e progredindo horizontalmente ao longo do tempo. Durante o treinamento, as faixas são selecionadas aleatoriamente como alvo ou origem. No processo direto, as faixas alvo são corrompidas ao mascarar seus tokens, enquanto as faixas de origem permanecem como verdade absoluta. No processo de remoção de ruído, o GETDiff aprende a prever os tokens mascarados das faixas alvo, condicionado às faixas de origem. Com faixas separadas no GETScore e o comportamento não autorregressivo do modelo, o GETMusic pode controlar explicitamente a geração de qualquer faixa alvo, seja do zero ou condicionada a faixas de origem. Realizamos experimentos de geração de música envolvendo seis faixas instrumentais, resultando em um total de 665 combinações. O GETMusic fornece resultados de alta qualidade em diversas combinações e supera trabalhos anteriores propostos para algumas combinações específicas.

English

Symbolic music generation aims to create musical notes, which can help users compose music, such as generating target instrumental tracks from scratch, or based on user-provided source tracks. Considering the diverse and flexible combination between source and target tracks, a unified model capable of generating any arbitrary tracks is of crucial necessity. Previous works fail to address this need due to inherent constraints in music representations and model architectures. To address this need, we propose a unified representation and diffusion framework named GETMusic (`GET' stands for GEnerate music Tracks), which includes a novel music representation named GETScore, and a diffusion model named GETDiff. GETScore represents notes as tokens and organizes them in a 2D structure, with tracks stacked vertically and progressing horizontally over time. During training, tracks are randomly selected as either the target or source. In the forward process, target tracks are corrupted by masking their tokens, while source tracks remain as ground truth. In the denoising process, GETDiff learns to predict the masked target tokens, conditioning on the source tracks. With separate tracks in GETScore and the non-autoregressive behavior of the model, GETMusic can explicitly control the generation of any target tracks from scratch or conditioning on source tracks. We conduct experiments on music generation involving six instrumental tracks, resulting in a total of 665 combinations. GETMusic provides high-quality results across diverse combinations and surpasses prior works proposed for some specific combinations.

GETMusic: Gerando Qualquer Faixa Musical com uma Representação Unificada e Estrutura de Difusão

GETMusic: Generating Any Music Tracks with a Unified Representation and Diffusion Framework

Resumo

Support