GETMusic: Generación de Cualquier Pista Musical con una Representación Unificada y un Marco de Difusión
GETMusic: Generating Any Music Tracks with a Unified Representation and Diffusion Framework
May 18, 2023
Autores: Ang Lv, Xu Tan, Peiling Lu, Wei Ye, Shikun Zhang, Jiang Bian, Rui Yan
cs.AI
Resumen
La generación de música simbólica tiene como objetivo crear notas musicales que puedan ayudar a los usuarios a componer música, como generar pistas instrumentales objetivo desde cero o basándose en pistas fuente proporcionadas por el usuario. Dada la combinación diversa y flexible entre las pistas fuente y objetivo, es crucial contar con un modelo unificado capaz de generar cualquier pista arbitraria. Trabajos anteriores no han logrado abordar esta necesidad debido a limitaciones inherentes en las representaciones musicales y las arquitecturas de los modelos. Para resolver este problema, proponemos un marco de representación y difusión unificado llamado GETMusic (donde "GET" significa GEnerar pistas musicales), que incluye una nueva representación musical llamada GETScore y un modelo de difusión llamado GETDiff. GETScore representa las notas como tokens y las organiza en una estructura bidimensional, con las pistas apiladas verticalmente y avanzando horizontalmente en el tiempo. Durante el entrenamiento, las pistas se seleccionan aleatoriamente como objetivo o fuente. En el proceso de avance, las pistas objetivo se corrompen enmascarando sus tokens, mientras que las pistas fuente permanecen como verdad de referencia. En el proceso de eliminación de ruido, GETDiff aprende a predecir los tokens objetivo enmascarados, condicionados por las pistas fuente. Con pistas separadas en GETScore y el comportamiento no autoregresivo del modelo, GETMusic puede controlar explícitamente la generación de cualquier pista objetivo desde cero o condicionada por pistas fuente. Realizamos experimentos en generación musical que involucran seis pistas instrumentales, resultando en un total de 665 combinaciones. GETMusic ofrece resultados de alta calidad en diversas combinaciones y supera trabajos previos propuestos para algunas combinaciones específicas.
English
Symbolic music generation aims to create musical notes, which can help users
compose music, such as generating target instrumental tracks from scratch, or
based on user-provided source tracks. Considering the diverse and flexible
combination between source and target tracks, a unified model capable of
generating any arbitrary tracks is of crucial necessity. Previous works fail to
address this need due to inherent constraints in music representations and
model architectures. To address this need, we propose a unified representation
and diffusion framework named GETMusic (`GET' stands for GEnerate music
Tracks), which includes a novel music representation named GETScore, and a
diffusion model named GETDiff. GETScore represents notes as tokens and
organizes them in a 2D structure, with tracks stacked vertically and
progressing horizontally over time. During training, tracks are randomly
selected as either the target or source. In the forward process, target tracks
are corrupted by masking their tokens, while source tracks remain as ground
truth. In the denoising process, GETDiff learns to predict the masked target
tokens, conditioning on the source tracks. With separate tracks in GETScore and
the non-autoregressive behavior of the model, GETMusic can explicitly control
the generation of any target tracks from scratch or conditioning on source
tracks. We conduct experiments on music generation involving six instrumental
tracks, resulting in a total of 665 combinations. GETMusic provides
high-quality results across diverse combinations and surpasses prior works
proposed for some specific combinations.