GETMusic: Erzeugung beliebiger Musiktitel mit einer einheitlichen Darstellung und einem Diffusionsframework
GETMusic: Generating Any Music Tracks with a Unified Representation and Diffusion Framework
May 18, 2023
Autoren: Ang Lv, Xu Tan, Peiling Lu, Wei Ye, Shikun Zhang, Jiang Bian, Rui Yan
cs.AI
Zusammenfassung
Die symbolische Musikerzeugung zielt darauf ab, musikalische Noten zu generieren, die Nutzern dabei helfen können, Musik zu komponieren, beispielsweise durch die Erzeugung von Zielinstrumentalspuren von Grund auf oder basierend auf vom Nutzer bereitgestellten Quellspuren. Angesichts der vielfältigen und flexiblen Kombinationen zwischen Quell- und Zielspuren ist ein einheitliches Modell, das in der Lage ist, beliebige Spuren zu erzeugen, von entscheidender Bedeutung. Bisherige Arbeiten konnten diesen Bedarf aufgrund inhärenter Einschränkungen in den Musikrepräsentationen und Modellarchitekturen nicht erfüllen. Um diesen Bedarf zu adressieren, schlagen wir eine einheitliche Repräsentation und ein Diffusionsframework namens GETMusic vor („GET“ steht für GEnerate music Tracks), das eine neuartige Musikrepräsentation namens GETScore und ein Diffusionsmodell namens GETDiff umfasst. GETScore repräsentiert Noten als Token und organisiert sie in einer 2D-Struktur, wobei die Spuren vertikal gestapelt und horizontal über die Zeit fortschreitend angeordnet sind. Während des Trainings werden Spuren zufällig als Ziel- oder Quellspuren ausgewählt. Im Vorwärtsprozess werden Zielspuren durch das Maskieren ihrer Token verfälscht, während Quellspuren als Grundwahrheit beibehalten werden. Im Entrauschungsprozess lernt GETDiff, die maskierten Ziel-Token unter Berücksichtigung der Quellspuren vorherzusagen. Durch die separaten Spuren in GETScore und das nicht-autoregressive Verhalten des Modells kann GETMusic die Erzeugung beliebiger Zielspuren von Grund auf oder basierend auf Quellspuren explizit steuern. Wir führen Experimente zur Musikerzeugung mit sechs Instrumentalspuren durch, was insgesamt 665 Kombinationen ergibt. GETMusic liefert hochwertige Ergebnisse über diverse Kombinationen hinweg und übertrifft bisherige Arbeiten, die für bestimmte Kombinationen vorgeschlagen wurden.
English
Symbolic music generation aims to create musical notes, which can help users
compose music, such as generating target instrumental tracks from scratch, or
based on user-provided source tracks. Considering the diverse and flexible
combination between source and target tracks, a unified model capable of
generating any arbitrary tracks is of crucial necessity. Previous works fail to
address this need due to inherent constraints in music representations and
model architectures. To address this need, we propose a unified representation
and diffusion framework named GETMusic (`GET' stands for GEnerate music
Tracks), which includes a novel music representation named GETScore, and a
diffusion model named GETDiff. GETScore represents notes as tokens and
organizes them in a 2D structure, with tracks stacked vertically and
progressing horizontally over time. During training, tracks are randomly
selected as either the target or source. In the forward process, target tracks
are corrupted by masking their tokens, while source tracks remain as ground
truth. In the denoising process, GETDiff learns to predict the masked target
tokens, conditioning on the source tracks. With separate tracks in GETScore and
the non-autoregressive behavior of the model, GETMusic can explicitly control
the generation of any target tracks from scratch or conditioning on source
tracks. We conduct experiments on music generation involving six instrumental
tracks, resulting in a total of 665 combinations. GETMusic provides
high-quality results across diverse combinations and surpasses prior works
proposed for some specific combinations.