ChatPaper.aiChatPaper

StemGen: Een muziekgeneratiemodel dat luistert

StemGen: A music generation model that listens

December 14, 2023
Auteurs: Julian D. Parker, Janne Spijkervet, Katerina Kosta, Furkan Yesiler, Boris Kuznetsov, Ju-Chiang Wang, Matt Avent, Jitong Chen, Duc Le
cs.AI

Samenvatting

End-to-end generatie van muzikale audio met behulp van deep learning-technieken heeft recentelijk een explosie van activiteit gezien. De meeste modellen richten zich echter op het genereren van volledig gemixte muziek als reactie op abstracte conditioneringsinformatie. In dit werk presenteren we een alternatief paradigma voor het produceren van muziekgeneratiemodellen die kunnen luisteren en reageren op muzikale context. We beschrijven hoe zo'n model kan worden geconstrueerd met behulp van een niet-autoregressief, transformer-gebaseerd modelarchitectuur en presenteren een aantal nieuwe architectonische en samplingverbeteringen. We trainen de beschreven architectuur op zowel een open-source als een propriëtaire dataset. We evalueren de geproduceerde modellen met behulp van standaard kwaliteitsmetingen en een nieuwe aanpak gebaseerd op muziekinformatie-retrieval descriptoren. Het resulterende model bereikt de audiokwaliteit van state-of-the-art tekst-geconditioneerde modellen en vertoont tevens een sterke muzikale samenhang met zijn context.
English
End-to-end generation of musical audio using deep learning techniques has seen an explosion of activity recently. However, most models concentrate on generating fully mixed music in response to abstract conditioning information. In this work, we present an alternative paradigm for producing music generation models that can listen and respond to musical context. We describe how such a model can be constructed using a non-autoregressive, transformer-based model architecture and present a number of novel architectural and sampling improvements. We train the described architecture on both an open-source and a proprietary dataset. We evaluate the produced models using standard quality metrics and a new approach based on music information retrieval descriptors. The resulting model reaches the audio quality of state-of-the-art text-conditioned models, as well as exhibiting strong musical coherence with its context.
PDF496December 15, 2024