JEN-1 DreamStyler: Gepersonaliseerd muzikaal concept leren via afstemming van cruciale parameters

Samenvatting

Grote modellen voor tekst-naar-muziekgeneratie hebben aanzienlijke vooruitgang geboekt, waardoor het mogelijk is om hoogwaardige en gevarieerde muziekcomposities te creëren op basis van gegeven tekstprompts. Echter, kunnen tekstprompts niet altijd precies de gebruikerswensen vastleggen, vooral wanneer het doel is om muziek te genereren die een specifiek concept belichaamt dat is afgeleid van een aangewezen referentiecollectie. In dit artikel stellen we een nieuwe methode voor voor gepersonaliseerde tekst-naar-muziekgeneratie, die het concept kan vastleggen uit een tweeminuten durend referentiemuziekstuk en een nieuw muziekstuk kan genereren dat aan dit concept voldoet. We bereiken dit door een vooraf getraind tekst-naar-muziekmodel te finetunen met behulp van de referentiemuziek. Echter, leidt het direct finetunen van alle parameters tot overfittingproblemen. Om dit probleem aan te pakken, stellen we een Pivotal Parameters Tuning-methode voor die het model in staat stelt om het nieuwe concept te assimileren terwijl het zijn oorspronkelijke generatieve capaciteiten behoudt. Daarnaast identificeren we een mogelijk conceptconflict wanneer meerdere concepten worden geïntroduceerd in het vooraf getrainde model. We presenteren een conceptversterkingsstrategie om meerdere concepten te onderscheiden, waardoor het gefinetunede model muziek kan genereren die individuele of meerdere concepten tegelijkertijd omvat. Aangezien wij de eersten zijn die werken aan de gepersonaliseerde muziekgeneratietaak, introduceren we ook een nieuwe dataset en evaluatieprotocol voor deze nieuwe taak. Onze voorgestelde Jen1-DreamStyler presteert beter dan verschillende baseline-methoden in zowel kwalitatieve als kwantitatieve evaluaties. Demo's zullen beschikbaar zijn op https://www.jenmusic.ai/research#DreamStyler.

English

Large models for text-to-music generation have achieved significant progress, facilitating the creation of high-quality and varied musical compositions from provided text prompts. However, input text prompts may not precisely capture user requirements, particularly when the objective is to generate music that embodies a specific concept derived from a designated reference collection. In this paper, we propose a novel method for customized text-to-music generation, which can capture the concept from a two-minute reference music and generate a new piece of music conforming to the concept. We achieve this by fine-tuning a pretrained text-to-music model using the reference music. However, directly fine-tuning all parameters leads to overfitting issues. To address this problem, we propose a Pivotal Parameters Tuning method that enables the model to assimilate the new concept while preserving its original generative capabilities. Additionally, we identify a potential concept conflict when introducing multiple concepts into the pretrained model. We present a concept enhancement strategy to distinguish multiple concepts, enabling the fine-tuned model to generate music incorporating either individual or multiple concepts simultaneously. Since we are the first to work on the customized music generation task, we also introduce a new dataset and evaluation protocol for the new task. Our proposed Jen1-DreamStyler outperforms several baselines in both qualitative and quantitative evaluations. Demos will be available at https://www.jenmusic.ai/research#DreamStyler.

JEN-1 DreamStyler: Gepersonaliseerd muzikaal concept leren via afstemming van cruciale parameters

JEN-1 DreamStyler: Customized Musical Concept Learning via Pivotal Parameters Tuning

Samenvatting

Support