ChatPaper.aiChatPaper

JEN-1 DreamStyler: Individuelles musikalisches Konzeptlernen durch die Feinabstimmung zentraler Parameter.

JEN-1 DreamStyler: Customized Musical Concept Learning via Pivotal Parameters Tuning

June 18, 2024
Autoren: Boyu Chen, Peike Li, Yao Yao, Alex Wang
cs.AI

Zusammenfassung

Große Modelle für die Generierung von Text-zu-Musik haben signifikante Fortschritte erzielt, indem sie die Erstellung hochwertiger und vielfältiger musikalischer Kompositionen aus bereitgestellten Textvorgaben erleichtern. Allerdings können Eingabetextvorgaben die Benutzeranforderungen möglicherweise nicht präzise erfassen, insbesondere wenn das Ziel darin besteht, Musik zu generieren, die ein bestimmtes Konzept verkörpert, das aus einer festgelegten Referenzsammlung abgeleitet wurde. In diesem Papier schlagen wir eine neuartige Methode für die maßgeschneiderte Generierung von Text-zu-Musik vor, die das Konzept aus einer zweiminütigen Referenzmusik erfassen und ein neues Musikstück entsprechend dem Konzept generieren kann. Dies erreichen wir, indem wir ein vortrainiertes Text-zu-Musik-Modell mithilfe der Referenzmusik feinabstimmen. Direktes Feintuning aller Parameter führt jedoch zu Overfitting-Problemen. Um dieses Problem zu lösen, schlagen wir eine Methode zur Feinabstimmung von Schlüsselparametern vor, die es dem Modell ermöglicht, das neue Konzept zu assimilieren, während es seine ursprünglichen generativen Fähigkeiten bewahrt. Darüber hinaus identifizieren wir einen potenziellen Konflikt von Konzepten bei der Einführung mehrerer Konzepte in das vortrainierte Modell. Wir präsentieren eine Strategie zur Konzeptverbesserung, um mehrere Konzepte zu unterscheiden, sodass das feinabgestimmte Modell Musik generieren kann, die entweder einzelne oder mehrere Konzepte gleichzeitig einbezieht. Da wir die ersten sind, die an der Aufgabe der maßgeschneiderten Musikgenerierung arbeiten, stellen wir auch einen neuen Datensatz und ein Bewertungsprotokoll für die neue Aufgabe vor. Unser vorgeschlagener Jen1-DreamStyler übertrifft mehrere Basislinien sowohl in qualitativen als auch quantitativen Bewertungen. Demos sind verfügbar unter https://www.jenmusic.ai/research#DreamStyler.
English
Large models for text-to-music generation have achieved significant progress, facilitating the creation of high-quality and varied musical compositions from provided text prompts. However, input text prompts may not precisely capture user requirements, particularly when the objective is to generate music that embodies a specific concept derived from a designated reference collection. In this paper, we propose a novel method for customized text-to-music generation, which can capture the concept from a two-minute reference music and generate a new piece of music conforming to the concept. We achieve this by fine-tuning a pretrained text-to-music model using the reference music. However, directly fine-tuning all parameters leads to overfitting issues. To address this problem, we propose a Pivotal Parameters Tuning method that enables the model to assimilate the new concept while preserving its original generative capabilities. Additionally, we identify a potential concept conflict when introducing multiple concepts into the pretrained model. We present a concept enhancement strategy to distinguish multiple concepts, enabling the fine-tuned model to generate music incorporating either individual or multiple concepts simultaneously. Since we are the first to work on the customized music generation task, we also introduce a new dataset and evaluation protocol for the new task. Our proposed Jen1-DreamStyler outperforms several baselines in both qualitative and quantitative evaluations. Demos will be available at https://www.jenmusic.ai/research#DreamStyler.

Summary

AI-Generated Summary

PDF42December 4, 2024