JEN-1 DreamStyler: Individuelles musikalisches Konzeptlernen durch die Feinabstimmung zentraler Parameter.
JEN-1 DreamStyler: Customized Musical Concept Learning via Pivotal Parameters Tuning
June 18, 2024
Autoren: Boyu Chen, Peike Li, Yao Yao, Alex Wang
cs.AI
Zusammenfassung
Große Modelle für die Generierung von Text-zu-Musik haben signifikante Fortschritte erzielt, indem sie die Erstellung hochwertiger und vielfältiger musikalischer Kompositionen aus bereitgestellten Textvorgaben erleichtern. Allerdings können Eingabetextvorgaben die Benutzeranforderungen möglicherweise nicht präzise erfassen, insbesondere wenn das Ziel darin besteht, Musik zu generieren, die ein bestimmtes Konzept verkörpert, das aus einer festgelegten Referenzsammlung abgeleitet wurde. In diesem Papier schlagen wir eine neuartige Methode für die maßgeschneiderte Generierung von Text-zu-Musik vor, die das Konzept aus einer zweiminütigen Referenzmusik erfassen und ein neues Musikstück entsprechend dem Konzept generieren kann. Dies erreichen wir, indem wir ein vortrainiertes Text-zu-Musik-Modell mithilfe der Referenzmusik feinabstimmen. Direktes Feintuning aller Parameter führt jedoch zu Overfitting-Problemen. Um dieses Problem zu lösen, schlagen wir eine Methode zur Feinabstimmung von Schlüsselparametern vor, die es dem Modell ermöglicht, das neue Konzept zu assimilieren, während es seine ursprünglichen generativen Fähigkeiten bewahrt. Darüber hinaus identifizieren wir einen potenziellen Konflikt von Konzepten bei der Einführung mehrerer Konzepte in das vortrainierte Modell. Wir präsentieren eine Strategie zur Konzeptverbesserung, um mehrere Konzepte zu unterscheiden, sodass das feinabgestimmte Modell Musik generieren kann, die entweder einzelne oder mehrere Konzepte gleichzeitig einbezieht. Da wir die ersten sind, die an der Aufgabe der maßgeschneiderten Musikgenerierung arbeiten, stellen wir auch einen neuen Datensatz und ein Bewertungsprotokoll für die neue Aufgabe vor. Unser vorgeschlagener Jen1-DreamStyler übertrifft mehrere Basislinien sowohl in qualitativen als auch quantitativen Bewertungen. Demos sind verfügbar unter https://www.jenmusic.ai/research#DreamStyler.
English
Large models for text-to-music generation have achieved significant progress,
facilitating the creation of high-quality and varied musical compositions from
provided text prompts. However, input text prompts may not precisely capture
user requirements, particularly when the objective is to generate music that
embodies a specific concept derived from a designated reference collection. In
this paper, we propose a novel method for customized text-to-music generation,
which can capture the concept from a two-minute reference music and generate a
new piece of music conforming to the concept. We achieve this by fine-tuning a
pretrained text-to-music model using the reference music. However, directly
fine-tuning all parameters leads to overfitting issues. To address this
problem, we propose a Pivotal Parameters Tuning method that enables the model
to assimilate the new concept while preserving its original generative
capabilities. Additionally, we identify a potential concept conflict when
introducing multiple concepts into the pretrained model. We present a concept
enhancement strategy to distinguish multiple concepts, enabling the fine-tuned
model to generate music incorporating either individual or multiple concepts
simultaneously. Since we are the first to work on the customized music
generation task, we also introduce a new dataset and evaluation protocol for
the new task. Our proposed Jen1-DreamStyler outperforms several baselines in
both qualitative and quantitative evaluations. Demos will be available at
https://www.jenmusic.ai/research#DreamStyler.Summary
AI-Generated Summary