JEN-1 DreamStyler: Gepersonaliseerd muzikaal concept leren via afstemming van cruciale parameters
JEN-1 DreamStyler: Customized Musical Concept Learning via Pivotal Parameters Tuning
June 18, 2024
Auteurs: Boyu Chen, Peike Li, Yao Yao, Alex Wang
cs.AI
Samenvatting
Grote modellen voor tekst-naar-muziekgeneratie hebben aanzienlijke vooruitgang geboekt, waardoor het mogelijk is om hoogwaardige en gevarieerde muziekcomposities te creëren op basis van gegeven tekstprompts. Echter, kunnen tekstprompts niet altijd precies de gebruikerswensen vastleggen, vooral wanneer het doel is om muziek te genereren die een specifiek concept belichaamt dat is afgeleid van een aangewezen referentiecollectie. In dit artikel stellen we een nieuwe methode voor voor gepersonaliseerde tekst-naar-muziekgeneratie, die het concept kan vastleggen uit een tweeminuten durend referentiemuziekstuk en een nieuw muziekstuk kan genereren dat aan dit concept voldoet. We bereiken dit door een vooraf getraind tekst-naar-muziekmodel te finetunen met behulp van de referentiemuziek. Echter, leidt het direct finetunen van alle parameters tot overfittingproblemen. Om dit probleem aan te pakken, stellen we een Pivotal Parameters Tuning-methode voor die het model in staat stelt om het nieuwe concept te assimileren terwijl het zijn oorspronkelijke generatieve capaciteiten behoudt. Daarnaast identificeren we een mogelijk conceptconflict wanneer meerdere concepten worden geïntroduceerd in het vooraf getrainde model. We presenteren een conceptversterkingsstrategie om meerdere concepten te onderscheiden, waardoor het gefinetunede model muziek kan genereren die individuele of meerdere concepten tegelijkertijd omvat. Aangezien wij de eersten zijn die werken aan de gepersonaliseerde muziekgeneratietaak, introduceren we ook een nieuwe dataset en evaluatieprotocol voor deze nieuwe taak. Onze voorgestelde Jen1-DreamStyler presteert beter dan verschillende baseline-methoden in zowel kwalitatieve als kwantitatieve evaluaties. Demo's zullen beschikbaar zijn op https://www.jenmusic.ai/research#DreamStyler.
English
Large models for text-to-music generation have achieved significant progress,
facilitating the creation of high-quality and varied musical compositions from
provided text prompts. However, input text prompts may not precisely capture
user requirements, particularly when the objective is to generate music that
embodies a specific concept derived from a designated reference collection. In
this paper, we propose a novel method for customized text-to-music generation,
which can capture the concept from a two-minute reference music and generate a
new piece of music conforming to the concept. We achieve this by fine-tuning a
pretrained text-to-music model using the reference music. However, directly
fine-tuning all parameters leads to overfitting issues. To address this
problem, we propose a Pivotal Parameters Tuning method that enables the model
to assimilate the new concept while preserving its original generative
capabilities. Additionally, we identify a potential concept conflict when
introducing multiple concepts into the pretrained model. We present a concept
enhancement strategy to distinguish multiple concepts, enabling the fine-tuned
model to generate music incorporating either individual or multiple concepts
simultaneously. Since we are the first to work on the customized music
generation task, we also introduce a new dataset and evaluation protocol for
the new task. Our proposed Jen1-DreamStyler outperforms several baselines in
both qualitative and quantitative evaluations. Demos will be available at
https://www.jenmusic.ai/research#DreamStyler.