JEN-1 DreamStyler : Apprentissage de concepts musicaux personnalisés via l'ajustement de paramètres pivots
JEN-1 DreamStyler: Customized Musical Concept Learning via Pivotal Parameters Tuning
June 18, 2024
Auteurs: Boyu Chen, Peike Li, Yao Yao, Alex Wang
cs.AI
Résumé
Les grands modèles pour la génération de texte-à-musique ont réalisé des progrès significatifs, facilitant la création de compositions musicales de haute qualité et variées à partir de prompts textuels fournis. Cependant, les prompts textuels en entrée peuvent ne pas capturer précisément les exigences des utilisateurs, en particulier lorsque l'objectif est de générer une musique qui incarne un concept spécifique dérivé d'une collection de référence désignée. Dans cet article, nous proposons une nouvelle méthode pour la génération personnalisée de texte-à-musique, capable de capturer le concept à partir d'une musique de référence de deux minutes et de générer une nouvelle pièce musicale conforme à ce concept. Nous y parvenons en affinant un modèle pré-entraîné de texte-à-musique à l'aide de la musique de référence. Cependant, l'affinement direct de tous les paramètres entraîne des problèmes de sur-apprentissage. Pour résoudre ce problème, nous proposons une méthode d'Affinement des Paramètres Pivots qui permet au modèle d'assimiler le nouveau concept tout en préservant ses capacités génératives originales. De plus, nous identifions un conflit potentiel de concept lors de l'introduction de multiples concepts dans le modèle pré-entraîné. Nous présentons une stratégie d'amélioration des concepts pour distinguer plusieurs concepts, permettant au modèle affiné de générer une musique intégrant soit des concepts individuels, soit plusieurs concepts simultanément. Étant les premiers à travailler sur la tâche de génération musicale personnalisée, nous introduisons également un nouveau jeu de données et un protocole d'évaluation pour cette nouvelle tâche. Notre Jen1-DreamStyler proposé surpasse plusieurs modèles de référence dans les évaluations qualitatives et quantitatives. Les démonstrations seront disponibles sur https://www.jenmusic.ai/research#DreamStyler.
English
Large models for text-to-music generation have achieved significant progress,
facilitating the creation of high-quality and varied musical compositions from
provided text prompts. However, input text prompts may not precisely capture
user requirements, particularly when the objective is to generate music that
embodies a specific concept derived from a designated reference collection. In
this paper, we propose a novel method for customized text-to-music generation,
which can capture the concept from a two-minute reference music and generate a
new piece of music conforming to the concept. We achieve this by fine-tuning a
pretrained text-to-music model using the reference music. However, directly
fine-tuning all parameters leads to overfitting issues. To address this
problem, we propose a Pivotal Parameters Tuning method that enables the model
to assimilate the new concept while preserving its original generative
capabilities. Additionally, we identify a potential concept conflict when
introducing multiple concepts into the pretrained model. We present a concept
enhancement strategy to distinguish multiple concepts, enabling the fine-tuned
model to generate music incorporating either individual or multiple concepts
simultaneously. Since we are the first to work on the customized music
generation task, we also introduce a new dataset and evaluation protocol for
the new task. Our proposed Jen1-DreamStyler outperforms several baselines in
both qualitative and quantitative evaluations. Demos will be available at
https://www.jenmusic.ai/research#DreamStyler.Summary
AI-Generated Summary