JEN-1 DreamStyler : Apprentissage de concepts musicaux personnalisés via l'ajustement de paramètres pivots

papers.abstract

Les grands modèles pour la génération de texte-à-musique ont réalisé des progrès significatifs, facilitant la création de compositions musicales de haute qualité et variées à partir de prompts textuels fournis. Cependant, les prompts textuels en entrée peuvent ne pas capturer précisément les exigences des utilisateurs, en particulier lorsque l'objectif est de générer une musique qui incarne un concept spécifique dérivé d'une collection de référence désignée. Dans cet article, nous proposons une nouvelle méthode pour la génération personnalisée de texte-à-musique, capable de capturer le concept à partir d'une musique de référence de deux minutes et de générer une nouvelle pièce musicale conforme à ce concept. Nous y parvenons en affinant un modèle pré-entraîné de texte-à-musique à l'aide de la musique de référence. Cependant, l'affinement direct de tous les paramètres entraîne des problèmes de sur-apprentissage. Pour résoudre ce problème, nous proposons une méthode d'Affinement des Paramètres Pivots qui permet au modèle d'assimiler le nouveau concept tout en préservant ses capacités génératives originales. De plus, nous identifions un conflit potentiel de concept lors de l'introduction de multiples concepts dans le modèle pré-entraîné. Nous présentons une stratégie d'amélioration des concepts pour distinguer plusieurs concepts, permettant au modèle affiné de générer une musique intégrant soit des concepts individuels, soit plusieurs concepts simultanément. Étant les premiers à travailler sur la tâche de génération musicale personnalisée, nous introduisons également un nouveau jeu de données et un protocole d'évaluation pour cette nouvelle tâche. Notre Jen1-DreamStyler proposé surpasse plusieurs modèles de référence dans les évaluations qualitatives et quantitatives. Les démonstrations seront disponibles sur https://www.jenmusic.ai/research#DreamStyler.

English

Large models for text-to-music generation have achieved significant progress, facilitating the creation of high-quality and varied musical compositions from provided text prompts. However, input text prompts may not precisely capture user requirements, particularly when the objective is to generate music that embodies a specific concept derived from a designated reference collection. In this paper, we propose a novel method for customized text-to-music generation, which can capture the concept from a two-minute reference music and generate a new piece of music conforming to the concept. We achieve this by fine-tuning a pretrained text-to-music model using the reference music. However, directly fine-tuning all parameters leads to overfitting issues. To address this problem, we propose a Pivotal Parameters Tuning method that enables the model to assimilate the new concept while preserving its original generative capabilities. Additionally, we identify a potential concept conflict when introducing multiple concepts into the pretrained model. We present a concept enhancement strategy to distinguish multiple concepts, enabling the fine-tuned model to generate music incorporating either individual or multiple concepts simultaneously. Since we are the first to work on the customized music generation task, we also introduce a new dataset and evaluation protocol for the new task. Our proposed Jen1-DreamStyler outperforms several baselines in both qualitative and quantitative evaluations. Demos will be available at https://www.jenmusic.ai/research#DreamStyler.

JEN-1 DreamStyler : Apprentissage de concepts musicaux personnalisés via l'ajustement de paramètres pivots

JEN-1 DreamStyler: Customized Musical Concept Learning via Pivotal Parameters Tuning

papers.abstract

Support