ChatPaper.aiChatPaper

JEN-1 DreamStyler: Apprendimento Personalizzato di Concetti Musicali tramite Ottimizzazione dei Parametri Chiave

JEN-1 DreamStyler: Customized Musical Concept Learning via Pivotal Parameters Tuning

June 18, 2024
Autori: Boyu Chen, Peike Li, Yao Yao, Alex Wang
cs.AI

Abstract

I modelli di grandi dimensioni per la generazione di musica da testo hanno compiuto progressi significativi, facilitando la creazione di composizioni musicali di alta qualità e varietà a partire da prompt testuali forniti. Tuttavia, i prompt testuali in ingresso potrebbero non catturare con precisione i requisiti dell'utente, specialmente quando l'obiettivo è generare musica che incarni un concetto specifico derivato da una collezione di riferimento designata. In questo articolo, proponiamo un metodo innovativo per la generazione personalizzata di musica da testo, in grado di catturare il concetto da un brano musicale di riferimento della durata di due minuti e generare un nuovo brano conforme al concetto. Raggiungiamo questo obiettivo ottimizzando un modello pre-addestrato per la generazione di musica da testo utilizzando il brano di riferimento. Tuttavia, l'ottimizzazione diretta di tutti i parametri porta a problemi di overfitting. Per affrontare questa problematica, proponiamo un metodo di Ottimizzazione dei Parametri Pivotal che consente al modello di assimilare il nuovo concetto preservando le sue capacità generative originali. Inoltre, identifichiamo un potenziale conflitto di concetti quando si introducono più concetti nel modello pre-addestrato. Presentiamo una strategia di potenziamento del concetto per distinguere più concetti, consentendo al modello ottimizzato di generare musica che incorpori singoli o molteplici concetti simultaneamente. Poiché siamo i primi a lavorare sul compito di generazione musicale personalizzata, introduciamo anche un nuovo dataset e un protocollo di valutazione per il nuovo compito. Il nostro Jen1-DreamStyler proposto supera diverse baseline sia nelle valutazioni qualitative che quantitative. Le demo saranno disponibili su https://www.jenmusic.ai/research#DreamStyler.
English
Large models for text-to-music generation have achieved significant progress, facilitating the creation of high-quality and varied musical compositions from provided text prompts. However, input text prompts may not precisely capture user requirements, particularly when the objective is to generate music that embodies a specific concept derived from a designated reference collection. In this paper, we propose a novel method for customized text-to-music generation, which can capture the concept from a two-minute reference music and generate a new piece of music conforming to the concept. We achieve this by fine-tuning a pretrained text-to-music model using the reference music. However, directly fine-tuning all parameters leads to overfitting issues. To address this problem, we propose a Pivotal Parameters Tuning method that enables the model to assimilate the new concept while preserving its original generative capabilities. Additionally, we identify a potential concept conflict when introducing multiple concepts into the pretrained model. We present a concept enhancement strategy to distinguish multiple concepts, enabling the fine-tuned model to generate music incorporating either individual or multiple concepts simultaneously. Since we are the first to work on the customized music generation task, we also introduce a new dataset and evaluation protocol for the new task. Our proposed Jen1-DreamStyler outperforms several baselines in both qualitative and quantitative evaluations. Demos will be available at https://www.jenmusic.ai/research#DreamStyler.
PDF42February 7, 2026